تفاوت بین خوشه بندی سلسله مراتبی و پارتیشنی

تصویری: تفاوت بین خوشه بندی سلسله مراتبی و پارتیشنی

تصویری: پایگاه های داده متمرکز در مقابل توزیع شده 2024, نوامبر

2024 نویسنده: Alex Aldridge | [email protected]. آخرین اصلاح شده: 2023-12-17 13:37

خوشه بندی سلسله مراتبی در مقابل تقسیم بندی

خوشه‌بندی یک تکنیک یادگیری ماشینی برای تجزیه و تحلیل داده‌ها و تقسیم به گروه‌هایی از داده‌های مشابه است. این گروه ها یا مجموعه ای از داده های مشابه به عنوان خوشه شناخته می شوند. تجزیه و تحلیل خوشه ای به الگوریتم های خوشه بندی می پردازد که می توانند خوشه ها را به طور خودکار شناسایی کنند. سلسله مراتبی و پارتیشنی دو دسته از الگوریتم های خوشه بندی هستند. الگوریتم های خوشه بندی سلسله مراتبی داده ها را به سلسله مراتبی از خوشه ها تقسیم می کنند. الگوریتم های پارتیشن مجموعه داده ها را به پارتیشن های متقابل تقسیم می کنند.

خوشه‌بندی سلسله مراتبی چیست؟

الگوریتم های خوشه بندی سلسله مراتبی چرخه ادغام خوشه های کوچکتر به خوشه های بزرگتر یا تقسیم خوشه های بزرگتر به خوشه های کوچکتر را تکرار می کنند.در هر صورت، سلسله مراتبی از خوشه ها به نام دندوگرام تولید می کند. استراتژی خوشه‌بندی انبوهی از رویکرد پایین به بالا برای ادغام خوشه‌ها به خوشه‌های بزرگتر استفاده می‌کند، در حالی که استراتژی خوشه‌بندی تقسیم‌بندی از رویکرد از بالا به پایین تقسیم به خوشه‌های کوچکتر استفاده می‌کند. به طور معمول، از رویکرد حریصانه برای تصمیم گیری در مورد اینکه کدام خوشه های بزرگتر/کوچکتر برای ادغام/تقسیم استفاده می شود استفاده می شود. فاصله اقلیدسی، فاصله منهتن و تشابه کسینوس برخی از متداول ترین معیارهای مشابه برای داده های عددی هستند. برای داده های غیر عددی از معیارهایی مانند فاصله همینگ استفاده می شود. توجه به این نکته مهم است که مشاهدات (نمونه) واقعی برای خوشه بندی سلسله مراتبی مورد نیاز نیستند، زیرا فقط ماتریس فواصل کافی است. Dendogram یک نمایش بصری از خوشه ها است که سلسله مراتب را به وضوح نشان می دهد. کاربر می تواند بسته به سطحی که دندوگرام در آن بریده می شود، خوشه بندی های مختلفی را بدست آورد.

خوشه بندی پارتیشن چیست؟

الگوریتم‌های خوشه‌بندی پارتیشن، پارتیشن‌های مختلفی تولید می‌کنند و سپس آنها را با معیارهایی ارزیابی می‌کنند.آنها همچنین به عنوان غیر سلسله مراتبی شناخته می شوند زیرا هر نمونه دقیقاً در یکی از k خوشه های متقابل منحصر به فرد قرار می گیرد. از آنجایی که تنها یک مجموعه از خوشه ها خروجی یک الگوریتم خوشه بندی پارتیشن معمولی است، کاربر باید تعداد دلخواه خوشه (که معمولا k نامیده می شود) را وارد کند. یکی از متداول‌ترین الگوریتم‌های خوشه‌بندی پارتیشنی، الگوریتم خوشه‌بندی k-means است. کاربر باید قبل از شروع، تعداد خوشه‌ها (k) را ارائه کند و الگوریتم ابتدا مراکز (یا مرکز) پارتیشن‌های k را راه‌اندازی می‌کند. به طور خلاصه، الگوریتم خوشه بندی k-means سپس اعضا را بر اساس مراکز فعلی تخصیص می دهد و مراکز را بر اساس اعضای فعلی دوباره تخمین می زند. این دو مرحله تا زمانی که یک تابع هدف شباهت درون خوشه ای خاص و تابع هدف عدم تشابه بین خوشه ای بهینه شوند، تکرار می شوند. بنابراین، مقداردهی اولیه معقول مراکز عامل بسیار مهمی در به دست آوردن نتایج کیفی از الگوریتم‌های خوشه‌بندی پارتیشن است.

تفاوت بین خوشه بندی سلسله مراتبی و پارتیشن چیست؟

خوشه‌بندی سلسله مراتبی و پارتیشنی تفاوت‌های کلیدی در زمان اجرا، مفروضات، پارامترهای ورودی و خوشه‌های حاصل دارند. به طور معمول، خوشه بندی پارتیشن سریعتر از خوشه بندی سلسله مراتبی است. خوشه‌بندی سلسله مراتبی تنها به یک معیار تشابه نیاز دارد، در حالی که خوشه‌بندی پارتیشن به مفروضات قوی‌تری مانند تعداد خوشه‌ها و مراکز اولیه نیاز دارد. خوشه‌بندی سلسله مراتبی به هیچ پارامتر ورودی نیاز ندارد، در حالی که الگوریتم‌های خوشه‌بندی پارتیشن به تعداد خوشه‌ها برای شروع اجرا نیاز دارند. خوشه‌بندی سلسله مراتبی، تقسیم‌بندی معنادارتر و ذهنی‌تری از خوشه‌ها را برمی‌گرداند، اما خوشه‌بندی پارتیشنی دقیقاً به k خوشه‌ها منجر می‌شود. الگوریتم‌های خوشه‌بندی سلسله مراتبی برای داده‌های طبقه‌بندی مناسب‌تر هستند تا زمانی که بتوان معیار تشابه را بر این اساس تعریف کرد.