خوشه بندی سلسله مراتبی در مقابل تقسیم بندی
خوشهبندی یک تکنیک یادگیری ماشینی برای تجزیه و تحلیل دادهها و تقسیم به گروههایی از دادههای مشابه است. این گروه ها یا مجموعه ای از داده های مشابه به عنوان خوشه شناخته می شوند. تجزیه و تحلیل خوشه ای به الگوریتم های خوشه بندی می پردازد که می توانند خوشه ها را به طور خودکار شناسایی کنند. سلسله مراتبی و پارتیشنی دو دسته از الگوریتم های خوشه بندی هستند. الگوریتم های خوشه بندی سلسله مراتبی داده ها را به سلسله مراتبی از خوشه ها تقسیم می کنند. الگوریتم های پارتیشن مجموعه داده ها را به پارتیشن های متقابل تقسیم می کنند.
خوشهبندی سلسله مراتبی چیست؟
الگوریتم های خوشه بندی سلسله مراتبی چرخه ادغام خوشه های کوچکتر به خوشه های بزرگتر یا تقسیم خوشه های بزرگتر به خوشه های کوچکتر را تکرار می کنند.در هر صورت، سلسله مراتبی از خوشه ها به نام دندوگرام تولید می کند. استراتژی خوشهبندی انبوهی از رویکرد پایین به بالا برای ادغام خوشهها به خوشههای بزرگتر استفاده میکند، در حالی که استراتژی خوشهبندی تقسیمبندی از رویکرد از بالا به پایین تقسیم به خوشههای کوچکتر استفاده میکند. به طور معمول، از رویکرد حریصانه برای تصمیم گیری در مورد اینکه کدام خوشه های بزرگتر/کوچکتر برای ادغام/تقسیم استفاده می شود استفاده می شود. فاصله اقلیدسی، فاصله منهتن و تشابه کسینوس برخی از متداول ترین معیارهای مشابه برای داده های عددی هستند. برای داده های غیر عددی از معیارهایی مانند فاصله همینگ استفاده می شود. توجه به این نکته مهم است که مشاهدات (نمونه) واقعی برای خوشه بندی سلسله مراتبی مورد نیاز نیستند، زیرا فقط ماتریس فواصل کافی است. Dendogram یک نمایش بصری از خوشه ها است که سلسله مراتب را به وضوح نشان می دهد. کاربر می تواند بسته به سطحی که دندوگرام در آن بریده می شود، خوشه بندی های مختلفی را بدست آورد.
خوشه بندی پارتیشن چیست؟
الگوریتمهای خوشهبندی پارتیشن، پارتیشنهای مختلفی تولید میکنند و سپس آنها را با معیارهایی ارزیابی میکنند.آنها همچنین به عنوان غیر سلسله مراتبی شناخته می شوند زیرا هر نمونه دقیقاً در یکی از k خوشه های متقابل منحصر به فرد قرار می گیرد. از آنجایی که تنها یک مجموعه از خوشه ها خروجی یک الگوریتم خوشه بندی پارتیشن معمولی است، کاربر باید تعداد دلخواه خوشه (که معمولا k نامیده می شود) را وارد کند. یکی از متداولترین الگوریتمهای خوشهبندی پارتیشنی، الگوریتم خوشهبندی k-means است. کاربر باید قبل از شروع، تعداد خوشهها (k) را ارائه کند و الگوریتم ابتدا مراکز (یا مرکز) پارتیشنهای k را راهاندازی میکند. به طور خلاصه، الگوریتم خوشه بندی k-means سپس اعضا را بر اساس مراکز فعلی تخصیص می دهد و مراکز را بر اساس اعضای فعلی دوباره تخمین می زند. این دو مرحله تا زمانی که یک تابع هدف شباهت درون خوشه ای خاص و تابع هدف عدم تشابه بین خوشه ای بهینه شوند، تکرار می شوند. بنابراین، مقداردهی اولیه معقول مراکز عامل بسیار مهمی در به دست آوردن نتایج کیفی از الگوریتمهای خوشهبندی پارتیشن است.
تفاوت بین خوشه بندی سلسله مراتبی و پارتیشن چیست؟
خوشهبندی سلسله مراتبی و پارتیشنی تفاوتهای کلیدی در زمان اجرا، مفروضات، پارامترهای ورودی و خوشههای حاصل دارند. به طور معمول، خوشه بندی پارتیشن سریعتر از خوشه بندی سلسله مراتبی است. خوشهبندی سلسله مراتبی تنها به یک معیار تشابه نیاز دارد، در حالی که خوشهبندی پارتیشن به مفروضات قویتری مانند تعداد خوشهها و مراکز اولیه نیاز دارد. خوشهبندی سلسله مراتبی به هیچ پارامتر ورودی نیاز ندارد، در حالی که الگوریتمهای خوشهبندی پارتیشن به تعداد خوشهها برای شروع اجرا نیاز دارند. خوشهبندی سلسله مراتبی، تقسیمبندی معنادارتر و ذهنیتری از خوشهها را برمیگرداند، اما خوشهبندی پارتیشنی دقیقاً به k خوشهها منجر میشود. الگوریتمهای خوشهبندی سلسله مراتبی برای دادههای طبقهبندی مناسبتر هستند تا زمانی که بتوان معیار تشابه را بر این اساس تعریف کرد.