KDD در مقابل داده کاوی
KDD (کشف دانش در پایگاههای داده) رشتهای از علوم رایانه است که شامل ابزارها و نظریههایی برای کمک به انسان در استخراج اطلاعات مفید و ناشناخته قبلی (یعنی دانش) از مجموعههای بزرگ دادههای دیجیتالی است. KDD از چندین مرحله تشکیل شده است که داده کاوی یکی از آنهاست. داده کاوی استفاده از یک الگوریتم خاص به منظور استخراج الگوها از داده ها است. با این وجود، KDD و داده کاوی به جای هم استفاده می شوند.
KDD چیست؟
همانطور که در بالا ذکر شد، KDD یک رشته از علوم کامپیوتر است که به استخراج اطلاعات ناشناخته و جالب قبلی از داده های خام می پردازد. KDD کل فرآیند تلاش برای معنا بخشیدن به داده ها با توسعه روش ها یا تکنیک های مناسب است. این فرآیند با نگاشت دادههای سطح پایین به اشکال دیگر که فشردهتر، انتزاعیتر و مفیدتر هستند، سروکار دارد. این امر با ایجاد گزارشهای کوتاه، مدلسازی فرآیند تولید دادهها و توسعه مدلهای پیشبینیکننده که میتواند موارد آینده را پیشبینی کند به دست میآید. با توجه به رشد تصاعدی داده ها، به ویژه در زمینه هایی مانند تجارت، KDD به یک فرآیند بسیار مهم برای تبدیل این حجم عظیم از داده ها به هوش تجاری تبدیل شده است، زیرا استخراج دستی الگوها در چند دهه گذشته به ظاهر غیرممکن شده است. به عنوان مثال، در حال حاضر برای کاربردهای مختلفی مانند تجزیه و تحلیل شبکه های اجتماعی، کشف تقلب، علم، سرمایه گذاری، تولید، مخابرات، پاکسازی داده ها، ورزش، بازیابی اطلاعات و عمدتاً برای بازاریابی استفاده می شود. KDD معمولاً برای پاسخ به سؤالاتی مانند محصولات اصلی که ممکن است به کسب سود بالا در سال آینده در وال مارت کمک کند، استفاده می شود؟این فرآیند چندین مرحله دارد. با ایجاد درک درستی از دامنه برنامه و هدف و سپس ایجاد یک مجموعه داده هدف شروع می شود. به دنبال آن پاکسازی، پیش پردازش، کاهش و نمایش داده ها انجام می شود. گام بعدی استفاده از داده کاوی (در زیر توضیح داده شده) برای شناسایی الگو است. در نهایت، دانش کشف شده با تجسم و/یا تفسیر تثبیت می شود.
داده کاوی چیست؟
همانطور که در بالا ذکر شد، داده کاوی تنها یک مرحله در فرآیند کلی KDD است. دو هدف اصلی داده کاوی وجود دارد که توسط هدف برنامه تعریف شده است و آنها تأیید یا کشف هستند. تأیید فرضیه کاربر در مورد داده ها را تأیید می کند، در حالی که کشف به طور خودکار الگوهای جالب را پیدا می کند. چهار وظیفه داده کاوی عمده وجود دارد: خوشه بندی، طبقه بندی، رگرسیون و تداعی (خلاصه سازی). خوشه بندی شناسایی گروه های مشابه از داده های بدون ساختار است. طبقه بندی قوانین یادگیری است که می تواند برای داده های جدید اعمال شود.رگرسیون یافتن توابعی با حداقل خطا برای مدل سازی داده ها است. و انجمن به دنبال روابط بین متغیرها است. سپس، الگوریتم داده کاوی خاص باید انتخاب شود. بسته به هدف، الگوریتمهای مختلفی مانند رگرسیون خطی، رگرسیون لجستیک، درختهای تصمیمگیری و Naïve Bayes را میتوان انتخاب کرد. سپس الگوهای مورد علاقه در یک یا چند فرم بازنمایی جستجو می شوند. در نهایت، مدلها با استفاده از دقت پیشبینی یا قابل درک ارزیابی میشوند.
تفاوت بین KDD و داده کاوی چیست؟
اگرچه دو اصطلاح KDD و داده کاوی به شدت به جای یکدیگر استفاده می شوند، اما به دو مفهوم مرتبط و در عین حال کمی متفاوت اشاره دارند. KDD فرآیند کلی استخراج دانش از داده ها است در حالی که داده کاوی گامی در داخل فرآیند KDD است که با شناسایی الگوها در داده ها سر و کار دارد. به عبارت دیگر، داده کاوی تنها کاربرد یک الگوریتم خاص بر اساس هدف کلی فرآیند KDD است.