داده کاوی در مقابل انبار داده
Data Mining و Data Warehousing هر دو تکنیک های بسیار قدرتمند و محبوبی برای تجزیه و تحلیل داده ها هستند. کاربرانی که به آمار تمایل دارند از داده کاوی استفاده می کنند. آنها از مدل های آماری برای جستجوی الگوهای پنهان در داده ها استفاده می کنند. داده کاوی ها علاقه مند به یافتن روابط مفید بین عناصر داده های مختلف هستند که در نهایت برای کسب و کارها سودآور است. اما از سوی دیگر، کارشناسان داده که می توانند ابعاد کسب و کار را به طور مستقیم تجزیه و تحلیل کنند، تمایل دارند از انبارهای داده استفاده کنند.
داده کاوی به عنوان کشف دانش در داده ها (KDD) نیز شناخته می شود. همانطور که در بالا ذکر شد، رشته ای از علوم کامپیوتر است که به استخراج اطلاعات ناشناخته و جالب قبلی از داده های خام می پردازد.با توجه به رشد تصاعدی داده ها، به ویژه در زمینه هایی مانند تجارت، داده کاوی به ابزار بسیار مهمی برای تبدیل این حجم عظیم از داده ها به هوش تجاری تبدیل شده است، زیرا استخراج دستی الگوها در چند دهه گذشته به ظاهر غیرممکن شده است. به عنوان مثال، در حال حاضر برای کاربردهای مختلفی مانند تجزیه و تحلیل شبکه های اجتماعی، کشف تقلب و بازاریابی استفاده می شود. داده کاوی معمولاً با چهار کار زیر سر و کار دارد: خوشه بندی، طبقه بندی، رگرسیون و تداعی. خوشه بندی شناسایی گروه های مشابه از داده های بدون ساختار است. طبقه بندی قوانین یادگیری است که می تواند برای داده های جدید اعمال شود و معمولاً شامل مراحل زیر است: پیش پردازش داده ها، طراحی مدل سازی، یادگیری / انتخاب ویژگی و ارزیابی / اعتبار سنجی. رگرسیون یافتن توابعی با حداقل خطا برای مدل سازی داده ها است. و انجمن به دنبال روابط بین متغیرها است. داده کاوی معمولاً برای پاسخ دادن به سؤالاتی مانند محصولات اصلی که ممکن است به کسب سود بالا در سال آینده در وال مارت کمک کند کدامند استفاده می شود؟
همانطور که در بالا ذکر شد، انبار داده نیز برای تجزیه و تحلیل داده ها استفاده می شود، اما توسط مجموعه های مختلف کاربران و هدف کمی متفاوت در ذهن. به عنوان مثال، وقتی صحبت از بخش خردهفروشی میشود، کاربران انبار داده بیشتر به این فکر میکنند که چه نوع خریدهایی در بین مشتریان محبوب هستند، بنابراین نتایج تجزیه و تحلیل میتواند با بهبود تجربه مشتری به مشتری کمک کند. اما دادهکاویها ابتدا فرضیهای را حدس میزنند مانند اینکه مشتریان نوع خاصی از محصول را خریداری میکنند و دادهها را برای آزمایش این فرضیه تجزیه و تحلیل میکنند. ذخیرهسازی دادهها میتواند توسط یک خردهفروش بزرگ انجام شود که در ابتدا فروشگاههای خود را با همان اندازههای محصولات ذخیره میکند تا بعداً متوجه شود که فروشگاههای نیویورک موجودی کوچکتر را بسیار سریعتر از فروشگاههای شیکاگو میفروشند. بنابراین، با مشاهده این نتیجه، خردهفروش میتواند فروشگاه نیویورک را با اندازههای کوچکتر در مقایسه با فروشگاههای شیکاگو ذخیره کند.
بنابراین، همانطور که به وضوح می بینید، به نظر می رسد که این دو نوع تجزیه و تحلیل با چشم غیرمسلح ماهیت یکسانی دارند.هر دو نگران افزایش سود بر اساس داده های تاریخی هستند. اما البته، تفاوت های کلیدی وجود دارد. به زبان ساده، Data Mining و Data Warehousing به ارائه انواع مختلف تجزیه و تحلیل اختصاص داده شده است، اما قطعا برای انواع مختلف کاربران. به عبارت دیگر، داده کاوی به دنبال همبستگی ها، الگوهایی برای حمایت از یک فرضیه آماری است. اما، انبار داده به یک سوال نسبتاً گستردهتر پاسخ میدهد و دادهها را از آنجا به بعد برش میدهد تا راههای بهبود را در آینده تشخیص دهد.