گرایش مرکزی در مقابل پراکندگی
در آمار توصیفی و استنباطی، چندین شاخص برای توصیف یک مجموعه داده مطابق با تمایل مرکزی، پراکندگی و چولگی آن استفاده می شود: سه ویژگی مهم که شکل نسبی توزیع یک مجموعه داده را تعیین می کنند.
گرایش مرکزی چیست؟
گرایش مرکزی به مرکز توزیع ارزش ها اشاره دارد و آن را قرار می دهد. میانگین، حالت و میانه رایجترین شاخصهایی هستند که در توصیف گرایش مرکزی یک مجموعه داده استفاده میشوند. اگر یک مجموعه داده متقارن باشد، هر دو میانه و میانگین مجموعه داده ها با یکدیگر منطبق هستند.
با توجه به یک مجموعه داده، میانگین با جمع آوری تمام مقادیر داده ها و سپس تقسیم آن بر تعداد داده ها محاسبه می شود. به عنوان مثال، وزن 10 نفر (به کیلوگرم) 70، 62، 65، 72، 80، 70، 63، 72، 77 و 79 اندازه گیری می شود. سپس میانگین وزن ده نفر (به کیلوگرم) می تواند باشد. به صورت زیر محاسبه می شود. مجموع اوزان 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710 است. میانگین=(جمع) / (تعداد داده ها)=710 / 10=71 (به کیلوگرم). قابل درک است که نقاط پرت (نقاط داده ای که از روند عادی منحرف می شوند) تمایل دارند بر میانگین تأثیر بگذارند. بنابراین، در حضور پرت، میانگین به تنهایی تصویر درستی از مرکز مجموعه داده ارائه نمی دهد.
میانگین نقطه داده ای است که دقیقاً در وسط مجموعه داده یافت می شود. یک راه برای محاسبه میانه این است که نقاط داده را به ترتیب صعودی مرتب کنید و سپس نقطه داده را در وسط قرار دهید. به عنوان مثال، اگر یک بار سفارش داده شود، مجموعه داده های قبلی به نظر می رسد، 62، 63، 65، 70، 70، 72، 72، 77، 79، 80.بنابراین، (70+72)/2=71 در وسط است. از این، مشاهده می شود که نیازی نیست میانه در مجموعه داده ها باشد. میانه تحت تأثیر وجود نقاط پرت قرار نمی گیرد. بنابراین، میانه به عنوان معیار بهتری برای سنجش گرایش مرکزی در حضور پرت عمل خواهد کرد.
حالت رایج ترین مقداری است که در مجموعه داده ها رخ می دهد. در مثال قبلی، مقدار 70 و 72 هر دو دو بار رخ می دهد و بنابراین، هر دو حالت هستند. این نشان می دهد که در برخی از توزیع ها بیش از یک مقدار مدال وجود دارد. اگر فقط یک حالت وجود داشته باشد، مجموعه دادهها یکوجهی است، در این مورد، مجموعه داده دووجهی است.
پراکندگی چیست؟
پراکندگی میزان انتشار داده ها در مورد مرکز توزیع است. محدوده و انحراف معیار رایج ترین معیارهای پراکندگی هستند.
محدوده به سادگی بالاترین مقدار منهای کمترین مقدار است. در مثال قبلی، بالاترین مقدار 80 و کمترین مقدار 62 است، بنابراین محدوده 80-62=18 است. اما محدوده تصویر کافی در مورد پراکندگی ارائه نمی دهد.
برای محاسبه انحراف معیار، ابتدا انحراف مقادیر داده ها از میانگین محاسبه می شود. ریشه مربع میانگین انحرافات را انحراف معیار می گویند. در مثال قبلی، انحرافات مربوطه از میانگین عبارتند از (70 – 71)=-1، (62 – 71)=-9، (65 – 71)=-6، (72 – 71)=1، (80 – 71)=9، (70 – 71)=-1، (63 – 71)=-8، (72 – 71)=1، (77 – 71)=6 و (79 – 71)=8. مجموع مربعات انحراف برابر است با (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 انحراف معیار √(366/10)=6.05 (بر حسب کیلوگرم) است. مگر اینکه مجموعه دادهها تا حد زیادی منحرف شده باشد، از اینجا میتوان نتیجه گرفت که اکثر دادهها در بازه 6.05±71 قرار دارند و در این مثال خاص واقعاً چنین است.
تفاوت بین تمایل مرکزی و پراکندگی چیست؟
• گرایش مرکزی به مرکز توزیع مقادیر اشاره دارد و آن را قرار می دهد
• پراکندگی میزان انتشار داده ها در مرکز یک مجموعه داده است.