ماشین حساب انحراف - جمعیت و انحراف نمونه
محاسبه تنوع و انحراف استاندارد برای مجموعه داده ها. پشتیبانی از تنوع جمعیت و نمونه. ماشین حساب آماری آنلاین رایگان برای نتایج فوری.
انحراف چیست؟
انحراف اندازه گیری می کندپخش شدناز یک مجموعه داده -- چقدر ارزش ها از میانگین فاصله دارند. اختلاف کم به این معنی است که نقاط داده در نزدیکی میانگین جمع می شوند. اختلاف زیاد به این معنی است که آنها به طور گسترده ای پخش می شوند.
انحراف به عنوان میانگین تفاوت های مربع از میانگین محاسبه می شود:
- تنوع جمعیت (σ2):σ2 = Σ(xi - μ) 2 / N
- انحراف نمونه (s2):s2 = Σ(xi - x̄) 2 / (N-1)
جایی که xi هر نقطه داده است، μ (یا x̄) میانگین است و N تعداد مقادیر است.انحراف استانداردبه سادگی جذر مربع واگرایی است -- در همان واحدهای داده های اصلی است، که آن را قابل تفسیر تر می کند.
چرا تفاوت ها را مربع می کنیم؟ دو دلیل: (1) مربع کردن مقادیر منفی را حذف می کند تا انحرافات بالاتر و پایین تر از میانگین لغو نشود و (2) مربع کردن وزن نامتناسبی به خارج از میانگین می دهد و باعث می شود تفاوت نسبت به مقادیر افراطی حساس باشد. این خاصیت هم یک قدرت (جستگیری خارج از میانگین) و هم یک ضعف (حساسیت خارج از میانگین) است. برای داده هایی با خارج از میانگین افراطی، استفاده ازمیانگین انحراف مطلق (MAD)به عنوان یک جایگزین قوی تر.
تنوع جمعیت در برابر نمونه
تفاوت اصلی در ممیز N در مقابل (N-1) است که به عنوان اصلاح بسل شناخته می شود:
| نوع | مقادیر | چه زمانی استفاده کنید | نماد |
|---|---|---|---|
| تنوع جمعیت | N | شما اطلاعات کل جمعیت رو دارید | σ² |
| انحراف نمونه | N-1 | شما نمونه ای از جمعیت بزرگتر دارید | s² |
در عمل، بیشتر داده های دنیای واقعی یک نمونه است. استفاده از N-1 (اختلاف نمونه) نتیجه ای را تولید می کند.برآورد بی طرفانهاستفاده از N (تفاوت جمعیت) در یک نمونه به طور سیستماتیک تفاوت واقعی را دست کم می گیرد.
مثال: آزمایش یک داروی جدید بر روی 50 بیمار به معنای استفاده از تنوع نمونه (s2) است. تجزیه و تحلیل همه دانش آموزان در یک کلاس به معنای استفاده از تنوع جمعیت (σ2) است.
چرا اصلاح بسل جواب می دهد؟هنگامی که شما میانگین نمونه را محاسبه می کنید، از یک "درجه آزادی" استفاده می کنید - میانگین از خود داده ها محاسبه می شود، بنابراین انحرافات از میانگین به طور کامل مستقل نیستند. تقسیم بر (N-1) به جای N برای این از دست دادن یک درجه آزادی جبران می کند، و یک برآورد غیر جانبدار از تنوع جمعیت را تولید می کند. با افزایش N، تفاوت بین N و N-1 ناچیز می شود.
محاسبه انحراف گام به گام
با توجه به مجموعه داده ها: 4، 7، 13، 2، 8
- میانگین را محاسبه کنید:(4+7+13+2+8) ÷ 5 = 34/5 =6.8
- انحرافات از میانگین را پیدا کنید:(4-6.8) =-2.8; (7-6.8) =0.2; (13-6.8) =6.2; (2-6.8) =-4.8; (8-6.8) =1.2
- مربع انحرافات:7.84؛ 0.04؛ 38.44؛ 23.04؛ 1.44
- جمع مربع ها:7.84+0.04+38.44+23.04+1.44 =70.8
- تنوع جمعیت:70.8 ÷ 5 =۱۴.۱۶
- اختلاف نمونه:70.8 ÷ 4 =17.7
- انحراف استاندارد:√14.16 =۳٫۷۶(جمعیت) یا √17.7 =۴.۲۱(نمونه)
فرمول میانبر برای انحراف
یک فرمول "حسابی" معادل وجود دارد که از محاسبه انحرافات به طور صریح جلوگیری می کند و در هنگام محاسبه دستی یا در صفحات گسترده مفید است:
σ2 = (Σxi2) /N - (Σxi/N) 2 = (Σxi2 - (Σxi) 2 /N) /N
برای انحراف نمونه:s2 = (Σxi2 - (Σxi)2/N) / (N-1)
با استفاده از داده های نمونه ما (۴، ۷، ۱۳، ۲، ۸):
- Σxi = 34، بنابراین (Σxi) 2 = 1,156
- Σxi2 = 16 + 49 + 169 + 4 + 64 = 302
- تنوع جمعیت = (302 - 1156/5) / 5 = (302 - 231.2) / 5 = 70.8 / 5 =۱۴.۱۶ ✓
- انحراف نمونه = 70.8 / 4 =17.7 ✓
این فرمول از نظر عددی یکسان است اما وقتی مقادیر بسیار بزرگ هستند ، می تواند از مشکلات دقت نقطه شناور رنج ببرد. برای ثبات محاسباتی ، الگوریتم آنلاین ولفورد (که یک مقدار را در یک زمان پردازش می کند) در پیاده سازی نرم افزار ترجیح داده می شود.
اقدامات آماری مرتبط
تنوع یکی از چندین اندازه گیری گسترش است. هر کدام دارای نقاط قوت مختلف است:
| اقدام | فرمول | واحد ها | استحکام به Outliers | بهترین برای |
|---|---|---|---|---|
| انحراف (σ2 یا s2) | میانگین انحرافات مربع | واحد های مربع | کم -- خیلی حساس | آمارهای نظری، ANOVA |
| انحراف استاندارد (σ یا s) | √تفاوت | مثل داده ها | کم | انتشار گزارش در واحدهای اصلی |
| محدوده | ماکس - من | مثل داده ها | خیلی کم | چک سریع، نمونه های کوچک |
| محدوده بین ربعین (IQR) | Q3 - Q1 | مثل داده ها | بالا | توزیع های منحرف، طرح های جعبه ای |
| میانگین انحراف مطلق (MAD) | به طور متوسط از | مثل داده ها | متوسط | اندازه گیری بدیهی انتشار |
| ضریب تغییر (CV) | (SD / میانگین) x 100% | درصد | کم | مقایسه گسترش در مقیاس های مختلف |
برای توزیع های نرمال (منحنی زنگ) ، انحراف استاندارد تفسیر خاصی دارد: تقریباً 68٪ از داده ها در محدوده + / - 1 SD از میانگین ، 95٪ در محدوده + / - 2 SD و 99.7٪ در محدوده + / - 3 SD قرار دارند.قانون تجربی(قاعده 68-95-99.7)
تفاوت در صفحات گسترده و برنامه ریزی
اکثر ابزارها دارای توابع متغیر داخلی هستند. مطمئن شوید که نسخه صحیح را انتخاب کرده اید (جمعیت در مقابل نمونه):
| ابزار | انحراف نمونه | تنوع جمعیت |
|---|---|---|
| برگه های اکسل / گوگل | VAR.S(range) or VAR(range) | VAR.P(range) or VARP(range) |
| پایتون (NumPy) | np.var(data, ddof=1) | np.var(data) |
| پایتون (ارقام) | statistics.variance(data) | statistics.pvariance(data) |
| R | var(x) | var(x) * (n-1)/n |
| جاوا اسکریپت | محاسبات دستی (بدون سیستم داخلی) | محاسبه دستی |
| SQL (PostgreSQL) | VAR_SAMP(column) | VAR_POP(column) |
| MATLAB | var(x) | var(x, 1) |
توجه: NumPy پایتون به طور پیش فرضجمعیتانحراف (ddof = 0) ، در حالی که Rvar()پیش فرض بهنمونهاین یک منبع رایج سردرگمی در هنگام مقایسه نتایج بین زبان ها است.
کاربردهای عملی تفاوت
| میدان | کاربرد | مثال |
|---|---|---|
| امور مالی | ریسک سرمایه گذاری | تنوع بالا = بازده های بی ثبات تر سهام |
| تولید | کنترل کیفیت | اختلاف کم = ابعاد ثابت محصول |
| دارویی | آزمایشات بالینی | اندازه گیری تنوع در پاسخ بیمار |
| علوم ورزشی | تحلیل عملکرد | تغییر در عملکرد ورزشکار در طول فصل |
| آموزش و پرورش | تجزیه و تحلیل نمره آزمون | درک گسترش عملکرد دانشجویی |
انحراف در امور مالی: ریسک نمونه کارها
در امور مالی، واگرایی و انحراف استاندارد ریسک سرمایه گذاری را اندازه گیری می کنند. واگرایی بالاتر به این معنی است که بازده بیشتر نوسان می کند - سرمایه گذاری خطرناک تر است.نظریه جدید نمونه کارها(۱۹۵۲، جایزه نوبل ۱۹۹۰) از تنوع به عنوان اندازه گیری ریسک مرکزی استفاده می کند.
برای یک نمونه کارها از دو دارایی، اختلاف ترکیبی بستگی به اختلافات فردی دارد.وارتباط بین دارایی ها:
σ²سوابق= w12σ12 + w22σ22 + 2·w1·w2·σ1·σ2·ρ12
که در آن w = وزن، σ2 = انحراف، و ρ = همبستگی. هنگامی که ρ < 1 (اثاثرها در حرکت کامل قفل حرکت نمی کنند) ، انحراف نمونه کارهاکمتراین اساس ریاضی تنوع است -- ترکیب دارایی های غیر مرتبط ریسک کلی را کاهش می دهد بدون اینکه به طور متناسب بازده مورد انتظار را کاهش دهد.
| طبقه دارایی (۲۰۰۰ تا ۲۰۲۳) | بازده سالانه | سالیانه SD (تذبذب) |
|---|---|---|
| ایالات متحده بزرگ Cap (S&P 500) | ~7.5 درصد | ~15% |
| ایالات متحده Small Cap (راسل 2000) | ~7.0 درصد | 20درصد |
| بین المللی توسعه یافته (EAFE) | ~4.5 درصد | ~17% |
| اوراق قرضه آمریکا (مجموعی) | ~4.0% | ~4 درصد |
| طلا | ~8.0٪ | ~16% |
یک نمونه کار ترکیبی از سهام و اوراق قرضه به طور معمول دارای یک انحراف استاندارد به طور قابل توجهی پایین تر از سهام به تنهایی، در حالی که هنوز هم گرفتن بیشتر از حق بیمه بازگشت سهام.
اختلاف در کنترل کیفیت (ششم سیگما)
تولید از تنوع برای کنترل کیفیت محصول استفاده می کند.شش سیگمااین روش که توسط موتورولا در دهه ۱۹۸۰ توسعه داده شد، هدف آن کاهش اختلاف فرآیند است تا زمانی که عملاً هیچ محصولی خارج از محدوده مشخصات نباشد.
| سطح سیگما | نقص در هر میلیون (DPMO) | تسلیم | قابلیت پردازش (Cpk) |
|---|---|---|---|
| 1σ | ۶۹۱،۴۶۲ | 30.9 درصد | 0.33 |
| 2σ | 308,538 | ۶۹٫۱٪ | 0.67 |
| 3σ | ۶۶۸۰۷ | 93.3 درصد | ۱٫۰۰ |
| 4σ | ۶۲۱۰ | 99.38 درصد | ۱.۳۳ |
| 5σ | ۲۳۳ | 99.977 درصد | ۱.۶۷ |
| 6σ | 3.4 | 99.99966 درصد | ساعت 2 |
یک فرآیند که در 6σ کار می کند تنها 3.4 نقص در هر میلیون فرصت تولید می کند.CpkCpk = (USL - μ) / (3σ) ، که در آن USL محدوده فوقانی مشخصات است. کاهش اختلاف (از طریق ماشین آلات بهتر، آموزش یا مواد) باعث افزایش Cpk می شود و فرآیند را به سمت کیفیت شش سیگما سوق می دهد.
نمونه هایی از زمینه های مختلف
این مثال های دنیای واقعی نشان می دهد که چگونه در عمل تفاوت محاسبه و تفسیر می شود:
مثال 1: نوسان بازده سهام
بازده ماهانه برای یک سهام بیش از 6 ماه: +3.2٪، -1.5٪، +4.8٪، -0.7٪، +2.1٪، +1.6٪
- میانگین = (3.2-1.5+4.8-0.7+2.1+1.6) / 6 = 9.5/6 =1.583 درصد
- انحرافات: 1.617, -3.083, 3.217, -2.283, 0.517, 0.017
- مربع: 2.615، 9.504، 10.349، 5.212، 0.267، 0.0003
- جمع مربعات = 27947
- انحراف نمونه = 27.947/5 =5.589 (%2)
- انحراف استاندارد = √5.589 =2.364%در هر ماه
- نوسان سالیانه ~ 2.364% x √12 =۸.۱۹%
این سهام دارای نوسانات متوسطی است. S&P 500 به طور تاریخی دارای نوسانات سالانه 15٪ است، بنابراین این سهام تقریبا نیمی از نوسانات بازار گسترده است.
مثال 2: کنترل کیفیت تولید
یک کارخانه پیچ با طول هدف 50.00 میلیمتر تولید می کند. یک نمونه از 8 پیچ اندازه گیری می کند: 50.02، 49.98، 50.05، 49.97، 50.01، 50.03، 49.99، 50.00 میلیمتر.
- میانگین = 400.05/8 =50.00625 میلیمتر
- انحراف نمونه =0.000655 میلی متر مربع
- انحراف استاندارد =0.0256 میلیمتر
- با محدوده مشخصات 50.00 +/- 0.10 میلیمتر: Cpk = (50.10 - 50.006) / (3 x 0.0256) =1.22
Cpk 1.22 به این معنی است که فرآیند قادر است اما حاشیه کمی دارد. هدف استاندارد صنعت Cpk >= 1.33 (4σ قابلیت) است ، بنابراین این فرآیند برای رسیدن به این سطح نیاز به کنترل دقیق تر دارد.
مثال سوم: نمرات آزمون دانش آموزان
یک کلاس از 10 دانش آموز نمرات: 72، 85، 90، 68، 77، 95، 83، 79، 88، 73 در یک امتحان.
- میانگین = 810/10 =81.0
- تنوع جمعیت (کل کلاس) =۷۲٫۲
- انحراف استاندارد =۸٫۵۰
- ضریب تغییرات = 8.50/81.0 x 100% =10.5 درصد
CV 10.5٪ نشان دهنده انتشار متوسط است - اکثر دانش آموزان در محدوده معقول میانگین عملکرد داشته اند. اگر CV بیش از 25٪ باشد، مربی ممکن است بررسی کند که آیا آزمون برای برخی از دانش آموزان بسیار دشوار است یا اینکه آیا توزیع دوگانه (دو گروه متمایز) وجود دارد.
اشتباهات متداول در محاسبه انحراف
از این اشتباهات مکرر اجتناب کنید:
| اشتباه | چرا اشتباه است؟ | تصحیح |
|---|---|---|
| استفاده از N به جای N-1 برای نمونه ها | تفاوت واقعی جمعیت را دست کم می گیرد | از N-1 برای هر داده ای که نمونه ای از جمعیت بزرگتر است استفاده کنید |
| میانگین کردن انحرافات مطلق به جای مربع کردن | MAD می دهد، نه انحراف | هر انحراف را به توان دو برسانید، سپس میانگین را. √ را برای انحراف استاندارد بگیرید |
| فراموش کردن مربع کردن قبل از میانگین کردن | انحرافات مثبت و منفی با هم جبران می شوند و نتیجه 0 می شود. | هميشه انحرافات مربعي اول |
| مقایسه واگرایی در مقیاس های مختلف | انحراف به واحد بستگی دارد؛ $2 ≠ kg2 | استفاده از ضریب تغییر (CV) برای مقایسه مقیاس متقابل |
| فرض کردن واگرایی = انحراف استاندارد | انحراف SD2 است؛ واحد ها مربع شده اند. | برای بدست آوردن SD، از ریشه مربع واگرایی استفاده کنید. |
ANOVA: مقایسه تفاوت بین گروه ها
تجزیه و تحلیل انحراف (ANOVA)یک تست آماری است که میانگین های چندین گروه را با تجزیه و تحلیل واگرایی مقایسه می کند. با وجود نام، آن را تست می کند که آیا میانگین های گروه متفاوت است، نه اینکه آیا واگرایی متفاوت است.
ANOVA انحراف کل را به دو جزء تقسیم می کند:
- اختلاف بین گروه ها:چقدر میانگین گروه از میانگین کلی متفاوت است
- اختلاف درون گروه:چقدر ارزش های فردی در هر گروه متفاوت است
The آمار Fاگر F از مقدار بحرانی (یا p < 0.05) فراتر رود، حداقل میانگین یک گروه به طور قابل توجهی متفاوت است.
مثال: مقایسه نمرات آزمون دانش آموزانی که با سه روش مختلف تدریس می شوند. ANOVA به شما می گوید که آیا روش تدریس مهم است؛ تست های پس از دوره (Tukey، Bonferroni) به شما می گویندکهروش ها متفاوت هستند.
میدونستی؟
- تنوع توسط رونالد فیشر در سال ۱۹۱۸ معرفی شد -- همان مقاله ای که در آن اصطلاح "تغییر" را ابداع کرد.
- در امور مالی، ناهمگونی پایه نظریه جدید نمونه کارها است. ناهمگونی یک نمونه کارها نه تنها به ناهمگونی دارایی های فردی بلکه به همبستگی بین دارایی ها بستگی دارد.
- ضریب تغییرات (CV = انحراف استاندارد / میانگین x 100٪) اجازه می دهد تا متغیر در مجموعه داده ها با واحدهای مختلف یا مقیاس را مقایسه کند.
- نابرابری Chebyshev تضمین می کند که برایهر چیزیتوزیع (نه فقط نرمال) ، حداقل ۷۵٪ از داده ها در فاصله های استاندارد +/-2 و حداقل ۸۹٪ در فاصله های استاندارد +/-3 قرار می گیرند. این ضعیف تر از قاعده تجربی است اما به طور جهانی اعمال می شود.
سوالات متداول
تفاوت بین واگرایی و انحراف استاندارد چیست؟
انحراف متوسط انحراف مربع از میانگین است؛ انحراف استاندارد ریشه مربع آن است. انحراف استاندارد در همان واحدهای داده های اصلی (به عنوان مثال، دلار، کیلوگرم، ثانیه) است، که آن را قابل تفسیر تر می کند. انحراف در عملیات ریاضی مفید است (اختلاف متغیرهای مستقل به طور مستقیم اضافه می شود) ، در حالی که انحراف استاندارد برای توصیف گسترش به مخاطبان غیر فنی بهتر است.
چه زمانی باید از واگرایی نمونه در مقابل جمعیت استفاده کنم؟
هنگامی که داده های شما شامل هر عضو گروه مورد تجزیه و تحلیل است (به عنوان مثال ، همه کارمندان یک شرکت) ، از انحراف جمعیت استفاده کنید. هنگامی که داده های شما یک زیرمجموعه از یک گروه بزرگتر است (به عنوان مثال ، یک نظرسنجی از 500 رای دهنده برای برآورد نظرات همه رای دهندگان) ، از انحراف نمونه استفاده کنید. در اکثر تحقیقات و آمار دنیای واقعی ، انحراف نمونه مناسب است.
می تونه اختلاف منفی باشه؟
نه. واگرایی همیشه صفر یا مثبت است زیرا از مقادیر مربع محاسبه می شود. واگرایی = 0 تنها زمانی که تمام نقاط داده یکسان باشند (بدون گسترش). واگرایی منفی از نظر ریاضی غیرممکن است و نشان دهنده خطای محاسبه است.
تفاوت "بالا" یا "کم" چیست؟
بالا و پایین نسبت به مقیاس و زمینه داده ها است. اختلاف 10 برای ارتفاع انسان در سانتی متر "کم" است اما برای ارتفاع در متر "بالا" است. ضریب تغییر (SD / میانگین x 100٪) مستقل از مقیاس است و امکان مقایسه بین مجموعه داده های مختلف را فراهم می کند. در کنترل کیفیت ، مشخصات محدوده های اختلاف قابل قبول را برای هر اندازه گیری تعریف می کند.
تفاوت با توزیع نرمال چه ربطی داره؟
توزیع نرمال (گاوسی) به طور کامل توسط تنها دو پارامتر توصیف می شود: میانگین (μ) و واگرایی (σ2). منحنی زنگ آشنا هنگامی که واگرایی بزرگ است، گسترده تر و هنگامی که واگرایی کوچک است، تنگ تر است. برای داده های نرمال، قانون تجربی برقرار است: 68.3٪ در +/-1σ، 95.4٪ در +/-2σ و 99.7٪ در +/-3σ. بسیاری از تست های آماری (تست t، ANOVA، رگرسیون) فرض می کنند که داده ها از یک توزیع نرمال پیروی می کنند یا اینکه میانگین نمونه تقریباً نرمال است (از طریق قضیه حد مرکزی).
انحراف جمع شده چيست؟
واگرایی جمع شده یک میانگین وزنی از واگرایی های نمونه از دو یا چند گروه است که در آزمایش t دو نمونه استفاده می شود وقتی واگرایی های برابر در میان گروه ها را فرض می کنید. فرمول این است: s2جمع آوری شده= [(n1-1) s12 + (n2-1) s22] / (n1 + n2 - 2). این یک برآورد تک ناهمگونی را تولید می کند که شامل اطلاعات از هر دو نمونه است و قدرت آماری را افزایش می دهد زمانی که فرضیه ناهمگونی برابر معتبر است.