Skip to main content
🔬 Advanced

ماشین حساب انحراف - جمعیت و انحراف نمونه

محاسبه تنوع و انحراف استاندارد برای مجموعه داده ها. پشتیبانی از تنوع جمعیت و نمونه. ماشین حساب آماری آنلاین رایگان برای نتایج فوری.

انحراف چیست؟

انحراف اندازه گیری می کندپخش شدناز یک مجموعه داده -- چقدر ارزش ها از میانگین فاصله دارند. اختلاف کم به این معنی است که نقاط داده در نزدیکی میانگین جمع می شوند. اختلاف زیاد به این معنی است که آنها به طور گسترده ای پخش می شوند.

انحراف به عنوان میانگین تفاوت های مربع از میانگین محاسبه می شود:

جایی که xi هر نقطه داده است، μ (یا x̄) میانگین است و N تعداد مقادیر است.انحراف استانداردبه سادگی جذر مربع واگرایی است -- در همان واحدهای داده های اصلی است، که آن را قابل تفسیر تر می کند.

چرا تفاوت ها را مربع می کنیم؟ دو دلیل: (1) مربع کردن مقادیر منفی را حذف می کند تا انحرافات بالاتر و پایین تر از میانگین لغو نشود و (2) مربع کردن وزن نامتناسبی به خارج از میانگین می دهد و باعث می شود تفاوت نسبت به مقادیر افراطی حساس باشد. این خاصیت هم یک قدرت (جستگیری خارج از میانگین) و هم یک ضعف (حساسیت خارج از میانگین) است. برای داده هایی با خارج از میانگین افراطی، استفاده ازمیانگین انحراف مطلق (MAD)به عنوان یک جایگزین قوی تر.

تنوع جمعیت در برابر نمونه

تفاوت اصلی در ممیز N در مقابل (N-1) است که به عنوان اصلاح بسل شناخته می شود:

نوعمقادیرچه زمانی استفاده کنیدنماد
تنوع جمعیتNشما اطلاعات کل جمعیت رو داریدσ²
انحراف نمونهN-1شما نمونه ای از جمعیت بزرگتر دارید

در عمل، بیشتر داده های دنیای واقعی یک نمونه است. استفاده از N-1 (اختلاف نمونه) نتیجه ای را تولید می کند.برآورد بی طرفانهاستفاده از N (تفاوت جمعیت) در یک نمونه به طور سیستماتیک تفاوت واقعی را دست کم می گیرد.

مثال: آزمایش یک داروی جدید بر روی 50 بیمار به معنای استفاده از تنوع نمونه (s2) است. تجزیه و تحلیل همه دانش آموزان در یک کلاس به معنای استفاده از تنوع جمعیت (σ2) است.

چرا اصلاح بسل جواب می دهد؟هنگامی که شما میانگین نمونه را محاسبه می کنید، از یک "درجه آزادی" استفاده می کنید - میانگین از خود داده ها محاسبه می شود، بنابراین انحرافات از میانگین به طور کامل مستقل نیستند. تقسیم بر (N-1) به جای N برای این از دست دادن یک درجه آزادی جبران می کند، و یک برآورد غیر جانبدار از تنوع جمعیت را تولید می کند. با افزایش N، تفاوت بین N و N-1 ناچیز می شود.

محاسبه انحراف گام به گام

با توجه به مجموعه داده ها: 4، 7، 13، 2، 8

  1. میانگین را محاسبه کنید:(4+7+13+2+8) ÷ 5 = 34/5 =6.8
  2. انحرافات از میانگین را پیدا کنید:(4-6.8) =-2.8; (7-6.8) =0.2; (13-6.8) =6.2; (2-6.8) =-4.8; (8-6.8) =1.2
  3. مربع انحرافات:7.84؛ 0.04؛ 38.44؛ 23.04؛ 1.44
  4. جمع مربع ها:7.84+0.04+38.44+23.04+1.44 =70.8
  5. تنوع جمعیت:70.8 ÷ 5 =۱۴.۱۶
  6. اختلاف نمونه:70.8 ÷ 4 =17.7
  7. انحراف استاندارد:√14.16 =۳٫۷۶(جمعیت) یا √17.7 =۴.۲۱(نمونه)

فرمول میانبر برای انحراف

یک فرمول "حسابی" معادل وجود دارد که از محاسبه انحرافات به طور صریح جلوگیری می کند و در هنگام محاسبه دستی یا در صفحات گسترده مفید است:

σ2 = (Σxi2) /N - (Σxi/N) 2 = (Σxi2 - (Σxi) 2 /N) /N

برای انحراف نمونه:s2 = (Σxi2 - (Σxi)2/N) / (N-1)

با استفاده از داده های نمونه ما (۴، ۷، ۱۳، ۲، ۸):

  1. Σxi = 34، بنابراین (Σxi) 2 = 1,156
  2. Σxi2 = 16 + 49 + 169 + 4 + 64 = 302
  3. تنوع جمعیت = (302 - 1156/5) / 5 = (302 - 231.2) / 5 = 70.8 / 5 =۱۴.۱۶
  4. انحراف نمونه = 70.8 / 4 =17.7

این فرمول از نظر عددی یکسان است اما وقتی مقادیر بسیار بزرگ هستند ، می تواند از مشکلات دقت نقطه شناور رنج ببرد. برای ثبات محاسباتی ، الگوریتم آنلاین ولفورد (که یک مقدار را در یک زمان پردازش می کند) در پیاده سازی نرم افزار ترجیح داده می شود.

اقدامات آماری مرتبط

تنوع یکی از چندین اندازه گیری گسترش است. هر کدام دارای نقاط قوت مختلف است:

اقدامفرمولواحد هااستحکام به Outliersبهترین برای
انحراف (σ2 یا s2)میانگین انحرافات مربعواحد های مربعکم -- خیلی حساسآمارهای نظری، ANOVA
انحراف استاندارد (σ یا s)√تفاوتمثل داده هاکمانتشار گزارش در واحدهای اصلی
محدودهماکس - منمثل داده هاخیلی کمچک سریع، نمونه های کوچک
محدوده بین ربعین (IQR)Q3 - Q1مثل داده هابالاتوزیع های منحرف، طرح های جعبه ای
میانگین انحراف مطلق (MAD)به طور متوسط ازمثل داده هامتوسطاندازه گیری بدیهی انتشار
ضریب تغییر (CV)(SD / میانگین) x 100%درصدکممقایسه گسترش در مقیاس های مختلف

برای توزیع های نرمال (منحنی زنگ) ، انحراف استاندارد تفسیر خاصی دارد: تقریباً 68٪ از داده ها در محدوده + / - 1 SD از میانگین ، 95٪ در محدوده + / - 2 SD و 99.7٪ در محدوده + / - 3 SD قرار دارند.قانون تجربی(قاعده 68-95-99.7)

تفاوت در صفحات گسترده و برنامه ریزی

اکثر ابزارها دارای توابع متغیر داخلی هستند. مطمئن شوید که نسخه صحیح را انتخاب کرده اید (جمعیت در مقابل نمونه):

ابزارانحراف نمونهتنوع جمعیت
برگه های اکسل / گوگلVAR.S(range) or VAR(range)VAR.P(range) or VARP(range)
پایتون (NumPy)np.var(data, ddof=1)np.var(data)
پایتون (ارقام)statistics.variance(data)statistics.pvariance(data)
Rvar(x)var(x) * (n-1)/n
جاوا اسکریپتمحاسبات دستی (بدون سیستم داخلی)محاسبه دستی
SQL (PostgreSQL)VAR_SAMP(column)VAR_POP(column)
MATLABvar(x)var(x, 1)

توجه: NumPy پایتون به طور پیش فرضجمعیتانحراف (ddof = 0) ، در حالی که Rvar()پیش فرض بهنمونهاین یک منبع رایج سردرگمی در هنگام مقایسه نتایج بین زبان ها است.

کاربردهای عملی تفاوت

میدانکاربردمثال
امور مالیریسک سرمایه گذاریتنوع بالا = بازده های بی ثبات تر سهام
تولیدکنترل کیفیتاختلاف کم = ابعاد ثابت محصول
داروییآزمایشات بالینیاندازه گیری تنوع در پاسخ بیمار
علوم ورزشیتحلیل عملکردتغییر در عملکرد ورزشکار در طول فصل
آموزش و پرورشتجزیه و تحلیل نمره آزموندرک گسترش عملکرد دانشجویی

انحراف در امور مالی: ریسک نمونه کارها

در امور مالی، واگرایی و انحراف استاندارد ریسک سرمایه گذاری را اندازه گیری می کنند. واگرایی بالاتر به این معنی است که بازده بیشتر نوسان می کند - سرمایه گذاری خطرناک تر است.نظریه جدید نمونه کارها(۱۹۵۲، جایزه نوبل ۱۹۹۰) از تنوع به عنوان اندازه گیری ریسک مرکزی استفاده می کند.

برای یک نمونه کارها از دو دارایی، اختلاف ترکیبی بستگی به اختلافات فردی دارد.وارتباط بین دارایی ها:

σ²سوابق= w12σ12 + w22σ22 + 2·w1·w2·σ1·σ2·ρ12

که در آن w = وزن، σ2 = انحراف، و ρ = همبستگی. هنگامی که ρ < 1 (اثاثرها در حرکت کامل قفل حرکت نمی کنند) ، انحراف نمونه کارهاکمتراین اساس ریاضی تنوع است -- ترکیب دارایی های غیر مرتبط ریسک کلی را کاهش می دهد بدون اینکه به طور متناسب بازده مورد انتظار را کاهش دهد.

طبقه دارایی (۲۰۰۰ تا ۲۰۲۳)بازده سالانهسالیانه SD (تذبذب)
ایالات متحده بزرگ Cap (S&P 500)~7.5 درصد~15%
ایالات متحده Small Cap (راسل 2000)~7.0 درصد20درصد
بین المللی توسعه یافته (EAFE)~4.5 درصد~17%
اوراق قرضه آمریکا (مجموعی)~4.0%~4 درصد
طلا~8.0٪~16%

یک نمونه کار ترکیبی از سهام و اوراق قرضه به طور معمول دارای یک انحراف استاندارد به طور قابل توجهی پایین تر از سهام به تنهایی، در حالی که هنوز هم گرفتن بیشتر از حق بیمه بازگشت سهام.

اختلاف در کنترل کیفیت (ششم سیگما)

تولید از تنوع برای کنترل کیفیت محصول استفاده می کند.شش سیگمااین روش که توسط موتورولا در دهه ۱۹۸۰ توسعه داده شد، هدف آن کاهش اختلاف فرآیند است تا زمانی که عملاً هیچ محصولی خارج از محدوده مشخصات نباشد.

سطح سیگمانقص در هر میلیون (DPMO)تسلیمقابلیت پردازش (Cpk)
۶۹۱،۴۶۲30.9 درصد0.33
308,538۶۹٫۱٪0.67
۶۶۸۰۷93.3 درصد۱٫۰۰
۶۲۱۰99.38 درصد۱.۳۳
۲۳۳99.977 درصد۱.۶۷
3.499.99966 درصدساعت 2

یک فرآیند که در 6σ کار می کند تنها 3.4 نقص در هر میلیون فرصت تولید می کند.CpkCpk = (USL - μ) / (3σ) ، که در آن USL محدوده فوقانی مشخصات است. کاهش اختلاف (از طریق ماشین آلات بهتر، آموزش یا مواد) باعث افزایش Cpk می شود و فرآیند را به سمت کیفیت شش سیگما سوق می دهد.

نمونه هایی از زمینه های مختلف

این مثال های دنیای واقعی نشان می دهد که چگونه در عمل تفاوت محاسبه و تفسیر می شود:

مثال 1: نوسان بازده سهام

بازده ماهانه برای یک سهام بیش از 6 ماه: +3.2٪، -1.5٪، +4.8٪، -0.7٪، +2.1٪، +1.6٪

  1. میانگین = (3.2-1.5+4.8-0.7+2.1+1.6) / 6 = 9.5/6 =1.583 درصد
  2. انحرافات: 1.617, -3.083, 3.217, -2.283, 0.517, 0.017
  3. مربع: 2.615، 9.504، 10.349، 5.212، 0.267، 0.0003
  4. جمع مربعات = 27947
  5. انحراف نمونه = 27.947/5 =5.589 (%2)
  6. انحراف استاندارد = √5.589 =2.364%در هر ماه
  7. نوسان سالیانه ~ 2.364% x √12 =۸.۱۹%

این سهام دارای نوسانات متوسطی است. S&P 500 به طور تاریخی دارای نوسانات سالانه 15٪ است، بنابراین این سهام تقریبا نیمی از نوسانات بازار گسترده است.

مثال 2: کنترل کیفیت تولید

یک کارخانه پیچ با طول هدف 50.00 میلیمتر تولید می کند. یک نمونه از 8 پیچ اندازه گیری می کند: 50.02، 49.98، 50.05، 49.97، 50.01، 50.03، 49.99، 50.00 میلیمتر.

  1. میانگین = 400.05/8 =50.00625 میلیمتر
  2. انحراف نمونه =0.000655 میلی متر مربع
  3. انحراف استاندارد =0.0256 میلیمتر
  4. با محدوده مشخصات 50.00 +/- 0.10 میلیمتر: Cpk = (50.10 - 50.006) / (3 x 0.0256) =1.22

Cpk 1.22 به این معنی است که فرآیند قادر است اما حاشیه کمی دارد. هدف استاندارد صنعت Cpk >= 1.33 (4σ قابلیت) است ، بنابراین این فرآیند برای رسیدن به این سطح نیاز به کنترل دقیق تر دارد.

مثال سوم: نمرات آزمون دانش آموزان

یک کلاس از 10 دانش آموز نمرات: 72، 85، 90، 68، 77، 95، 83، 79، 88، 73 در یک امتحان.

  1. میانگین = 810/10 =81.0
  2. تنوع جمعیت (کل کلاس) =۷۲٫۲
  3. انحراف استاندارد =۸٫۵۰
  4. ضریب تغییرات = 8.50/81.0 x 100% =10.5 درصد

CV 10.5٪ نشان دهنده انتشار متوسط است - اکثر دانش آموزان در محدوده معقول میانگین عملکرد داشته اند. اگر CV بیش از 25٪ باشد، مربی ممکن است بررسی کند که آیا آزمون برای برخی از دانش آموزان بسیار دشوار است یا اینکه آیا توزیع دوگانه (دو گروه متمایز) وجود دارد.

اشتباهات متداول در محاسبه انحراف

از این اشتباهات مکرر اجتناب کنید:

اشتباهچرا اشتباه است؟تصحیح
استفاده از N به جای N-1 برای نمونه هاتفاوت واقعی جمعیت را دست کم می گیرداز N-1 برای هر داده ای که نمونه ای از جمعیت بزرگتر است استفاده کنید
میانگین کردن انحرافات مطلق به جای مربع کردنMAD می دهد، نه انحرافهر انحراف را به توان دو برسانید، سپس میانگین را. √ را برای انحراف استاندارد بگیرید
فراموش کردن مربع کردن قبل از میانگین کردنانحرافات مثبت و منفی با هم جبران می شوند و نتیجه 0 می شود.هميشه انحرافات مربعي اول
مقایسه واگرایی در مقیاس های مختلفانحراف به واحد بستگی دارد؛ $2 ≠ kg2استفاده از ضریب تغییر (CV) برای مقایسه مقیاس متقابل
فرض کردن واگرایی = انحراف استانداردانحراف SD2 است؛ واحد ها مربع شده اند.برای بدست آوردن SD، از ریشه مربع واگرایی استفاده کنید.

ANOVA: مقایسه تفاوت بین گروه ها

تجزیه و تحلیل انحراف (ANOVA)یک تست آماری است که میانگین های چندین گروه را با تجزیه و تحلیل واگرایی مقایسه می کند. با وجود نام، آن را تست می کند که آیا میانگین های گروه متفاوت است، نه اینکه آیا واگرایی متفاوت است.

ANOVA انحراف کل را به دو جزء تقسیم می کند:

The آمار Fاگر F از مقدار بحرانی (یا p < 0.05) فراتر رود، حداقل میانگین یک گروه به طور قابل توجهی متفاوت است.

مثال: مقایسه نمرات آزمون دانش آموزانی که با سه روش مختلف تدریس می شوند. ANOVA به شما می گوید که آیا روش تدریس مهم است؛ تست های پس از دوره (Tukey، Bonferroni) به شما می گویندکهروش ها متفاوت هستند.

میدونستی؟

سوالات متداول

تفاوت بین واگرایی و انحراف استاندارد چیست؟

انحراف متوسط انحراف مربع از میانگین است؛ انحراف استاندارد ریشه مربع آن است. انحراف استاندارد در همان واحدهای داده های اصلی (به عنوان مثال، دلار، کیلوگرم، ثانیه) است، که آن را قابل تفسیر تر می کند. انحراف در عملیات ریاضی مفید است (اختلاف متغیرهای مستقل به طور مستقیم اضافه می شود) ، در حالی که انحراف استاندارد برای توصیف گسترش به مخاطبان غیر فنی بهتر است.

چه زمانی باید از واگرایی نمونه در مقابل جمعیت استفاده کنم؟

هنگامی که داده های شما شامل هر عضو گروه مورد تجزیه و تحلیل است (به عنوان مثال ، همه کارمندان یک شرکت) ، از انحراف جمعیت استفاده کنید. هنگامی که داده های شما یک زیرمجموعه از یک گروه بزرگتر است (به عنوان مثال ، یک نظرسنجی از 500 رای دهنده برای برآورد نظرات همه رای دهندگان) ، از انحراف نمونه استفاده کنید. در اکثر تحقیقات و آمار دنیای واقعی ، انحراف نمونه مناسب است.

می تونه اختلاف منفی باشه؟

نه. واگرایی همیشه صفر یا مثبت است زیرا از مقادیر مربع محاسبه می شود. واگرایی = 0 تنها زمانی که تمام نقاط داده یکسان باشند (بدون گسترش). واگرایی منفی از نظر ریاضی غیرممکن است و نشان دهنده خطای محاسبه است.

تفاوت "بالا" یا "کم" چیست؟

بالا و پایین نسبت به مقیاس و زمینه داده ها است. اختلاف 10 برای ارتفاع انسان در سانتی متر "کم" است اما برای ارتفاع در متر "بالا" است. ضریب تغییر (SD / میانگین x 100٪) مستقل از مقیاس است و امکان مقایسه بین مجموعه داده های مختلف را فراهم می کند. در کنترل کیفیت ، مشخصات محدوده های اختلاف قابل قبول را برای هر اندازه گیری تعریف می کند.

تفاوت با توزیع نرمال چه ربطی داره؟

توزیع نرمال (گاوسی) به طور کامل توسط تنها دو پارامتر توصیف می شود: میانگین (μ) و واگرایی (σ2). منحنی زنگ آشنا هنگامی که واگرایی بزرگ است، گسترده تر و هنگامی که واگرایی کوچک است، تنگ تر است. برای داده های نرمال، قانون تجربی برقرار است: 68.3٪ در +/-1σ، 95.4٪ در +/-2σ و 99.7٪ در +/-3σ. بسیاری از تست های آماری (تست t، ANOVA، رگرسیون) فرض می کنند که داده ها از یک توزیع نرمال پیروی می کنند یا اینکه میانگین نمونه تقریباً نرمال است (از طریق قضیه حد مرکزی).

انحراف جمع شده چيست؟

واگرایی جمع شده یک میانگین وزنی از واگرایی های نمونه از دو یا چند گروه است که در آزمایش t دو نمونه استفاده می شود وقتی واگرایی های برابر در میان گروه ها را فرض می کنید. فرمول این است: s2جمع آوری شده= [(n1-1) s12 + (n2-1) s22] / (n1 + n2 - 2). این یک برآورد تک ناهمگونی را تولید می کند که شامل اطلاعات از هر دو نمونه است و قدرت آماری را افزایش می دهد زمانی که فرضیه ناهمگونی برابر معتبر است.

متغیر همیشه صفر یا مثبت است زیرا از مقادیر مربع محاسبه می شود. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0 تنها زمانی که تمام نقاط داده یکسان باشند. متغیر = 0