Skip to main content
🔬 Advanced

Υπολογιστής διακύμανσης - πληθυσμός και διακύμανση δείγματος

Υπολογίζει τη διακύμανση και την τυπική απόκλιση για ένα σύνολο δεδομένων. Υποστηρίζει τη διακύμανση πληθυσμού και δείγματος. Δωρεάν ηλεκτρονικός υπολογιστής στατιστικών για στιγμιαία αποτελέσματα.

Τι Είναι η Διακύμανση;

Η διακύμανση μετρά τηνεξάπλωσηΜια χαμηλή διακύμανση σημαίνει ότι τα δεδομένα συγκεντρώνονται κοντά στο μέσο όρο, μια υψηλή διακύμανση σημαίνει ότι είναι ευρέως διασκορπισμένα.

Η απόκλιση υπολογίζεται ως ο μέσος όρος των τετραγωνικών διαφορών από το μέσο όρο:

όπου xi είναι κάθε σημείο δεδομένων, μ (ή x̄) είναι ο μέσος όρος και N είναι ο αριθμός των τιμών.τυπική απόκλισηείναι απλά η τετραγωνική ρίζα της διακύμανσης -- είναι στις ίδιες μονάδες με τα αρχικά δεδομένα, καθιστώντας την πιο ερμηνεύσιμη.

Γιατί τετραγωνίζουμε τις διαφορές; Δύο λόγοι: (1) ο τετραγωνισμός εξαλείφει τις αρνητικές τιμές, έτσι ώστε οι αποκλίσεις πάνω και κάτω από το μέσο όρο να μην ακυρώνονται, και (2) ο τετραγωνισμός δίνει δυσανάλογο βάρος σε εξωτερικές τιμές, καθιστώντας την απόκλιση ευαίσθητη σε ακραίες τιμές.μέση απόλυτη απόκλιση (MAD)ως μια πιο ισχυρή εναλλακτική λύση.

Πληθυσμός έναντι διακύμανσης δείγματος

Η βασική διαφορά είναι ο παρονομαστής -- N έναντι (N-1) -- γνωστός ως διόρθωση του Μπέσελ:

ΤύποςΟνομαστήςΧρησιμοποιήστεΣύμβολο
Διακύμανση του πληθυσμούNΈχετε δεδομένα για ολόκληρο τον πληθυσμόσ²
Διακύμανση του δείγματοςΝ-1Έχετε ένα δείγμα από ένα μεγαλύτερο πληθυσμό

Στην πράξη, τα περισσότερα δεδομένα του πραγματικού κόσμου αποτελούν δείγμα.αμερόληπτη εκτίμησηΗ χρήση N (διακύμανση πληθυσμού) σε ένα δείγμα υποτιμά συστηματικά την πραγματική διακύμανση.

Παράδειγμα: Η δοκιμή ενός νέου φαρμάκου σε 50 ασθενείς σημαίνει τη χρήση της διακύμανσης δείγματος (s2).

Γιατί λειτουργεί η διόρθωση του Μπέσελ;Όταν υπολογίζετε το μέσο όρο του δείγματος, χρησιμοποιείτε έναν "βαθμό ελευθερίας" - ο μέσος όρος υπολογίζεται από τα ίδια τα δεδομένα, οπότε οι αποκλίσεις από τον μέσο όρο δεν είναι πλήρως ανεξάρτητες.

Υπολογισμός διακύμανσης βήμα προς βήμα

Με δεδομένο το σύνολο δεδομένων: 4, 7, 13, 2, 8

  1. Υπολογίστε το μέσο όρο:(4+7+13+2+8) ÷ 5 = 34/5 =6. 8
  2. Βρείτε τις αποκλίσεις από το μέσο όρο:(4-6.8) =-2.8; (7-6.8) =0.2; (13-6.8) =6.2; (2-6.8) =-4.8; (8-6.8) =1.2
  3. Το τετράγωνο των αποκλίσεων:7.84; 0.04; 38.44; 23.04; 1.44
  4. Σύνολο τετραγώνων:7,84+0,04+38,44+23,04+1,44 =70,8 εκατ.
  5. Διακύμανση του πληθυσμού:70,8 ÷ 5 =14,16 χλμ.
  6. Διακύμανση του δείγματος:70,8 ÷ 4 =17,7 εκατ.
  7. Τυπική απόκλιση:√14.16 =3,76 εκατ.(πληθυσμός) ή √17.7 =4. 21(δείγμα)

Σύντομη φόρμουλα για τη διακύμανση

Υπάρχει ένας ισοδύναμος "υπολογιστικός" τύπος που αποφεύγει τον υπολογισμό αποκλίσεων ρητά, χρήσιμος κατά τον υπολογισμό με το χέρι ή σε φύλλα υπολογισμού:

σ2 = (Σxi2)/N - (Σxi/N) 2 = (Σxi2 - (Σxi)2/N) / N

Για τη διακύμανση του δείγματος:s2 = (Σxi2 - (Σxi) 2/N) / (N-1)

Χρησιμοποιώντας τα δεδομένα παραδείγματος (4, 7, 13, 2, 8):

  1. Σxi = 34, έτσι (Σxi) 2 = 1.156
  2. Σxi2 = 16 + 49 + 169 + 4 + 64 = 302
  3. Διακύμανση του πληθυσμού = (302 - 1156/5) / 5 = (302 - 231,2) / 5 = 70,8 / 5 =14,16 χλμ.
  4. Διακύμανση του δείγματος = 70,8 / 4 =17,7 εκατ.

Αυτός ο τύπος είναι αριθμητικά πανομοιότυπος, αλλά μπορεί να υποφέρει από ζητήματα ακρίβειας πλεύσης σημείου όταν οι τιμές είναι πολύ μεγάλες.

Σχετικά στατιστικά μέτρα

Η διακύμανση είναι ένα από τα διάφορα μέτρα της εξάπλωσης.

ΜέτροΣύνταξηΜονάδεςΣκληρότητα σε απόκεντρες τιμέςΚαλύτερα για
Διακύμανση (σ2 ή s2)Μέσος όρος των τετραγωνικών αποκλίσεωνΕνότητες στο τετράγωνοΧαμηλή - πολύ ευαίσθητηΘεωρητικές στατιστικές, ANOVA
Τυπική απόκλιση (σ ή s)√ΑλλαγήΤο ίδιο με τα δεδομέναΧαμηλόΔιαφορά αναφοράς σε αρχικές μονάδες
ΕμβέλειαΜαξ - ΜινΤο ίδιο με τα δεδομέναΠολύ χαμηλήΓρήγορος έλεγχος, μικρά δείγματα
Ενδιάμεσο τεταρτημόριο (IQR)Q3 - Q1Το ίδιο με τα δεδομέναΥψηλήΣκονισμένες κατανομές, γραφήματα κουτιών
Μέση απόλυτη απόκλιση (MAD)Μέσος όροςΤο ίδιο με τα δεδομέναΜέτριαΔιαισθητική μέτρηση της εξάπλωσης
Συντελεστής διακύμανσης (CV)(SD / Μέσος όρος) x 100%ΠοσοστόΧαμηλόΣύγκριση της κατανομής σε διαφορετικές κλίμακες

Για κανονικές κατανομές (καμπύλη καμπύλης), η τυπική απόκλιση έχει μια ειδική ερμηνεία: περίπου το 68% των δεδομένων πέφτει εντός +/-1 SD του μέσου όρου, το 95% εντός +/-2 SD και το 99,7% εντός +/-3 SD.εμπειρικός κανόνας(κανόνας 68-95-99.7).

Διακυμάνσεις στα λογιστικά φύλλα και στον προγραμματισμό

Τα περισσότερα εργαλεία έχουν ενσωματωμένες λειτουργίες διακύμανσης. Βεβαιωθείτε ότι έχετε επιλέξει τη σωστή έκδοση (πληθυσμός έναντι δείγματος):

ΕργαλείοΔιακύμανση του δείγματοςΔιακύμανση του πληθυσμού
Excel / Φύλλα GoogleVAR.S(range) or VAR(range)VAR.P(range) or VARP(range)
Python (NumPy)np.var(data, ddof=1)np.var(data)
Python (στατιστικά στοιχεία)statistics.variance(data)statistics.pvariance(data)
Rvar(x)var(x) * (n-1)/n
JavaScriptΧειροκίνητος υπολογισμός (χωρίς ενσωματωμένο σύστημα)Χειροκίνητος υπολογισμός
SQL (PostgreSQL)VAR_SAMP(column)VAR_POP(column)
MATLABvar(x)var(x, 1)

Σημείωση: Το NumPy του Python έχει ως προεπιλογήπληθυσμόςδιακύμανση (ddof=0), ενώ τα Rvar()προεπιλογή σεδείγμαΑυτή είναι μια κοινή πηγή σύγχυσης κατά τη σύγκριση των αποτελεσμάτων μεταξύ των γλωσσών.

Πρακτικές Εφαρμογές της Διακύμανσης

ΠεδίοΕφαρμογήΠαράδειγμα
ΧρηματοοικονομικάΕπενδυτικός κίνδυνοςΥψηλή διακύμανση = πιο ασταθείς αποδόσεις μετοχών
ΚατασκευήΈλεγχος ποιότηταςΧαμηλή απόκλιση = σταθερές διαστάσεις του προϊόντος
ΙατρικήΚλινικές δοκιμέςΜέτρηση της μεταβλητότητας στις αντιδράσεις των ασθενών
Αθλητικές επιστήμεςΑνάλυση επιδόσεωνΔιακύμανση των επιδόσεων των αθλητών κατά τη διάρκεια της σεζόν
ΕκπαίδευσηΑνάλυση βαθμολογίας δοκιμήςΚατανόηση της εξάπλωσης των επιδόσεων των μαθητών

Διακύμανση στη χρηματοδότηση: Κίνδυνος χαρτοφυλακίου

Στην οικονομία, η διακύμανση και η τυπική απόκλιση μετρούν τον επενδυτικό κίνδυνο.Σύγχρονη Θεωρία Πορτοφολιού(1952, βραβείο Νόμπελ 1990) χρησιμοποιεί τη διακύμανση ως κεντρικό μέτρο κινδύνου.

Για ένα χαρτοφυλάκιο δύο περιουσιακών στοιχείων, η συνδυασμένη απόκλιση εξαρτάται από τις μεμονωμένες απόκλισειςκαιτη συσχέτιση μεταξύ των περιουσιακών στοιχείων:

σ²χαρτοφυλάκιο= w12σ12 + w22σ22 + 2·w1·w2·σ1·σ2·ρ12

Όταν ρ < 1 (τα περιουσιακά στοιχεία δεν κινούνται με τέλειο ρυθμό), η απόκλιση του χαρτοφυλακίου είναιλιγότεροΑυτή είναι η μαθηματική βάση της διαφοροποίησης -- ο συνδυασμός μη συσχετισμένων περιουσιακών στοιχείων μειώνει τον συνολικό κίνδυνο χωρίς να μειώνει αναλογικά την αναμενόμενη απόδοση.

Τάξη περιουσιακών στοιχείων (2000 - 2023)Ετήσια απόδοσηΕτήσια SD (Αμετάβλητη Δυνατότητα)
Μεγάλη κεφαλαιοποίηση των ΗΠΑ (S&P 500)~7,5%~15%
ΗΠΑ Small Cap (Russell 2000)~ 7,0%~20%
Διεθνής Αναπτυγμένη (EAFE)~4,5%~17%
Ομόλογα των ΗΠΑ (Συνολικά)~ 4,0%~4%
Χρυσό~8,0%~16%

Ένα χαρτοφυλάκιο που συνδυάζει μετοχές και ομόλογα συνήθως έχει μια τυπική απόκλιση σημαντικά χαμηλότερη από ό, τι μόνο μετοχές, ενώ εξακολουθεί να συλλαμβάνει το μεγαλύτερο μέρος του πριμοδότησης της απόδοσης των μετοχών.

Διακύμανση στον έλεγχο ποιότητας (Six Sigma)

Η παραγωγή χρησιμοποιεί τη διακύμανση για τον έλεγχο της ποιότητας του προϊόντος.Έξι Σίγκμαη μεθοδολογία, που αναπτύχθηκε από τη Motorola τη δεκαετία του 1980, αποσκοπεί στη μείωση της διακύμανσης της διαδικασίας μέχρις ότου ουσιαστικά κανένα προϊόν δεν πέσει εκτός των ορίων των προδιαγραφών.

Επίπεδο ΣίγκμαΕλαττώματα ανά εκατομμύριο (DPMO)ΠαραχώρησηΙκανότητα επεξεργασίας (Cpk)
691.46230,9%0,33
308.53869,1%0,67
66.80793,3%1,00 δολάρια
6,21099,38%1.33
233 και99,977%Αριθ.
Αιγύπτιο99,99966%Δύο ώρες.

Μια διαδικασία που λειτουργεί σε 6σ παράγει μόνο 3,4 ελαττώματα ανά εκατομμύριο ευκαιρίες.CpkΗ μείωση της διακύμανσης (μέσω καλύτερων μηχανημάτων, εκπαίδευσης ή υλικών) αυξάνει την Cpk και ωθεί τη διαδικασία προς την ποιότητα Six Sigma.

Εργασμένα Παραδείγματα από Διαφορετικούς Τομείς

Αυτά τα παραδείγματα πραγματικού κόσμου δείχνουν πώς υπολογίζεται και ερμηνεύεται η διακύμανση στην πράξη:

Παράδειγμα 1: μεταβλητότητα της απόδοσης των μετοχών

Μηνιαίες αποδόσεις για ένα απόθεμα άνω των 6 μηνών: +3,2%, -1,5%, +4,8%, -0,7%, +2,1%, +1,6%

  1. Μέσος όρος = (3,2-1,5+4,8-0,7+2,1+1,6) / 6 = 9,5/6 =1,583%
  2. Αποκλίσεις: 1.617, -3.083, 3.217, -2.283, 0.517, 0.017
  3. Το τετράγωνο: 2.615, 9.504, 10.349, 5.212, 0.267, 0.0003
  4. Το άθροισμα των τετραγώνων = 27.947
  5. Διακύμανση του δείγματος = 27.947/5 =5.589 (%2)
  6. Τυπική απόκλιση = √5.589 =2,364%ανά μήνα
  7. Ετήσια μεταβλητότητα ~ 2,364% x √12 =8,19%

Αυτή η μετοχή έχει μέτρια μεταβλητότητα. Ο S&P 500 ιστορικά έχει ~15% ετήσια μεταβλητότητα, οπότε αυτή η μετοχή είναι περίπου το μισό τόσο μεταβλητή όσο η ευρεία αγορά.

Παράδειγμα 2: Έλεγχος ποιότητας της κατασκευής

Ένα εργοστάσιο παράγει μπουλόνια με μήκος στόχου 50.00 mm. Ένα δείγμα 8 μπουλόνων μετρά: 50.02, 49.98, 50.05, 49.97, 50.01, 50.03, 49.99, 50.00 mm.

  1. Μέσος = 400.05/8 =50,00625 mm
  2. Διακύμανση του δείγματος =0,000655 mm2
  3. Τυπική απόκλιση =0,0256 mm
  4. Με όρια προδιαγραφών 50,00 +/- 0,10 mm: Cpk = (50,10 - 50,006) / (3 x 0,0256) =1.22

Ένας Cpk 1,22 σημαίνει ότι η διαδικασία είναι ικανή αλλά έχει μικρό περιθώριο. Ο στόχος πρότυπο της βιομηχανίας είναι Cpk >= 1,33 (4σ ικανότητα), οπότε αυτή η διαδικασία χρειάζεται αυστηρότερο έλεγχο για να επιτευχθεί αυτό το επίπεδο.

Παράδειγμα 3: Αποτελέσματα των εξετάσεων των μαθητών

Μια τάξη 10 μαθητών παίρνει βαθμούς: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 σε μια εξέταση.

  1. Μέσος όρος = 810/10 =81,0
  2. Διακύμανση του πληθυσμού (όλη η τάξη) =72,2 εκατ.
  3. Τυπική απόκλιση =8,50 δολάρια
  4. Συντελεστής διακύμανσης = 8,50/81,0 x 100% =10,5%

Αν το CV υπερέβαινε το 25%, ο εκπαιδευτής θα μπορούσε να διερευνήσει εάν η δοκιμή είχε ερωτήσεις που ήταν πολύ δύσκολες για ορισμένους μαθητές ή εάν υπήρχε μια διμερή κατανομή (δύο ξεχωριστές ομάδες).

Συνηθισμένα λάθη κατά τον υπολογισμό της διακύμανσης

Αποφύγετε αυτά τα συνηθισμένα λάθη:

Λάθος .Γιατί Είναι ΛάθοςΔιόρθωση
Χρήση N αντί για N-1 για δείγματαΥποτιμά την πραγματική διακύμανση του πληθυσμούΧρησιμοποιήστε N-1 για οποιαδήποτε δεδομένα που είναι ένα δείγμα από ένα μεγαλύτερο πληθυσμό
Μέσος όρος των απόλυτων αποκλίσεων αντί του τετραγωνισμούΔίνει MAD, όχι απόκλισηΤο τετράγωνο κάθε απόκλισης, μετά ο μέσος όρος.
Ξεχνάτε να τετραγωνίσετε πριν από τη μέση τιμήΟι θετικές και αρνητικές αποκλίσεις ακυρώνονται, δίνοντας ~ 0Πάντα οι τετραγωνικές αποκλίσεις πρώτα.
Σύγκριση της διακύμανσης σε διαφορετικές κλίμακεςΗ απόκλιση εξαρτάται από τις μονάδες· $2 ≠ kg2Χρήση συντελεστή διακύμανσης (CV) για διασταυρούμενη σύγκριση κλίμακας
Υποθέτοντας διακύμανση = τυπική απόκλισηΗ διακύμανση είναι SD2; οι μονάδες είναι στο τετράγωνοΠάρτε την τετραγωνική ρίζα της διακύμανσης για να πάρετε SD

ANOVA: Σύγκριση της διακύμανσης μεταξύ των ομάδων

Ανάλυση της διακύμανσης (ANOVA)είναι μια στατιστική δοκιμή που συγκρίνει μέσους όρους πολλαπλών ομάδων αναλύοντας τη διακύμανση.

Η ANOVA χωρίζει τη συνολική απόκλιση σε δύο συστατικά:

ΤοF-στατιστική= Διακύμανση μεταξύ ομάδων / Διακύμανση εντός ομάδας. Ένα μεγάλο F σημαίνει ότι οι ομάδες διαφέρουν μεταξύ τους περισσότερο από ό, τι αναμένεται τυχαία. Εάν το F υπερβαίνει την κρίσιμη τιμή (ή p < 0,05), τουλάχιστον ένας μέσος όρος ομάδας διαφέρει σημαντικά.

Παράδειγμα: Σύγκριση των αποτελεσμάτων των εξετάσεων των μαθητών που διδάσκονται με τρεις διαφορετικές μεθόδους.το οποίοΟι μέθοδοι διαφέρουν.

Το ήξερες;

Συχνές ερωτήσεις

Ποια είναι η διαφορά μεταξύ της διακύμανσης και της τυπικής απόκλισης;

Η απόκλιση είναι ο μέσος όρος των τετραγωνικών αποκλίσεων από το μέσο όρο. Η τυπική απόκλιση είναι η τετραγωνική ρίζα της. Η τυπική απόκλιση είναι στις ίδιες μονάδες με τα αρχικά δεδομένα (π.χ. δολάρια, κιλά, δευτερόλεπτα), καθιστώντας την πιο ερμηνεύσιμη. Η απόκλιση είναι χρήσιμη σε μαθηματικές λειτουργίες (οι αποκλίσεις ανεξάρτητων μεταβλητών προσθέτουν άμεσα), ενώ η τυπική απόκλιση είναι καλύτερη για την περιγραφή της εξάπλωσης σε μη τεχνικό κοινό.

Πότε πρέπει να χρησιμοποιήσω τη διακύμανση δείγματος έναντι πληθυσμού;

Χρησιμοποιήστε τη διακύμανση πληθυσμού όταν τα δεδομένα σας περιέχουν κάθε μέλος της ομάδας που αναλύετε (π.χ. όλους τους υπαλλήλους σε μια εταιρεία). Χρησιμοποιήστε τη διακύμανση δείγματος όταν τα δεδομένα σας είναι ένα υποσύνολο μιας μεγαλύτερης ομάδας (π.χ. μια έρευνα 500 ψηφοφόρων για να εκτιμηθούν όλες οι απόψεις των ψηφοφόρων).

Μπορεί η διακύμανση να είναι αρνητική;

Η διακύμανση είναι πάντα μηδενική ή θετική επειδή υπολογίζεται από τετραγωνικές τιμές.

Τι είναι μια "υψηλή" ή "χαμηλή" διακύμανση;

Ο συντελεστής διακύμανσης (SD / μέσος όρος x 100%) είναι ανεξάρτητος από την κλίμακα και επιτρέπει τη σύγκριση μεταξύ διαφορετικών συνόλων δεδομένων.

Πώς σχετίζεται η διακύμανση με την κανονική κατανομή;

Η φυσιολογική (Γκαουσιανή) κατανομή περιγράφεται πλήρως από δύο μόνο παραμέτρους: το μέσο όρο (μ) και την απόκλιση (σ2). Η γνωστή καμπύλη καμπύλης είναι ευρύτερη όταν η απόκλιση είναι μεγάλη και στενότερη όταν η απόκλιση είναι μικρή. Για φυσιολογικά δεδομένα, ο εμπειρικός κανόνας ισχύει: 68,3% εντός +/-1σ, 95,4% εντός +/-2σ και 99,7% εντός +/-3σ. Πολλές στατιστικές δοκιμές (t-test, ANOVA, παλινδρόμηση) υποθέτουν ότι τα δεδομένα ακολουθούν μια φυσιολογική κατανομή ή ότι τα κατά προσέγγιση μέσα δείγματα είναι φυσιολογικά (μέσω του κεντρικού θεωρήματος ορίου).

Τι είναι η συγκεντρωτική διακύμανση;

Η συγκεντρωτική διακύμανση είναι ένας σταθμισμένος μέσος όρος των διακυμάνσεων των δειγμάτων από δύο ή περισσότερες ομάδες, που χρησιμοποιείται στο τεστ t δύο δειγμάτων όταν υποθέτουμε ίσες διακυμάνσεις μεταξύ των ομάδων.συγκεντρωτικά= [(n1-1) s12 + (n2-1) s22] / (n1 + n2 - 2). Αυτό παράγει μια ενιαία εκτίμηση απόκλισης που ενσωματώνει πληροφορίες και από τα δύο δείγματα, αυξάνοντας τη στατιστική ισχύ όταν η υπόθεση ίσης απόκλισης είναι έγκυρη.

Η διακύμανση είναι πάντα μηδενική ή θετική επειδή υπολογίζεται από τετραγωνικές τιμές. Η διακύμανση = 0 μόνο όταν όλα τα σημεία δεδομένων είναι πανομοιότυπα. Η διακύμανση = 0 μόνο όταν όλα τα σημεία δεδομένων είναι πανομοιότυπα. Πώς σχετίζεται η διακύμανση με την κανονική κατανομή; Η κανονική κατανομή περιγράφεται πλήρως από το μέσο όρο και τη διακύμανση. Για κανονικά δεδομένα, το 68% πέφτει εντός +/-1 τυπικής απόκλισης, το 95% εντός +/-2, και το 99,7% εντός +/-3.