Υπολογιστής διακύμανσης - πληθυσμός και διακύμανση δείγματος
Υπολογίζει τη διακύμανση και την τυπική απόκλιση για ένα σύνολο δεδομένων. Υποστηρίζει τη διακύμανση πληθυσμού και δείγματος. Δωρεάν ηλεκτρονικός υπολογιστής στατιστικών για στιγμιαία αποτελέσματα.
Τι Είναι η Διακύμανση;
Η διακύμανση μετρά τηνεξάπλωσηΜια χαμηλή διακύμανση σημαίνει ότι τα δεδομένα συγκεντρώνονται κοντά στο μέσο όρο, μια υψηλή διακύμανση σημαίνει ότι είναι ευρέως διασκορπισμένα.
Η απόκλιση υπολογίζεται ως ο μέσος όρος των τετραγωνικών διαφορών από το μέσο όρο:
- Διακύμανση του πληθυσμού (σ2):σ2 = Σ(xi - μ) 2 / N
- Διακύμανση του δείγματος (s2):s2 = Σ(xi - x̄) 2 / (N-1)
όπου xi είναι κάθε σημείο δεδομένων, μ (ή x̄) είναι ο μέσος όρος και N είναι ο αριθμός των τιμών.τυπική απόκλισηείναι απλά η τετραγωνική ρίζα της διακύμανσης -- είναι στις ίδιες μονάδες με τα αρχικά δεδομένα, καθιστώντας την πιο ερμηνεύσιμη.
Γιατί τετραγωνίζουμε τις διαφορές; Δύο λόγοι: (1) ο τετραγωνισμός εξαλείφει τις αρνητικές τιμές, έτσι ώστε οι αποκλίσεις πάνω και κάτω από το μέσο όρο να μην ακυρώνονται, και (2) ο τετραγωνισμός δίνει δυσανάλογο βάρος σε εξωτερικές τιμές, καθιστώντας την απόκλιση ευαίσθητη σε ακραίες τιμές.μέση απόλυτη απόκλιση (MAD)ως μια πιο ισχυρή εναλλακτική λύση.
Πληθυσμός έναντι διακύμανσης δείγματος
Η βασική διαφορά είναι ο παρονομαστής -- N έναντι (N-1) -- γνωστός ως διόρθωση του Μπέσελ:
| Τύπος | Ονομαστής | Χρησιμοποιήστε | Σύμβολο |
|---|---|---|---|
| Διακύμανση του πληθυσμού | N | Έχετε δεδομένα για ολόκληρο τον πληθυσμό | σ² |
| Διακύμανση του δείγματος | Ν-1 | Έχετε ένα δείγμα από ένα μεγαλύτερο πληθυσμό | s² |
Στην πράξη, τα περισσότερα δεδομένα του πραγματικού κόσμου αποτελούν δείγμα.αμερόληπτη εκτίμησηΗ χρήση N (διακύμανση πληθυσμού) σε ένα δείγμα υποτιμά συστηματικά την πραγματική διακύμανση.
Παράδειγμα: Η δοκιμή ενός νέου φαρμάκου σε 50 ασθενείς σημαίνει τη χρήση της διακύμανσης δείγματος (s2).
Γιατί λειτουργεί η διόρθωση του Μπέσελ;Όταν υπολογίζετε το μέσο όρο του δείγματος, χρησιμοποιείτε έναν "βαθμό ελευθερίας" - ο μέσος όρος υπολογίζεται από τα ίδια τα δεδομένα, οπότε οι αποκλίσεις από τον μέσο όρο δεν είναι πλήρως ανεξάρτητες.
Υπολογισμός διακύμανσης βήμα προς βήμα
Με δεδομένο το σύνολο δεδομένων: 4, 7, 13, 2, 8
- Υπολογίστε το μέσο όρο:(4+7+13+2+8) ÷ 5 = 34/5 =6. 8
- Βρείτε τις αποκλίσεις από το μέσο όρο:(4-6.8) =-2.8; (7-6.8) =0.2; (13-6.8) =6.2; (2-6.8) =-4.8; (8-6.8) =1.2
- Το τετράγωνο των αποκλίσεων:7.84; 0.04; 38.44; 23.04; 1.44
- Σύνολο τετραγώνων:7,84+0,04+38,44+23,04+1,44 =70,8 εκατ.
- Διακύμανση του πληθυσμού:70,8 ÷ 5 =14,16 χλμ.
- Διακύμανση του δείγματος:70,8 ÷ 4 =17,7 εκατ.
- Τυπική απόκλιση:√14.16 =3,76 εκατ.(πληθυσμός) ή √17.7 =4. 21(δείγμα)
Σύντομη φόρμουλα για τη διακύμανση
Υπάρχει ένας ισοδύναμος "υπολογιστικός" τύπος που αποφεύγει τον υπολογισμό αποκλίσεων ρητά, χρήσιμος κατά τον υπολογισμό με το χέρι ή σε φύλλα υπολογισμού:
σ2 = (Σxi2)/N - (Σxi/N) 2 = (Σxi2 - (Σxi)2/N) / N
Για τη διακύμανση του δείγματος:s2 = (Σxi2 - (Σxi) 2/N) / (N-1)
Χρησιμοποιώντας τα δεδομένα παραδείγματος (4, 7, 13, 2, 8):
- Σxi = 34, έτσι (Σxi) 2 = 1.156
- Σxi2 = 16 + 49 + 169 + 4 + 64 = 302
- Διακύμανση του πληθυσμού = (302 - 1156/5) / 5 = (302 - 231,2) / 5 = 70,8 / 5 =14,16 χλμ. ✓
- Διακύμανση του δείγματος = 70,8 / 4 =17,7 εκατ. ✓
Αυτός ο τύπος είναι αριθμητικά πανομοιότυπος, αλλά μπορεί να υποφέρει από ζητήματα ακρίβειας πλεύσης σημείου όταν οι τιμές είναι πολύ μεγάλες.
Σχετικά στατιστικά μέτρα
Η διακύμανση είναι ένα από τα διάφορα μέτρα της εξάπλωσης.
| Μέτρο | Σύνταξη | Μονάδες | Σκληρότητα σε απόκεντρες τιμές | Καλύτερα για |
|---|---|---|---|---|
| Διακύμανση (σ2 ή s2) | Μέσος όρος των τετραγωνικών αποκλίσεων | Ενότητες στο τετράγωνο | Χαμηλή - πολύ ευαίσθητη | Θεωρητικές στατιστικές, ANOVA |
| Τυπική απόκλιση (σ ή s) | √Αλλαγή | Το ίδιο με τα δεδομένα | Χαμηλό | Διαφορά αναφοράς σε αρχικές μονάδες |
| Εμβέλεια | Μαξ - Μιν | Το ίδιο με τα δεδομένα | Πολύ χαμηλή | Γρήγορος έλεγχος, μικρά δείγματα |
| Ενδιάμεσο τεταρτημόριο (IQR) | Q3 - Q1 | Το ίδιο με τα δεδομένα | Υψηλή | Σκονισμένες κατανομές, γραφήματα κουτιών |
| Μέση απόλυτη απόκλιση (MAD) | Μέσος όρος | Το ίδιο με τα δεδομένα | Μέτρια | Διαισθητική μέτρηση της εξάπλωσης |
| Συντελεστής διακύμανσης (CV) | (SD / Μέσος όρος) x 100% | Ποσοστό | Χαμηλό | Σύγκριση της κατανομής σε διαφορετικές κλίμακες |
Για κανονικές κατανομές (καμπύλη καμπύλης), η τυπική απόκλιση έχει μια ειδική ερμηνεία: περίπου το 68% των δεδομένων πέφτει εντός +/-1 SD του μέσου όρου, το 95% εντός +/-2 SD και το 99,7% εντός +/-3 SD.εμπειρικός κανόνας(κανόνας 68-95-99.7).
Διακυμάνσεις στα λογιστικά φύλλα και στον προγραμματισμό
Τα περισσότερα εργαλεία έχουν ενσωματωμένες λειτουργίες διακύμανσης. Βεβαιωθείτε ότι έχετε επιλέξει τη σωστή έκδοση (πληθυσμός έναντι δείγματος):
| Εργαλείο | Διακύμανση του δείγματος | Διακύμανση του πληθυσμού |
|---|---|---|
| Excel / Φύλλα Google | VAR.S(range) or VAR(range) | VAR.P(range) or VARP(range) |
| Python (NumPy) | np.var(data, ddof=1) | np.var(data) |
| Python (στατιστικά στοιχεία) | statistics.variance(data) | statistics.pvariance(data) |
| R | var(x) | var(x) * (n-1)/n |
| JavaScript | Χειροκίνητος υπολογισμός (χωρίς ενσωματωμένο σύστημα) | Χειροκίνητος υπολογισμός |
| SQL (PostgreSQL) | VAR_SAMP(column) | VAR_POP(column) |
| MATLAB | var(x) | var(x, 1) |
Σημείωση: Το NumPy του Python έχει ως προεπιλογήπληθυσμόςδιακύμανση (ddof=0), ενώ τα Rvar()προεπιλογή σεδείγμαΑυτή είναι μια κοινή πηγή σύγχυσης κατά τη σύγκριση των αποτελεσμάτων μεταξύ των γλωσσών.
Πρακτικές Εφαρμογές της Διακύμανσης
| Πεδίο | Εφαρμογή | Παράδειγμα |
|---|---|---|
| Χρηματοοικονομικά | Επενδυτικός κίνδυνος | Υψηλή διακύμανση = πιο ασταθείς αποδόσεις μετοχών |
| Κατασκευή | Έλεγχος ποιότητας | Χαμηλή απόκλιση = σταθερές διαστάσεις του προϊόντος |
| Ιατρική | Κλινικές δοκιμές | Μέτρηση της μεταβλητότητας στις αντιδράσεις των ασθενών |
| Αθλητικές επιστήμες | Ανάλυση επιδόσεων | Διακύμανση των επιδόσεων των αθλητών κατά τη διάρκεια της σεζόν |
| Εκπαίδευση | Ανάλυση βαθμολογίας δοκιμής | Κατανόηση της εξάπλωσης των επιδόσεων των μαθητών |
Διακύμανση στη χρηματοδότηση: Κίνδυνος χαρτοφυλακίου
Στην οικονομία, η διακύμανση και η τυπική απόκλιση μετρούν τον επενδυτικό κίνδυνο.Σύγχρονη Θεωρία Πορτοφολιού(1952, βραβείο Νόμπελ 1990) χρησιμοποιεί τη διακύμανση ως κεντρικό μέτρο κινδύνου.
Για ένα χαρτοφυλάκιο δύο περιουσιακών στοιχείων, η συνδυασμένη απόκλιση εξαρτάται από τις μεμονωμένες απόκλισειςκαιτη συσχέτιση μεταξύ των περιουσιακών στοιχείων:
σ²χαρτοφυλάκιο= w12σ12 + w22σ22 + 2·w1·w2·σ1·σ2·ρ12
Όταν ρ < 1 (τα περιουσιακά στοιχεία δεν κινούνται με τέλειο ρυθμό), η απόκλιση του χαρτοφυλακίου είναιλιγότεροΑυτή είναι η μαθηματική βάση της διαφοροποίησης -- ο συνδυασμός μη συσχετισμένων περιουσιακών στοιχείων μειώνει τον συνολικό κίνδυνο χωρίς να μειώνει αναλογικά την αναμενόμενη απόδοση.
| Τάξη περιουσιακών στοιχείων (2000 - 2023) | Ετήσια απόδοση | Ετήσια SD (Αμετάβλητη Δυνατότητα) |
|---|---|---|
| Μεγάλη κεφαλαιοποίηση των ΗΠΑ (S&P 500) | ~7,5% | ~15% |
| ΗΠΑ Small Cap (Russell 2000) | ~ 7,0% | ~20% |
| Διεθνής Αναπτυγμένη (EAFE) | ~4,5% | ~17% |
| Ομόλογα των ΗΠΑ (Συνολικά) | ~ 4,0% | ~4% |
| Χρυσό | ~8,0% | ~16% |
Ένα χαρτοφυλάκιο που συνδυάζει μετοχές και ομόλογα συνήθως έχει μια τυπική απόκλιση σημαντικά χαμηλότερη από ό, τι μόνο μετοχές, ενώ εξακολουθεί να συλλαμβάνει το μεγαλύτερο μέρος του πριμοδότησης της απόδοσης των μετοχών.
Διακύμανση στον έλεγχο ποιότητας (Six Sigma)
Η παραγωγή χρησιμοποιεί τη διακύμανση για τον έλεγχο της ποιότητας του προϊόντος.Έξι Σίγκμαη μεθοδολογία, που αναπτύχθηκε από τη Motorola τη δεκαετία του 1980, αποσκοπεί στη μείωση της διακύμανσης της διαδικασίας μέχρις ότου ουσιαστικά κανένα προϊόν δεν πέσει εκτός των ορίων των προδιαγραφών.
| Επίπεδο Σίγκμα | Ελαττώματα ανά εκατομμύριο (DPMO) | Παραχώρηση | Ικανότητα επεξεργασίας (Cpk) |
|---|---|---|---|
| 1σ | 691.462 | 30,9% | 0,33 |
| 2σ | 308.538 | 69,1% | 0,67 |
| 3σ | 66.807 | 93,3% | 1,00 δολάρια |
| 4σ | 6,210 | 99,38% | 1.33 |
| 5σ | 233 και | 99,977% | Αριθ. |
| 6σ | Αιγύπτιο | 99,99966% | Δύο ώρες. |
Μια διαδικασία που λειτουργεί σε 6σ παράγει μόνο 3,4 ελαττώματα ανά εκατομμύριο ευκαιρίες.CpkΗ μείωση της διακύμανσης (μέσω καλύτερων μηχανημάτων, εκπαίδευσης ή υλικών) αυξάνει την Cpk και ωθεί τη διαδικασία προς την ποιότητα Six Sigma.
Εργασμένα Παραδείγματα από Διαφορετικούς Τομείς
Αυτά τα παραδείγματα πραγματικού κόσμου δείχνουν πώς υπολογίζεται και ερμηνεύεται η διακύμανση στην πράξη:
Παράδειγμα 1: μεταβλητότητα της απόδοσης των μετοχών
Μηνιαίες αποδόσεις για ένα απόθεμα άνω των 6 μηνών: +3,2%, -1,5%, +4,8%, -0,7%, +2,1%, +1,6%
- Μέσος όρος = (3,2-1,5+4,8-0,7+2,1+1,6) / 6 = 9,5/6 =1,583%
- Αποκλίσεις: 1.617, -3.083, 3.217, -2.283, 0.517, 0.017
- Το τετράγωνο: 2.615, 9.504, 10.349, 5.212, 0.267, 0.0003
- Το άθροισμα των τετραγώνων = 27.947
- Διακύμανση του δείγματος = 27.947/5 =5.589 (%2)
- Τυπική απόκλιση = √5.589 =2,364%ανά μήνα
- Ετήσια μεταβλητότητα ~ 2,364% x √12 =8,19%
Αυτή η μετοχή έχει μέτρια μεταβλητότητα. Ο S&P 500 ιστορικά έχει ~15% ετήσια μεταβλητότητα, οπότε αυτή η μετοχή είναι περίπου το μισό τόσο μεταβλητή όσο η ευρεία αγορά.
Παράδειγμα 2: Έλεγχος ποιότητας της κατασκευής
Ένα εργοστάσιο παράγει μπουλόνια με μήκος στόχου 50.00 mm. Ένα δείγμα 8 μπουλόνων μετρά: 50.02, 49.98, 50.05, 49.97, 50.01, 50.03, 49.99, 50.00 mm.
- Μέσος = 400.05/8 =50,00625 mm
- Διακύμανση του δείγματος =0,000655 mm2
- Τυπική απόκλιση =0,0256 mm
- Με όρια προδιαγραφών 50,00 +/- 0,10 mm: Cpk = (50,10 - 50,006) / (3 x 0,0256) =1.22
Ένας Cpk 1,22 σημαίνει ότι η διαδικασία είναι ικανή αλλά έχει μικρό περιθώριο. Ο στόχος πρότυπο της βιομηχανίας είναι Cpk >= 1,33 (4σ ικανότητα), οπότε αυτή η διαδικασία χρειάζεται αυστηρότερο έλεγχο για να επιτευχθεί αυτό το επίπεδο.
Παράδειγμα 3: Αποτελέσματα των εξετάσεων των μαθητών
Μια τάξη 10 μαθητών παίρνει βαθμούς: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 σε μια εξέταση.
- Μέσος όρος = 810/10 =81,0
- Διακύμανση του πληθυσμού (όλη η τάξη) =72,2 εκατ.
- Τυπική απόκλιση =8,50 δολάρια
- Συντελεστής διακύμανσης = 8,50/81,0 x 100% =10,5%
Αν το CV υπερέβαινε το 25%, ο εκπαιδευτής θα μπορούσε να διερευνήσει εάν η δοκιμή είχε ερωτήσεις που ήταν πολύ δύσκολες για ορισμένους μαθητές ή εάν υπήρχε μια διμερή κατανομή (δύο ξεχωριστές ομάδες).
Συνηθισμένα λάθη κατά τον υπολογισμό της διακύμανσης
Αποφύγετε αυτά τα συνηθισμένα λάθη:
| Λάθος . | Γιατί Είναι Λάθος | Διόρθωση |
|---|---|---|
| Χρήση N αντί για N-1 για δείγματα | Υποτιμά την πραγματική διακύμανση του πληθυσμού | Χρησιμοποιήστε N-1 για οποιαδήποτε δεδομένα που είναι ένα δείγμα από ένα μεγαλύτερο πληθυσμό |
| Μέσος όρος των απόλυτων αποκλίσεων αντί του τετραγωνισμού | Δίνει MAD, όχι απόκλιση | Το τετράγωνο κάθε απόκλισης, μετά ο μέσος όρος. |
| Ξεχνάτε να τετραγωνίσετε πριν από τη μέση τιμή | Οι θετικές και αρνητικές αποκλίσεις ακυρώνονται, δίνοντας ~ 0 | Πάντα οι τετραγωνικές αποκλίσεις πρώτα. |
| Σύγκριση της διακύμανσης σε διαφορετικές κλίμακες | Η απόκλιση εξαρτάται από τις μονάδες· $2 ≠ kg2 | Χρήση συντελεστή διακύμανσης (CV) για διασταυρούμενη σύγκριση κλίμακας |
| Υποθέτοντας διακύμανση = τυπική απόκλιση | Η διακύμανση είναι SD2; οι μονάδες είναι στο τετράγωνο | Πάρτε την τετραγωνική ρίζα της διακύμανσης για να πάρετε SD |
ANOVA: Σύγκριση της διακύμανσης μεταξύ των ομάδων
Ανάλυση της διακύμανσης (ANOVA)είναι μια στατιστική δοκιμή που συγκρίνει μέσους όρους πολλαπλών ομάδων αναλύοντας τη διακύμανση.
Η ANOVA χωρίζει τη συνολική απόκλιση σε δύο συστατικά:
- Διακύμανση μεταξύ των ομάδων:Πόσο διαφέρουν οι μέσες τιμές της ομάδας από το συνολικό μέσο όρο
- Διακύμανση εντός ομάδας:Πόσο ποικίλουν οι μεμονωμένες τιμές σε κάθε ομάδα
ΤοF-στατιστική= Διακύμανση μεταξύ ομάδων / Διακύμανση εντός ομάδας. Ένα μεγάλο F σημαίνει ότι οι ομάδες διαφέρουν μεταξύ τους περισσότερο από ό, τι αναμένεται τυχαία. Εάν το F υπερβαίνει την κρίσιμη τιμή (ή p < 0,05), τουλάχιστον ένας μέσος όρος ομάδας διαφέρει σημαντικά.
Παράδειγμα: Σύγκριση των αποτελεσμάτων των εξετάσεων των μαθητών που διδάσκονται με τρεις διαφορετικές μεθόδους.το οποίοΟι μέθοδοι διαφέρουν.
Το ήξερες;
- Η διακύμανση εισήχθη από τον Ρόναλντ Φίσερ το 1918 -- την ίδια εργασία όπου επινόησε τον όρο "διακύμανση".
- Στη χρηματοδότηση, η διακύμανση είναι η βάση της σύγχρονης θεωρίας χαρτοφυλακίου. Η διακύμανση ενός χαρτοφυλακίου εξαρτάται όχι μόνο από τη διακύμανση των μεμονωμένων περιουσιακών στοιχείων αλλά και από τις συσχετίσεις μεταξύ των περιουσιακών στοιχείων.
- Ο συντελεστής μεταβλητότητας (CV = τυπική απόκλιση / μέσος όρος x 100%) επιτρέπει τη σύγκριση της μεταβλητότητας σε σύνολα δεδομένων με διαφορετικές μονάδες ή κλίμακες.
- Η ανισότητα του Chebyshev εγγυάται ότι γιαοποιοδήποτεΑυτό είναι ασθενέστερο από τον εμπειρικό κανόνα, αλλά ισχύει καθολικά.
Συχνές ερωτήσεις
Ποια είναι η διαφορά μεταξύ της διακύμανσης και της τυπικής απόκλισης;
Η απόκλιση είναι ο μέσος όρος των τετραγωνικών αποκλίσεων από το μέσο όρο. Η τυπική απόκλιση είναι η τετραγωνική ρίζα της. Η τυπική απόκλιση είναι στις ίδιες μονάδες με τα αρχικά δεδομένα (π.χ. δολάρια, κιλά, δευτερόλεπτα), καθιστώντας την πιο ερμηνεύσιμη. Η απόκλιση είναι χρήσιμη σε μαθηματικές λειτουργίες (οι αποκλίσεις ανεξάρτητων μεταβλητών προσθέτουν άμεσα), ενώ η τυπική απόκλιση είναι καλύτερη για την περιγραφή της εξάπλωσης σε μη τεχνικό κοινό.
Πότε πρέπει να χρησιμοποιήσω τη διακύμανση δείγματος έναντι πληθυσμού;
Χρησιμοποιήστε τη διακύμανση πληθυσμού όταν τα δεδομένα σας περιέχουν κάθε μέλος της ομάδας που αναλύετε (π.χ. όλους τους υπαλλήλους σε μια εταιρεία). Χρησιμοποιήστε τη διακύμανση δείγματος όταν τα δεδομένα σας είναι ένα υποσύνολο μιας μεγαλύτερης ομάδας (π.χ. μια έρευνα 500 ψηφοφόρων για να εκτιμηθούν όλες οι απόψεις των ψηφοφόρων).
Μπορεί η διακύμανση να είναι αρνητική;
Η διακύμανση είναι πάντα μηδενική ή θετική επειδή υπολογίζεται από τετραγωνικές τιμές.
Τι είναι μια "υψηλή" ή "χαμηλή" διακύμανση;
Ο συντελεστής διακύμανσης (SD / μέσος όρος x 100%) είναι ανεξάρτητος από την κλίμακα και επιτρέπει τη σύγκριση μεταξύ διαφορετικών συνόλων δεδομένων.
Πώς σχετίζεται η διακύμανση με την κανονική κατανομή;
Η φυσιολογική (Γκαουσιανή) κατανομή περιγράφεται πλήρως από δύο μόνο παραμέτρους: το μέσο όρο (μ) και την απόκλιση (σ2). Η γνωστή καμπύλη καμπύλης είναι ευρύτερη όταν η απόκλιση είναι μεγάλη και στενότερη όταν η απόκλιση είναι μικρή. Για φυσιολογικά δεδομένα, ο εμπειρικός κανόνας ισχύει: 68,3% εντός +/-1σ, 95,4% εντός +/-2σ και 99,7% εντός +/-3σ. Πολλές στατιστικές δοκιμές (t-test, ANOVA, παλινδρόμηση) υποθέτουν ότι τα δεδομένα ακολουθούν μια φυσιολογική κατανομή ή ότι τα κατά προσέγγιση μέσα δείγματα είναι φυσιολογικά (μέσω του κεντρικού θεωρήματος ορίου).
Τι είναι η συγκεντρωτική διακύμανση;
Η συγκεντρωτική διακύμανση είναι ένας σταθμισμένος μέσος όρος των διακυμάνσεων των δειγμάτων από δύο ή περισσότερες ομάδες, που χρησιμοποιείται στο τεστ t δύο δειγμάτων όταν υποθέτουμε ίσες διακυμάνσεις μεταξύ των ομάδων.συγκεντρωτικά= [(n1-1) s12 + (n2-1) s22] / (n1 + n2 - 2). Αυτό παράγει μια ενιαία εκτίμηση απόκλισης που ενσωματώνει πληροφορίες και από τα δύο δείγματα, αυξάνοντας τη στατιστική ισχύ όταν η υπόθεση ίσης απόκλισης είναι έγκυρη.