Kalkulator wariancji – Wariancja populacji i próby
Oblicz wariancję i odchylenie standardowe dla zestawu danych. Obsługuje wariancję populacji i próby. Bezpłatny kalkulator statystyczny online – natychmiastowe wyniki.
Co to jest wariacja?
Wariacja mierzy rozrzut zestawu danych — jak daleko są wartości od średniej. Mała wariacja oznacza, że punkty danych skupiają się wokół średniej; wysoka wariacja oznacza, że są rozproszone szeroko.
Wariacja jest obliczana jako średnia kwadratów różnic od średniej:
- Wariacja populacyjna (σ²): σ² = Σ(xᵢ − μ)² / N
- Wariacja próbna (s²): s² = Σ(xᵢ − x̄)² / (N−1)
Gdzie xᵢ to każdy punkt danych, μ (lub x̄) to średnia, a N to liczba wartości. Odchylenie standardowe jest prostą korzeniem z wariacji — jest ono w jednostkach oryginalnych danych, czyniąc je bardziej interpretowalnym.
Dlaczego mnożymy różnice przez kwadrat? Dwa powody: (1) mnożenie przez kwadrat eliminuje wartości ujemne, aby odchylenia powyżej i poniżej średniej nie anulowały się nawzajem, a (2) mnożenie przez kwadrat nadaje wagi wyższej wartościom wyjściowym, czyniąc wariację wrażliwą na wartości ekstremalne. Ta cecha jest zarówno zaletą (wykrywanie wartości wyjściowych), jak i wadą (wrażliwość na wartości wyjściowe). W przypadku danych z wartościami wyjściowymi ekstremalnymi rozważ użycie mediana absolutnej odchyloności (MAD) jako bardziej stabilnej alternatywy.
Wariacja populacyjna vs. próbna
Podstawową różnicą jest zapis w mianowniku — N vs. (N−1) — znany jako poprawka Bessela:
| Typ | Mianownik | Użycie | Symbol |
|---|---|---|---|
| Wariacja populacyjna | N | Masz dane na całą populację | σ² |
| Wariacja próbna | N−1 | Masz próbkę z większej populacji | s² |
W praktyce większość danych rzeczywistych jest próbką. Użycie N−1 (wariacja próbna) daje niesprawdzony szacunek prawdziwej wariacji populacyjnej. Użycie N (wariacja populacyjna) na próbce systematycznie podwyższa prawdziwą wariację.
Przykład: testowanie nowego leku na 50 pacjentów oznacza użycie wariacji próbnej (s²). Analiza wszystkich uczniów w klasie oznacza użycie wariacji populacyjnej (σ²).
Dlaczego działa poprawka Bessela? Gdy obliczasz średnią próbkę, używasz jednego "stopnia swobody" — średnia jest obliczana z danych, więc odchylenia od średniej nie są całkowicie niezależne. Dzielenie przez (N−1) zamiast N kompensuje tę utratę jednego stopnia swobody, produkując niesprawdzony szacunek prawdziwej wariacji populacyjnej. Im większa jest N, tym różnica między N a N−1 staje się nieistotna.
Krok po kroku obliczanie wariacji
Dane: 4, 7, 13, 2, 8
- Oblicz średnią: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
- Znajdź odchylenia od średniej: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
- Wynies odchylenia: 7,84; 0,04; 38,44; 23,04; 1,44
- Suma kwadratów: 7,84+0,04+38,44+23,04+1,44 = 70,8
- Wariacja populacyjna: 70,8 ÷ 5 = 14,16
- Wariacja próbna: 70,8 ÷ 4 = 17,7
- Odchylenie standardowe: √14,16 = 3,76 (populacyjne) lub √17,7 = 4,21 (próbkowe)
Skrócona formula wariacji
Istnieje równoważna "komputacyjna" formula, która unikając obliczania odchyleń bezpośrednio, jest przydatna w przypadku obliczeń ręcznych lub w arkuszach kalkulacyjnych:
σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N
W przypadku wariacji próbnej: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)
Przykład danych (4, 7, 13, 2, 8):
- Σxᵢ = 34, więc (Σxᵢ)² = 1,156
- Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
- Wariacja populacyjna = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16 ✓
- Wariacja próbna = 70,8 / 4 = 17,7 ✓
Ta formula jest numerycznie identyczna, ale może cierpieć na problemy z dokładnością punktów zmiennych, gdy wartości są bardzo duże. W celu zapewnienia stabilności obliczeniowej, algorytm Welforda (który przetwarza jeden element na raz) jest preferowany w implementacjach oprogramowania.
Współczynniki statystyczne
Wariancja jest jednym z kilku miar rozproszenia. Każdy z nich ma inne zalety:
| Współczynnik | Formuła | Jednostki | Wpływ na wybrane dane | Najlepsze do |
|---|---|---|---|---|
| Wariancja (σ² lub s²) | Średnia odchylenia kwadratowych | Jednostki kwadratowe | Niska — bardzo wrażliwa | Statystyka teoretyczna, ANOVA |
| Odchylenie standardowe (σ lub s) | √Wariancji | Takie same jak dane | Niska | Opisanie rozproszenia w jednostkach oryginalnych |
| Przedział | Maksimum − Minimum | Takie same jak dane | Wysoka | Szybki sprawdzanie, małe próby |
| Interkwartylowy przedział (IQR) | Q3 − Q1 | Takie same jak dane | Wysoka | Rozkłady asymetryczne, wykresy w kształcie pudełka |
| Średnie odchylenie absolutne (MAD) | Średnia z |xᵢ − średnia| | Takie same jak dane | Średnia | Miara intuicyjna rozproszenia |
| Współczynnik zmienności (CV) | (SD / Średnia) × 100% | Procent | Niska | Porównywanie rozproszenia w różnych skalach |
Dla rozkładów normalnych (w kształcie poduszki), odchylenie standardowe ma specjalne znaczenie: około 68% danych przypada w przedziale ±1 SD od średniej, 95% w przedziale ±2 SD, a 99,7% w przedziale ±3 SD. To jest reguła empiryczna (68-95-99,7 reguła).
Wariancja w arkuszach kalkulacyjnych i programowaniu
Większość narzędzi posiada wbudowane funkcje obliczające wariancję. Upewnij się, że wybierzesz poprawną wersję (populacyjną lub próbkową):
| Narzędzie | Wariancja próbkowa | Wariancja populacyjna |
|---|---|---|
| Excel / Google Sheets | VAR.S(zakres) lub VAR(zakres) | VAR.P(zakres) lub VARP(zakres) |
| Python (NumPy) | np.var(dane, ddof=1) | np.var(dane) |
| Python (statistics) | statistics.variance(dane) | statistics.pvariance(dane) |
| R | var(x) | var(x) * (n-1)/n |
| JavaScript | Ręczne obliczenie (brak wbudowanej funkcji) | Ręczne obliczenie |
| SQL (PostgreSQL) | VAR_SAMP(kolumna) | VAR_POP(kolumna) |
| MATLAB | var(x) | var(x, 1) |
Uwaga: Python NumPy domyślnie używa wariancji populacyjnej (ddof=0), podczas gdy R var() domyślnie używa wariancji próbkowej. Jest to powszechny źródło błędów w porównywaniu wyników między językami.
Praktyczne zastosowania wariancji
| Dziedzina | Zastosowanie | Przykład |
|---|---|---|
| Finanse | Ryzyko inwestycyjne | Wysoka wariancja = bardziej niepewne zwroty z inwestycji |
| Produkcja | Kontrola jakości | Niska wariancja = konsekwentne wymiary produktów |
| Medycyna | Badania kliniczne | Mierzenie zmienności odpowiedzi pacjentów |
| Badania sportowe | Analiza wydajności | Zmienność wydajności sportowców w ciągu sezonu |
| Oświata | Analiza wyników egzaminów | Zrozumienie rozproszenia wyników studentów |
Wariancja w finansach: ryzyko portfela
W finansach, wariancja i odchylenie standardowe mierzą ryzyko inwestycyjne. Wyższa wariancja oznacza, że zwroty są bardziej niepewne — inwestycja jest bardziej ryzykowna. Teoria Portfela Moderna
Harry'ego Markowitza (1952, Nagroda Nobla 1990) używa wariancji jako głównego miernika ryzyka.
W przypadku portfela dwóch aktywów, łączna wariancja zależy od indywidualnych wariancji i korelacji między aktywami:
σ²portfel = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂
Gdzie w = waga, σ² = wariancja, a ρ = korelacja. Gdy ρ < 1 (aktywa nie poruszają się w idealnym harmonogramie), wariancja portfela jest mniejsza niż średnia ważona wariancji indywidualnych. To jest matematyczne podstawy dywersyfikacji — łączenie niezależnych aktywów zmniejsza ogólne ryzyko bez proporcjonalnego zmniejszenia oczekiwanego zwrotu.
| Klasyfikacja aktywów (2000–2023) | Roczne zwroty | Roczna SD (Volatylność) |
|---|---|---|
| Aktywa duże (S&P 500) | ~7,5% | ~15% |
| Aktywa małe (Russell 2000) | ~7,0% | ~20% |
| Aktywa rozwinięte (EAFE) | ~4,5% | ~17% |
| Aktywa obligacyjne (Agregat) | ~4,0% | ~4% |
| Złoto | ~8,0% | ~16% |
Portfel łączący aktywa i obligacje ma odchylenie standardowe znacznie niższe niż aktywa same, a jednocześnie zatrzymuje większość premii akcji.
Wariancja w kontroli jakości (Six Sigma)
Produkcja używa wariancji do kontroli jakości. Metodologia Six Sigma, opracowana przez Motorola w latach 80., ma na celu zmniejszenie wariancji procesu do tego stopnia, że prawie żadne produkty nie przekraczają granic specyfikacji.
| Poziom Sigma | Defekty na milion (DPMO) | Yield | Możliwość procesu (Cpk) |
|---|---|---|---|
| 1σ | 691,462 | 30,9% | 0,33 |
| 2σ | 308,538 | 69,1% | 0,67 |
| 3σ | 66,807 | 93,3% | 1,00 |
| 4σ | 6,210 | 99,38% | 1,33 |
| 5σ | 233 | 99,977% | 1,67 |
| 6σ | 3,4 | 99,99966% | 2,00 |
Proces działający w 6σ produkuje tylko 3,4 defekty na milion możliwości. Indeks możliwości procesu Cpk bezpośrednio zależy od wariancji: Cpk = (USL − μ) / (3σ), gdzie USL to górna granica specyfikacji. Zmniejszanie wariancji (dzięki lepszym maszynom, szkoleniom lub materiałom) zwiększa Cpk i przyciąga proces w kierunku jakości Six Sigma.
Przykłady z różnych dziedzin
Te przykłady rzeczywistych pokazują, jak oblicza się i interpretuje zmienną w praktyce:
Przykład 1: Woltyleczność zwrotów akcji
Zwroty miesięczne akcji w ciągu 6 miesięcy: +3,2%, −1,5%, +4,8%, −0,7%, +2,1%, +1,6%
- Średnia = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
- Odchylenia: 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
- W kwadrat: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
- Suma kwadratów = 27,947
- Współczynnik wariacji = 27,947/5 = 5,589 (%²)
- Odchylenie standardowe = √5,589 = 2,364% na miesiąc
- Wolatylność roczna ≈ 2,364% × √12 = 8,19%
Akcje mają umiarkowaną woltyleczność. S&P 500 historycznie ma ~15% woltyleczność roczną, więc akcje te są około dwukrotnie mniej woltyleczne niż rynek szeroki.
Przykład 2: Kontrola jakości w produkcji
Fabryka produkuje śrubki o długości 50,00 mm. Próbka 8 śrubek mierzy: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.
- Średnia = 400,05/8 = 50,00625 mm
- Współczynnik wariacji = 0,000655 mm²
- Odchylenie standardowe = 0,0256 mm
- Z limity specyfikacji 50,00 ± 0,10 mm: Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22
Cpk 1,22 oznacza, że proces jest zdolny, ale ma niewielką margines. Standardem branżowym jest Cpk ≥ 1,33 (4σ), więc ten proces potrzebuje większej kontroli, aby osiągnąć ten poziom.
Przykład 3: Wyniki egzaminów studentów
Klasa 10 studentów uzyskała następujące wyniki: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73.
- Średnia = 810/10 = 81,0
- Współczynnik wariacji (całkowita klasa) = 72,2
- Odchylenie standardowe = 8,50
- Współczynnik zmienności = 8,50/81,0 × 100% = 10,5%
CV 10,5% wskazuje na umiarkowaną rozbieżność – większość studentów uzyskała rozsądne wyniki wokół średniej. Jeśli CV przekroczyłoby 25%, nauczyciel mógłby sprawdzić, czy egzamin miał pytania zbyt trudne dla niektórych studentów lub czy istniał bimodalny rozkład (dwa odrębne grupy).
Powszechne błędy podczas obliczania wariacji
Aby uniknąć tych powszechnych błędów:
| Błąd | Dlaczego jest to błąd | Korekta |
|---|---|---|
| Użycie N zamiast N−1 dla próbek | Podwyznacza prawdziwą wariację populacji | Użyj N−1 dla danych, które są próbką z większej populacji |
| Averageowanie odchylenia bezwzględnego zamiast kwadratowania | Da MAD, a nie wariację | Kwadratuj każde odchylenie, potem średnia. Weź √ dla odchylenia standardowego |
| Zapomnienie o kwadratowaniu przed średnią | Odchylenia dodatnie i ujemne się wykluczają, dając ~0 | Zawsze kwadratuj odchylenia przed średnią |
| Porównywanie wariacji między różnymi skalami | Wariacja zależy od jednostek; $² ≠ kg² | Użyj współczynnika zmienności (CV) do porównywania między skalami |
| Przyjmowanie wariacji = odchylenia standardowego | Wariacja to SD²; jednostki są kwadratowe | Weź √ wariacji, aby dostać SD |
ANOVA: Porównanie Zmienności między Grupami
Analiza Wariacji (ANOVA) to test statystyczny, który porównuje średnie wielu grup poprzez analizę zmienności. Pomimo nazwy, testuje on, czy średnie grupy różnią się, a nie czy zmienności różnią się.
ANOVA dzieli całkowitą zmienność na dwa składniki:
- Zmienność międzygrupowa: W jakim stopniu średnie grupy różnią się od średniej ogólnej
- Zmienność wewnątrzgrupowa: W jakim stopniu wartości indywidualne różnią się wewnątrz każdej grupy
Wartość F = Zmienność międzygrupowa / Zmienność wewnątrzgrupowa. Duża wartość F oznacza, że grupy są bardziej różne od siebie niż można by się spodziewać przypadkowo. Jeśli F przekroczy wartość krytyczną (lub p < 0,05), przynajmniej jedno średnie grupowe jest istotnie różne.
Przykład: Porównanie wyników egzaminów uczniów nauczanych przez trzy różne metody. ANOVA powie, czy metoda nauczania ma znaczenie; testy post-hoc (Tukey, Bonferroni) powie, które metody różnią się.
💡 Ciekawostka!
- Zmienność została wprowadzona przez Ronalda Fishera w 1918 roku — w tym samym artykule, w którym wprowadził on termin "zmienność".
- W finansach, zmienność jest podstawą Teorii Portfolio Modernego. Zmienność portfela zależy nie tylko od zmienności poszczególnych aktywów, ale także od korelacji między nimi.
- Współczynnik zmienności (CV = odchylenie standardowe / średnia × 100%) pozwala porównywać zmienność między zestawami danych o różnych jednostkach lub skalach.
- Nierówność Chebyszowa gwarantuje, że dla jakiejkolwiek dystrybucji (nie tylko normalnej), przynajmniej 75% danych przypada w przedziale ±2 odchylenia standardowego i przynajmniej 89% w przedziale ±3 odchylenia standardowego. Jest to słabsze niż reguła empiryczna, ale zastosowanie ogólne.
Często zadawane pytania
Jakie są różnice między zmiennymi a odchyleniem standardowym?
Zmienna to średnia kwadratów odchylenia od średniej; odchylenie standardowe to jego pierwiastek. Odchylenie standardowe ma te same jednostki co dane oryginalne (np. dolary, kg, sekundy), czyniąc je bardziej interpretowalnym. Zmienna jest przydatna w operacjach matematycznych (zmienne niezależne dodają się bezpośrednio), podczas gdy odchylenie standardowe jest lepsze do opisu rozproszenia dla niezawodowego odbiorcy.
Kiedy używać zmienną lub odchylenie standardowe?
Używaj zmienną, gdy dane zawierają wszystkich członków grupy, którą analizujesz (np. wszystkich pracowników w jednej firmie). Używaj odchylenia standardowego, gdy dane to podzbiór większej grupy (np. sondażu 500 wyborców, aby oszacować opinie wszystkich wyborców). W większości badań i statystyk w rzeczywistości odchylenie standardowe jest odpowiednie.
Czy zmienna może być ujemna?
Nie. Zmienna jest zawsze zero lub dodatnia, ponieważ jest obliczana z wartości kwadratowych. Zmienna = 0 tylko wtedy, gdy wszystkie dane są identyczne (brak rozproszenia). Ujemna zmienna jest matematycznie niemożliwa i wskazuje na błąd obliczeniowy.
Jakie są "duże" lub "małe" odchylenie?
Wysokie i niskie są względne w stosunku do skali i kontekstu danych. Odchylenie 10 jest "niskie" dla wzrostów ludzi w cm, ale "wysokie" dla wzrostów w metrach. Współczynnik wariacji (SD / średnia × 100%) jest niezależny od skali i pozwala na porównywanie danych różnych zestawów. W kontroli jakości specyfikacje definiują akceptowalne zakresy odchylenia dla każdej miary.
Jak odchylenie standardowe odnosi się do rozkładu normalnego?
Rozkład normalny (Gausa) jest opisany przez dwa parametry: średnią (μ) i zmienną (σ²). Znany krzyż jest szerszy, gdy zmienna jest duża i węższy, gdy zmienna jest mała. Dla danych normalnych, reguła empiryczna obowiązuje: 68,3% w przedziale ±1σ, 95,4% w przedziale ±2σ i 99,7% w przedziale ±3σ. Wiele testów statystycznych (test t, ANOVA, regresja) założyło, że dane są rozkładem normalnym lub że średnie próbki są prawie normalne (za pomocą Teoremy Ograniczającej Średnią).
Jakie jest odchylenie połączone?
Odchylenie połączone to średnia wagowa odchylenia standardowych z dwóch lub więcej grup, używane w dwu-probka test t, gdy założono, że odchylenia są równe w grupach. Formuła to: s²pooled = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Produkuje to jedną szacowaną wartość odchylenia, która uwzględnia informacje z obu próbek, zwiększając siłę statystyczną, gdy założenie o równych odchyleniach jest prawidłowe.