🔬 Advanced

Kalkulator wariancji – Wariancja populacji i próby

Oblicz wariancję i odchylenie standardowe dla zestawu danych. Obsługuje wariancję populacji i próby. Bezpłatny kalkulator statystyczny online – natychmiastowe wyniki.

Co to jest wariacja?

Wariacja mierzy rozrzut zestawu danych — jak daleko są wartości od średniej. Mała wariacja oznacza, że punkty danych skupiają się wokół średniej; wysoka wariacja oznacza, że są rozproszone szeroko.

Wariacja jest obliczana jako średnia kwadratów różnic od średniej:

Wariacja populacyjna (σ²): σ² = Σ(xᵢ − μ)² / N
Wariacja próbna (s²): s² = Σ(xᵢ − x̄)² / (N−1)

Gdzie xᵢ to każdy punkt danych, μ (lub x̄) to średnia, a N to liczba wartości. Odchylenie standardowe jest prostą korzeniem z wariacji — jest ono w jednostkach oryginalnych danych, czyniąc je bardziej interpretowalnym.

Dlaczego mnożymy różnice przez kwadrat? Dwa powody: (1) mnożenie przez kwadrat eliminuje wartości ujemne, aby odchylenia powyżej i poniżej średniej nie anulowały się nawzajem, a (2) mnożenie przez kwadrat nadaje wagi wyższej wartościom wyjściowym, czyniąc wariację wrażliwą na wartości ekstremalne. Ta cecha jest zarówno zaletą (wykrywanie wartości wyjściowych), jak i wadą (wrażliwość na wartości wyjściowe). W przypadku danych z wartościami wyjściowymi ekstremalnymi rozważ użycie mediana absolutnej odchyloności (MAD) jako bardziej stabilnej alternatywy.

Wariacja populacyjna vs. próbna

Podstawową różnicą jest zapis w mianowniku — N vs. (N−1) — znany jako poprawka Bessela:

Typ	Mianownik	Użycie	Symbol
Wariacja populacyjna	N	Masz dane na całą populację	σ²
Wariacja próbna	N−1	Masz próbkę z większej populacji	s²

W praktyce większość danych rzeczywistych jest próbką. Użycie N−1 (wariacja próbna) daje niesprawdzony szacunek prawdziwej wariacji populacyjnej. Użycie N (wariacja populacyjna) na próbce systematycznie podwyższa prawdziwą wariację.

Przykład: testowanie nowego leku na 50 pacjentów oznacza użycie wariacji próbnej (s²). Analiza wszystkich uczniów w klasie oznacza użycie wariacji populacyjnej (σ²).

Dlaczego działa poprawka Bessela? Gdy obliczasz średnią próbkę, używasz jednego "stopnia swobody" — średnia jest obliczana z danych, więc odchylenia od średniej nie są całkowicie niezależne. Dzielenie przez (N−1) zamiast N kompensuje tę utratę jednego stopnia swobody, produkując niesprawdzony szacunek prawdziwej wariacji populacyjnej. Im większa jest N, tym różnica między N a N−1 staje się nieistotna.

Krok po kroku obliczanie wariacji

Dane: 4, 7, 13, 2, 8

Oblicz średnią: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
Znajdź odchylenia od średniej: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
Wynies odchylenia: 7,84; 0,04; 38,44; 23,04; 1,44
Suma kwadratów: 7,84+0,04+38,44+23,04+1,44 = 70,8
Wariacja populacyjna: 70,8 ÷ 5 = 14,16
Wariacja próbna: 70,8 ÷ 4 = 17,7
Odchylenie standardowe: √14,16 = 3,76 (populacyjne) lub √17,7 = 4,21 (próbkowe)

Skrócona formula wariacji

Istnieje równoważna "komputacyjna" formula, która unikając obliczania odchyleń bezpośrednio, jest przydatna w przypadku obliczeń ręcznych lub w arkuszach kalkulacyjnych:

σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N

W przypadku wariacji próbnej: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)

Przykład danych (4, 7, 13, 2, 8):

Σxᵢ = 34, więc (Σxᵢ)² = 1,156
Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
Wariacja populacyjna = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16 ✓
Wariacja próbna = 70,8 / 4 = 17,7 ✓

Ta formula jest numerycznie identyczna, ale może cierpieć na problemy z dokładnością punktów zmiennych, gdy wartości są bardzo duże. W celu zapewnienia stabilności obliczeniowej, algorytm Welforda (który przetwarza jeden element na raz) jest preferowany w implementacjach oprogramowania.

Współczynniki statystyczne

Wariancja jest jednym z kilku miar rozproszenia. Każdy z nich ma inne zalety:

Współczynnik	Formuła	Jednostki	Wpływ na wybrane dane	Najlepsze do
Wariancja (σ² lub s²)	Średnia odchylenia kwadratowych	Jednostki kwadratowe	Niska — bardzo wrażliwa	Statystyka teoretyczna, ANOVA
Odchylenie standardowe (σ lub s)	√Wariancji	Takie same jak dane	Niska	Opisanie rozproszenia w jednostkach oryginalnych
Przedział	Maksimum − Minimum	Takie same jak dane	Wysoka	Szybki sprawdzanie, małe próby
Interkwartylowy przedział (IQR)	Q3 − Q1	Takie same jak dane	Wysoka	Rozkłady asymetryczne, wykresy w kształcie pudełka
Średnie odchylenie absolutne (MAD)	Średnia z \|xᵢ − średnia\|	Takie same jak dane	Średnia	Miara intuicyjna rozproszenia
Współczynnik zmienności (CV)	(SD / Średnia) × 100%	Procent	Niska	Porównywanie rozproszenia w różnych skalach

Dla rozkładów normalnych (w kształcie poduszki), odchylenie standardowe ma specjalne znaczenie: około 68% danych przypada w przedziale ±1 SD od średniej, 95% w przedziale ±2 SD, a 99,7% w przedziale ±3 SD. To jest reguła empiryczna (68-95-99,7 reguła).

Wariancja w arkuszach kalkulacyjnych i programowaniu

Większość narzędzi posiada wbudowane funkcje obliczające wariancję. Upewnij się, że wybierzesz poprawną wersję (populacyjną lub próbkową):

Narzędzie	Wariancja próbkowa	Wariancja populacyjna
Excel / Google Sheets	`VAR.S(zakres)` lub `VAR(zakres)`	`VAR.P(zakres)` lub `VARP(zakres)`
Python (NumPy)	`np.var(dane, ddof=1)`	`np.var(dane)`
Python (statistics)	`statistics.variance(dane)`	`statistics.pvariance(dane)`
R	`var(x)`	`var(x) * (n-1)/n`
JavaScript	Ręczne obliczenie (brak wbudowanej funkcji)	Ręczne obliczenie
SQL (PostgreSQL)	`VAR_SAMP(kolumna)`	`VAR_POP(kolumna)`
MATLAB	`var(x)`	`var(x, 1)`

Uwaga: Python NumPy domyślnie używa wariancji populacyjnej (ddof=0), podczas gdy R var() domyślnie używa wariancji próbkowej. Jest to powszechny źródło błędów w porównywaniu wyników między językami.

Praktyczne zastosowania wariancji

Dziedzina	Zastosowanie	Przykład
Finanse	Ryzyko inwestycyjne	Wysoka wariancja = bardziej niepewne zwroty z inwestycji
Produkcja	Kontrola jakości	Niska wariancja = konsekwentne wymiary produktów
Medycyna	Badania kliniczne	Mierzenie zmienności odpowiedzi pacjentów
Badania sportowe	Analiza wydajności	Zmienność wydajności sportowców w ciągu sezonu
Oświata	Analiza wyników egzaminów	Zrozumienie rozproszenia wyników studentów

Wariancja w finansach: ryzyko portfela

W finansach, wariancja i odchylenie standardowe mierzą ryzyko inwestycyjne. Wyższa wariancja oznacza, że zwroty są bardziej niepewne — inwestycja jest bardziej ryzykowna. Teoria Portfela Moderna

Harry'ego Markowitza (1952, Nagroda Nobla 1990) używa wariancji jako głównego miernika ryzyka.

W przypadku portfela dwóch aktywów, łączna wariancja zależy od indywidualnych wariancji i korelacji między aktywami:

σ²_portfel = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂

Gdzie w = waga, σ² = wariancja, a ρ = korelacja. Gdy ρ < 1 (aktywa nie poruszają się w idealnym harmonogramie), wariancja portfela jest mniejsza niż średnia ważona wariancji indywidualnych. To jest matematyczne podstawy dywersyfikacji — łączenie niezależnych aktywów zmniejsza ogólne ryzyko bez proporcjonalnego zmniejszenia oczekiwanego zwrotu.

Klasyfikacja aktywów (2000–2023)	Roczne zwroty	Roczna SD (Volatylność)
Aktywa duże (S&P 500)	~7,5%	~15%
Aktywa małe (Russell 2000)	~7,0%	~20%
Aktywa rozwinięte (EAFE)	~4,5%	~17%
Aktywa obligacyjne (Agregat)	~4,0%	~4%
Złoto	~8,0%	~16%

Portfel łączący aktywa i obligacje ma odchylenie standardowe znacznie niższe niż aktywa same, a jednocześnie zatrzymuje większość premii akcji.

Wariancja w kontroli jakości (Six Sigma)

Produkcja używa wariancji do kontroli jakości. Metodologia Six Sigma, opracowana przez Motorola w latach 80., ma na celu zmniejszenie wariancji procesu do tego stopnia, że prawie żadne produkty nie przekraczają granic specyfikacji.

Poziom Sigma	Defekty na milion (DPMO)	Yield	Możliwość procesu (Cpk)
1σ	691,462	30,9%	0,33
2σ	308,538	69,1%	0,67
3σ	66,807	93,3%	1,00
4σ	6,210	99,38%	1,33
5σ	233	99,977%	1,67
6σ	3,4	99,99966%	2,00

Proces działający w 6σ produkuje tylko 3,4 defekty na milion możliwości. Indeks możliwości procesu Cpk bezpośrednio zależy od wariancji: Cpk = (USL − μ) / (3σ), gdzie USL to górna granica specyfikacji. Zmniejszanie wariancji (dzięki lepszym maszynom, szkoleniom lub materiałom) zwiększa Cpk i przyciąga proces w kierunku jakości Six Sigma.

Przykłady z różnych dziedzin

Te przykłady rzeczywistych pokazują, jak oblicza się i interpretuje zmienną w praktyce:

Przykład 1: Woltyleczność zwrotów akcji

Zwroty miesięczne akcji w ciągu 6 miesięcy: +3,2%, −1,5%, +4,8%, −0,7%, +2,1%, +1,6%

Średnia = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
Odchylenia: 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
W kwadrat: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
Suma kwadratów = 27,947
Współczynnik wariacji = 27,947/5 = 5,589 (%²)
Odchylenie standardowe = √5,589 = 2,364% na miesiąc
Wolatylność roczna ≈ 2,364% × √12 = 8,19%

Akcje mają umiarkowaną woltyleczność. S&P 500 historycznie ma ~15% woltyleczność roczną, więc akcje te są około dwukrotnie mniej woltyleczne niż rynek szeroki.

Przykład 2: Kontrola jakości w produkcji

Fabryka produkuje śrubki o długości 50,00 mm. Próbka 8 śrubek mierzy: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

Średnia = 400,05/8 = 50,00625 mm
Współczynnik wariacji = 0,000655 mm²
Odchylenie standardowe = 0,0256 mm
Z limity specyfikacji 50,00 ± 0,10 mm: Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22

Cpk 1,22 oznacza, że proces jest zdolny, ale ma niewielką margines. Standardem branżowym jest Cpk ≥ 1,33 (4σ), więc ten proces potrzebuje większej kontroli, aby osiągnąć ten poziom.

Przykład 3: Wyniki egzaminów studentów

Klasa 10 studentów uzyskała następujące wyniki: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73.

Średnia = 810/10 = 81,0
Współczynnik wariacji (całkowita klasa) = 72,2
Odchylenie standardowe = 8,50
Współczynnik zmienności = 8,50/81,0 × 100% = 10,5%

CV 10,5% wskazuje na umiarkowaną rozbieżność – większość studentów uzyskała rozsądne wyniki wokół średniej. Jeśli CV przekroczyłoby 25%, nauczyciel mógłby sprawdzić, czy egzamin miał pytania zbyt trudne dla niektórych studentów lub czy istniał bimodalny rozkład (dwa odrębne grupy).

Powszechne błędy podczas obliczania wariacji

Aby uniknąć tych powszechnych błędów:

Błąd	Dlaczego jest to błąd	Korekta
Użycie N zamiast N−1 dla próbek	Podwyznacza prawdziwą wariację populacji	Użyj N−1 dla danych, które są próbką z większej populacji
Averageowanie odchylenia bezwzględnego zamiast kwadratowania	Da MAD, a nie wariację	Kwadratuj każde odchylenie, potem średnia. Weź √ dla odchylenia standardowego
Zapomnienie o kwadratowaniu przed średnią	Odchylenia dodatnie i ujemne się wykluczają, dając ~0	Zawsze kwadratuj odchylenia przed średnią
Porównywanie wariacji między różnymi skalami	Wariacja zależy od jednostek; $² ≠ kg²	Użyj współczynnika zmienności (CV) do porównywania między skalami
Przyjmowanie wariacji = odchylenia standardowego	Wariacja to SD²; jednostki są kwadratowe	Weź √ wariacji, aby dostać SD

ANOVA: Porównanie Zmienności między Grupami

Analiza Wariacji (ANOVA) to test statystyczny, który porównuje średnie wielu grup poprzez analizę zmienności. Pomimo nazwy, testuje on, czy średnie grupy różnią się, a nie czy zmienności różnią się.

ANOVA dzieli całkowitą zmienność na dwa składniki:

Zmienność międzygrupowa: W jakim stopniu średnie grupy różnią się od średniej ogólnej
Zmienność wewnątrzgrupowa: W jakim stopniu wartości indywidualne różnią się wewnątrz każdej grupy

Wartość F = Zmienność międzygrupowa / Zmienność wewnątrzgrupowa. Duża wartość F oznacza, że grupy są bardziej różne od siebie niż można by się spodziewać przypadkowo. Jeśli F przekroczy wartość krytyczną (lub p < 0,05), przynajmniej jedno średnie grupowe jest istotnie różne.

Przykład: Porównanie wyników egzaminów uczniów nauczanych przez trzy różne metody. ANOVA powie, czy metoda nauczania ma znaczenie; testy post-hoc (Tukey, Bonferroni) powie, które metody różnią się.

💡 Ciekawostka!

Zmienność została wprowadzona przez Ronalda Fishera w 1918 roku — w tym samym artykule, w którym wprowadził on termin "zmienność".
W finansach, zmienność jest podstawą Teorii Portfolio Modernego. Zmienność portfela zależy nie tylko od zmienności poszczególnych aktywów, ale także od korelacji między nimi.
Współczynnik zmienności (CV = odchylenie standardowe / średnia × 100%) pozwala porównywać zmienność między zestawami danych o różnych jednostkach lub skalach.
Nierówność Chebyszowa gwarantuje, że dla jakiejkolwiek dystrybucji (nie tylko normalnej), przynajmniej 75% danych przypada w przedziale ±2 odchylenia standardowego i przynajmniej 89% w przedziale ±3 odchylenia standardowego. Jest to słabsze niż reguła empiryczna, ale zastosowanie ogólne.

Często zadawane pytania

Jakie są różnice między zmiennymi a odchyleniem standardowym?

Zmienna to średnia kwadratów odchylenia od średniej; odchylenie standardowe to jego pierwiastek. Odchylenie standardowe ma te same jednostki co dane oryginalne (np. dolary, kg, sekundy), czyniąc je bardziej interpretowalnym. Zmienna jest przydatna w operacjach matematycznych (zmienne niezależne dodają się bezpośrednio), podczas gdy odchylenie standardowe jest lepsze do opisu rozproszenia dla niezawodowego odbiorcy.

Kiedy używać zmienną lub odchylenie standardowe?

Używaj zmienną, gdy dane zawierają wszystkich członków grupy, którą analizujesz (np. wszystkich pracowników w jednej firmie). Używaj odchylenia standardowego, gdy dane to podzbiór większej grupy (np. sondażu 500 wyborców, aby oszacować opinie wszystkich wyborców). W większości badań i statystyk w rzeczywistości odchylenie standardowe jest odpowiednie.

Czy zmienna może być ujemna?

Nie. Zmienna jest zawsze zero lub dodatnia, ponieważ jest obliczana z wartości kwadratowych. Zmienna = 0 tylko wtedy, gdy wszystkie dane są identyczne (brak rozproszenia). Ujemna zmienna jest matematycznie niemożliwa i wskazuje na błąd obliczeniowy.

Jakie są "duże" lub "małe" odchylenie?

Wysokie i niskie są względne w stosunku do skali i kontekstu danych. Odchylenie 10 jest "niskie" dla wzrostów ludzi w cm, ale "wysokie" dla wzrostów w metrach. Współczynnik wariacji (SD / średnia × 100%) jest niezależny od skali i pozwala na porównywanie danych różnych zestawów. W kontroli jakości specyfikacje definiują akceptowalne zakresy odchylenia dla każdej miary.

Jak odchylenie standardowe odnosi się do rozkładu normalnego?

Rozkład normalny (Gausa) jest opisany przez dwa parametry: średnią (μ) i zmienną (σ²). Znany krzyż jest szerszy, gdy zmienna jest duża i węższy, gdy zmienna jest mała. Dla danych normalnych, reguła empiryczna obowiązuje: 68,3% w przedziale ±1σ, 95,4% w przedziale ±2σ i 99,7% w przedziale ±3σ. Wiele testów statystycznych (test t, ANOVA, regresja) założyło, że dane są rozkładem normalnym lub że średnie próbki są prawie normalne (za pomocą Teoremy Ograniczającej Średnią).

Jakie jest odchylenie połączone?

Odchylenie połączone to średnia wagowa odchylenia standardowych z dwóch lub więcej grup, używane w dwu-probka test t, gdy założono, że odchylenia są równe w grupach. Formuła to: s²_pooled = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Produkuje to jedną szacowaną wartość odchylenia, która uwzględnia informacje z obu próbek, zwiększając siłę statystyczną, gdy założenie o równych odchyleniach jest prawidłowe.