Skip to main content
🔬 Advanced

Kalkulator wariancji – Wariancja populacji i próby

Oblicz wariancję i odchylenie standardowe dla zestawu danych. Obsługuje wariancję populacji i próby. Bezpłatny kalkulator statystyczny online – natychmiastowe wyniki.

Co to jest wariacja?

Wariacja mierzy rozrzut zestawu danych — jak daleko są wartości od średniej. Mała wariacja oznacza, że punkty danych skupiają się wokół średniej; wysoka wariacja oznacza, że są rozproszone szeroko.

Wariacja jest obliczana jako średnia kwadratów różnic od średniej:

Gdzie xᵢ to każdy punkt danych, μ (lub x̄) to średnia, a N to liczba wartości. Odchylenie standardowe jest prostą korzeniem z wariacji — jest ono w jednostkach oryginalnych danych, czyniąc je bardziej interpretowalnym.

Dlaczego mnożymy różnice przez kwadrat? Dwa powody: (1) mnożenie przez kwadrat eliminuje wartości ujemne, aby odchylenia powyżej i poniżej średniej nie anulowały się nawzajem, a (2) mnożenie przez kwadrat nadaje wagi wyższej wartościom wyjściowym, czyniąc wariację wrażliwą na wartości ekstremalne. Ta cecha jest zarówno zaletą (wykrywanie wartości wyjściowych), jak i wadą (wrażliwość na wartości wyjściowe). W przypadku danych z wartościami wyjściowymi ekstremalnymi rozważ użycie mediana absolutnej odchyloności (MAD) jako bardziej stabilnej alternatywy.

Wariacja populacyjna vs. próbna

Podstawową różnicą jest zapis w mianowniku — N vs. (N−1) — znany jako poprawka Bessela:

TypMianownikUżycieSymbol
Wariacja populacyjnaNMasz dane na całą populacjęσ²
Wariacja próbnaN−1Masz próbkę z większej populacji

W praktyce większość danych rzeczywistych jest próbką. Użycie N−1 (wariacja próbna) daje niesprawdzony szacunek prawdziwej wariacji populacyjnej. Użycie N (wariacja populacyjna) na próbce systematycznie podwyższa prawdziwą wariację.

Przykład: testowanie nowego leku na 50 pacjentów oznacza użycie wariacji próbnej (s²). Analiza wszystkich uczniów w klasie oznacza użycie wariacji populacyjnej (σ²).

Dlaczego działa poprawka Bessela? Gdy obliczasz średnią próbkę, używasz jednego "stopnia swobody" — średnia jest obliczana z danych, więc odchylenia od średniej nie są całkowicie niezależne. Dzielenie przez (N−1) zamiast N kompensuje tę utratę jednego stopnia swobody, produkując niesprawdzony szacunek prawdziwej wariacji populacyjnej. Im większa jest N, tym różnica między N a N−1 staje się nieistotna.

Krok po kroku obliczanie wariacji

Dane: 4, 7, 13, 2, 8

  1. Oblicz średnią: (4+7+13+2+8) ÷ 5 = 34/5 = 6,8
  2. Znajdź odchylenia od średniej: (4−6,8)=−2,8; (7−6,8)=0,2; (13−6,8)=6,2; (2−6,8)=−4,8; (8−6,8)=1,2
  3. Wynies odchylenia: 7,84; 0,04; 38,44; 23,04; 1,44
  4. Suma kwadratów: 7,84+0,04+38,44+23,04+1,44 = 70,8
  5. Wariacja populacyjna: 70,8 ÷ 5 = 14,16
  6. Wariacja próbna: 70,8 ÷ 4 = 17,7
  7. Odchylenie standardowe: √14,16 = 3,76 (populacyjne) lub √17,7 = 4,21 (próbkowe)

Skrócona formula wariacji

Istnieje równoważna "komputacyjna" formula, która unikając obliczania odchyleń bezpośrednio, jest przydatna w przypadku obliczeń ręcznych lub w arkuszach kalkulacyjnych:

σ² = (Σxᵢ²)/N − (Σxᵢ/N)² = (Σxᵢ² − (Σxᵢ)²/N) / N

W przypadku wariacji próbnej: s² = (Σxᵢ² − (Σxᵢ)²/N) / (N−1)

Przykład danych (4, 7, 13, 2, 8):

  1. Σxᵢ = 34, więc (Σxᵢ)² = 1,156
  2. Σxᵢ² = 16 + 49 + 169 + 4 + 64 = 302
  3. Wariacja populacyjna = (302 − 1156/5) / 5 = (302 − 231,2) / 5 = 70,8 / 5 = 14,16
  4. Wariacja próbna = 70,8 / 4 = 17,7

Ta formula jest numerycznie identyczna, ale może cierpieć na problemy z dokładnością punktów zmiennych, gdy wartości są bardzo duże. W celu zapewnienia stabilności obliczeniowej, algorytm Welforda (który przetwarza jeden element na raz) jest preferowany w implementacjach oprogramowania.

Współczynniki statystyczne

Wariancja jest jednym z kilku miar rozproszenia. Każdy z nich ma inne zalety:

WspółczynnikFormułaJednostkiWpływ na wybrane daneNajlepsze do
Wariancja (σ² lub s²)Średnia odchylenia kwadratowychJednostki kwadratoweNiska — bardzo wrażliwaStatystyka teoretyczna, ANOVA
Odchylenie standardowe (σ lub s)√WariancjiTakie same jak daneNiskaOpisanie rozproszenia w jednostkach oryginalnych
PrzedziałMaksimum − MinimumTakie same jak daneWysokaSzybki sprawdzanie, małe próby
Interkwartylowy przedział (IQR)Q3 − Q1Takie same jak daneWysokaRozkłady asymetryczne, wykresy w kształcie pudełka
Średnie odchylenie absolutne (MAD)Średnia z |xᵢ − średnia|Takie same jak daneŚredniaMiara intuicyjna rozproszenia
Współczynnik zmienności (CV)(SD / Średnia) × 100%ProcentNiskaPorównywanie rozproszenia w różnych skalach

Dla rozkładów normalnych (w kształcie poduszki), odchylenie standardowe ma specjalne znaczenie: około 68% danych przypada w przedziale ±1 SD od średniej, 95% w przedziale ±2 SD, a 99,7% w przedziale ±3 SD. To jest reguła empiryczna (68-95-99,7 reguła).

Wariancja w arkuszach kalkulacyjnych i programowaniu

Większość narzędzi posiada wbudowane funkcje obliczające wariancję. Upewnij się, że wybierzesz poprawną wersję (populacyjną lub próbkową):

NarzędzieWariancja próbkowaWariancja populacyjna
Excel / Google SheetsVAR.S(zakres) lub VAR(zakres)VAR.P(zakres) lub VARP(zakres)
Python (NumPy)np.var(dane, ddof=1)np.var(dane)
Python (statistics)statistics.variance(dane)statistics.pvariance(dane)
Rvar(x)var(x) * (n-1)/n
JavaScriptRęczne obliczenie (brak wbudowanej funkcji)Ręczne obliczenie
SQL (PostgreSQL)VAR_SAMP(kolumna)VAR_POP(kolumna)
MATLABvar(x)var(x, 1)

Uwaga: Python NumPy domyślnie używa wariancji populacyjnej (ddof=0), podczas gdy R var() domyślnie używa wariancji próbkowej. Jest to powszechny źródło błędów w porównywaniu wyników między językami.

Praktyczne zastosowania wariancji

DziedzinaZastosowaniePrzykład
FinanseRyzyko inwestycyjneWysoka wariancja = bardziej niepewne zwroty z inwestycji
ProdukcjaKontrola jakościNiska wariancja = konsekwentne wymiary produktów
MedycynaBadania kliniczneMierzenie zmienności odpowiedzi pacjentów
Badania sportoweAnaliza wydajnościZmienność wydajności sportowców w ciągu sezonu
OświataAnaliza wyników egzaminówZrozumienie rozproszenia wyników studentów

Wariancja w finansach: ryzyko portfela

W finansach, wariancja i odchylenie standardowe mierzą ryzyko inwestycyjne. Wyższa wariancja oznacza, że zwroty są bardziej niepewne — inwestycja jest bardziej ryzykowna. Teoria Portfela Moderna

Harry'ego Markowitza (1952, Nagroda Nobla 1990) używa wariancji jako głównego miernika ryzyka.

W przypadku portfela dwóch aktywów, łączna wariancja zależy od indywidualnych wariancji i korelacji między aktywami:

σ²portfel = w₁²σ₁² + w₂²σ₂² + 2·w₁·w₂·σ₁·σ₂·ρ₁₂

Gdzie w = waga, σ² = wariancja, a ρ = korelacja. Gdy ρ < 1 (aktywa nie poruszają się w idealnym harmonogramie), wariancja portfela jest mniejsza niż średnia ważona wariancji indywidualnych. To jest matematyczne podstawy dywersyfikacji — łączenie niezależnych aktywów zmniejsza ogólne ryzyko bez proporcjonalnego zmniejszenia oczekiwanego zwrotu.

Klasyfikacja aktywów (2000–2023)Roczne zwrotyRoczna SD (Volatylność)
Aktywa duże (S&P 500)~7,5%~15%
Aktywa małe (Russell 2000)~7,0%~20%
Aktywa rozwinięte (EAFE)~4,5%~17%
Aktywa obligacyjne (Agregat)~4,0%~4%
Złoto~8,0%~16%

Portfel łączący aktywa i obligacje ma odchylenie standardowe znacznie niższe niż aktywa same, a jednocześnie zatrzymuje większość premii akcji.

Wariancja w kontroli jakości (Six Sigma)

Produkcja używa wariancji do kontroli jakości. Metodologia Six Sigma, opracowana przez Motorola w latach 80., ma na celu zmniejszenie wariancji procesu do tego stopnia, że prawie żadne produkty nie przekraczają granic specyfikacji.

Poziom SigmaDefekty na milion (DPMO)YieldMożliwość procesu (Cpk)
691,46230,9%0,33
308,53869,1%0,67
66,80793,3%1,00
6,21099,38%1,33
23399,977%1,67
3,499,99966%2,00

Proces działający w 6σ produkuje tylko 3,4 defekty na milion możliwości. Indeks możliwości procesu Cpk bezpośrednio zależy od wariancji: Cpk = (USL − μ) / (3σ), gdzie USL to górna granica specyfikacji. Zmniejszanie wariancji (dzięki lepszym maszynom, szkoleniom lub materiałom) zwiększa Cpk i przyciąga proces w kierunku jakości Six Sigma.

Przykłady z różnych dziedzin

Te przykłady rzeczywistych pokazują, jak oblicza się i interpretuje zmienną w praktyce:

Przykład 1: Woltyleczność zwrotów akcji

Zwroty miesięczne akcji w ciągu 6 miesięcy: +3,2%, −1,5%, +4,8%, −0,7%, +2,1%, +1,6%

  1. Średnia = (3,2−1,5+4,8−0,7+2,1+1,6) / 6 = 9,5/6 = 1,583%
  2. Odchylenia: 1,617, −3,083, 3,217, −2,283, 0,517, 0,017
  3. W kwadrat: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
  4. Suma kwadratów = 27,947
  5. Współczynnik wariacji = 27,947/5 = 5,589 (%²)
  6. Odchylenie standardowe = √5,589 = 2,364% na miesiąc
  7. Wolatylność roczna ≈ 2,364% × √12 = 8,19%

Akcje mają umiarkowaną woltyleczność. S&P 500 historycznie ma ~15% woltyleczność roczną, więc akcje te są około dwukrotnie mniej woltyleczne niż rynek szeroki.

Przykład 2: Kontrola jakości w produkcji

Fabryka produkuje śrubki o długości 50,00 mm. Próbka 8 śrubek mierzy: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

  1. Średnia = 400,05/8 = 50,00625 mm
  2. Współczynnik wariacji = 0,000655 mm²
  3. Odchylenie standardowe = 0,0256 mm
  4. Z limity specyfikacji 50,00 ± 0,10 mm: Cpk = (50,10 − 50,006) / (3 × 0,0256) = 1,22

Cpk 1,22 oznacza, że proces jest zdolny, ale ma niewielką margines. Standardem branżowym jest Cpk ≥ 1,33 (4σ), więc ten proces potrzebuje większej kontroli, aby osiągnąć ten poziom.

Przykład 3: Wyniki egzaminów studentów

Klasa 10 studentów uzyskała następujące wyniki: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73.

  1. Średnia = 810/10 = 81,0
  2. Współczynnik wariacji (całkowita klasa) = 72,2
  3. Odchylenie standardowe = 8,50
  4. Współczynnik zmienności = 8,50/81,0 × 100% = 10,5%

CV 10,5% wskazuje na umiarkowaną rozbieżność – większość studentów uzyskała rozsądne wyniki wokół średniej. Jeśli CV przekroczyłoby 25%, nauczyciel mógłby sprawdzić, czy egzamin miał pytania zbyt trudne dla niektórych studentów lub czy istniał bimodalny rozkład (dwa odrębne grupy).

Powszechne błędy podczas obliczania wariacji

Aby uniknąć tych powszechnych błędów:

BłądDlaczego jest to błądKorekta
Użycie N zamiast N−1 dla próbekPodwyznacza prawdziwą wariację populacjiUżyj N−1 dla danych, które są próbką z większej populacji
Averageowanie odchylenia bezwzględnego zamiast kwadratowaniaDa MAD, a nie wariacjęKwadratuj każde odchylenie, potem średnia. Weź √ dla odchylenia standardowego
Zapomnienie o kwadratowaniu przed średniąOdchylenia dodatnie i ujemne się wykluczają, dając ~0Zawsze kwadratuj odchylenia przed średnią
Porównywanie wariacji między różnymi skalamiWariacja zależy od jednostek; $² ≠ kg²Użyj współczynnika zmienności (CV) do porównywania między skalami
Przyjmowanie wariacji = odchylenia standardowegoWariacja to SD²; jednostki są kwadratoweWeź √ wariacji, aby dostać SD

ANOVA: Porównanie Zmienności między Grupami

Analiza Wariacji (ANOVA) to test statystyczny, który porównuje średnie wielu grup poprzez analizę zmienności. Pomimo nazwy, testuje on, czy średnie grupy różnią się, a nie czy zmienności różnią się.

ANOVA dzieli całkowitą zmienność na dwa składniki:

Wartość F = Zmienność międzygrupowa / Zmienność wewnątrzgrupowa. Duża wartość F oznacza, że grupy są bardziej różne od siebie niż można by się spodziewać przypadkowo. Jeśli F przekroczy wartość krytyczną (lub p < 0,05), przynajmniej jedno średnie grupowe jest istotnie różne.

Przykład: Porównanie wyników egzaminów uczniów nauczanych przez trzy różne metody. ANOVA powie, czy metoda nauczania ma znaczenie; testy post-hoc (Tukey, Bonferroni) powie, które metody różnią się.

💡 Ciekawostka!

Często zadawane pytania

Jakie są różnice między zmiennymi a odchyleniem standardowym?

Zmienna to średnia kwadratów odchylenia od średniej; odchylenie standardowe to jego pierwiastek. Odchylenie standardowe ma te same jednostki co dane oryginalne (np. dolary, kg, sekundy), czyniąc je bardziej interpretowalnym. Zmienna jest przydatna w operacjach matematycznych (zmienne niezależne dodają się bezpośrednio), podczas gdy odchylenie standardowe jest lepsze do opisu rozproszenia dla niezawodowego odbiorcy.

Kiedy używać zmienną lub odchylenie standardowe?

Używaj zmienną, gdy dane zawierają wszystkich członków grupy, którą analizujesz (np. wszystkich pracowników w jednej firmie). Używaj odchylenia standardowego, gdy dane to podzbiór większej grupy (np. sondażu 500 wyborców, aby oszacować opinie wszystkich wyborców). W większości badań i statystyk w rzeczywistości odchylenie standardowe jest odpowiednie.

Czy zmienna może być ujemna?

Nie. Zmienna jest zawsze zero lub dodatnia, ponieważ jest obliczana z wartości kwadratowych. Zmienna = 0 tylko wtedy, gdy wszystkie dane są identyczne (brak rozproszenia). Ujemna zmienna jest matematycznie niemożliwa i wskazuje na błąd obliczeniowy.

Jakie są "duże" lub "małe" odchylenie?

Wysokie i niskie są względne w stosunku do skali i kontekstu danych. Odchylenie 10 jest "niskie" dla wzrostów ludzi w cm, ale "wysokie" dla wzrostów w metrach. Współczynnik wariacji (SD / średnia × 100%) jest niezależny od skali i pozwala na porównywanie danych różnych zestawów. W kontroli jakości specyfikacje definiują akceptowalne zakresy odchylenia dla każdej miary.

Jak odchylenie standardowe odnosi się do rozkładu normalnego?

Rozkład normalny (Gausa) jest opisany przez dwa parametry: średnią (μ) i zmienną (σ²). Znany krzyż jest szerszy, gdy zmienna jest duża i węższy, gdy zmienna jest mała. Dla danych normalnych, reguła empiryczna obowiązuje: 68,3% w przedziale ±1σ, 95,4% w przedziale ±2σ i 99,7% w przedziale ±3σ. Wiele testów statystycznych (test t, ANOVA, regresja) założyło, że dane są rozkładem normalnym lub że średnie próbki są prawie normalne (za pomocą Teoremy Ograniczającej Średnią).

Jakie jest odchylenie połączone?

Odchylenie połączone to średnia wagowa odchylenia standardowych z dwóch lub więcej grup, używane w dwu-probka test t, gdy założono, że odchylenia są równe w grupach. Formuła to: s²pooled = [(n₁−1)s₁² + (n₂−1)s₂²] / (n₁ + n₂ − 2). Produkuje to jedną szacowaną wartość odchylenia, która uwzględnia informacje z obu próbek, zwiększając siłę statystyczną, gdy założenie o równych odchyleniach jest prawidłowe.