Kalkulator średniej, mediany i trybu
Oblicz średnią, medianę, tryb, zakres i inne statystyki dla dowolnego zestawu danych.
Zrozumienie miary centralnej tendencji
W statystyce,pomiary tendencji centralnejSą to pojedyncze wartości, które opisują środkową lub typową wartość zestawu danych. Trzy najważniejsze to średnia, mediana i tryb - każda z nich mówi coś innego o danych, a każda jest najbardziej odpowiednia w różnych sytuacjach.
Rozważmy ten zestaw danych: wyniki testów {55, 60, 70, 75, 75, 80, 95}.
| Środek | Wartość | Sposób obliczania | Najlepsze dla |
|---|---|---|---|
| Średnia (średnia) | 72,9 | (55+60+70+75+75+80+95) / 7 | Rozkłady symetryczne |
| Mediana (średnia wartość) | 75 | Średnia wartość danych sortowanych | Zniekształcone rozkłady, wartości odbiegające |
| Tryb (najczęściej występujący) | 75 | Najczęściej powtarzana wartość | Dane kategoryczne, znalezienie szczytów |
| Zakres | 40 | Max - Min = 95 - 55 | Pomiar rozkładu |
Żaden pojedynczy wskaźnik nie jest powszechnie "najlepszy". Analityk danych wybiera odpowiedni wskaźnik na podstawie kształtu rozkładu, obecności wartości odbiegających i zadawanego pytania. Zrozumienie wszystkich trzech - plus ich ograniczeń - jest podstawą umiejętności statystycznych.
Średnia (średnia arytmetyczna): jak ją obliczyć
Działanieśrednia arytmetycznaJest najczęściej używaną miarą centralnej tendencji i jest tym, co większość ludzi ma na myśli, mówiąc "średnia".
Formuła: średnia (x̄) = (Σxi) / n
Gdzie Σxi jest sumą wszystkich wartości, a n jest liczbą.
Przykład:Dane = {3, 7, 8, 5, 12, 4, 9, 6}
- Suma: 3 + 7 + 8 + 5 + 12 + 4 + 9 + 6 = 54
- Liczba: 8 wartości
- Średnia = 54 / 8 =6,75
Średnia jest wrażliwa naodbiegające wartościNa przykład, jeśli jedna wartość w powyższym zestawie wynosi 100 zamiast 12, średnia przeskoczy do (54 - 12 + 100) / 8 = 142 / 8 = 17,75, daleko od "typowej" wartości pozostałych danych.
Pozostałe rodzaje środków specjalistycznego zastosowania:
- Średnia geometryczna:n√(x1 x x2 x ... x xn) -- używane do wskaźników wzrostu, zwrotu, wskaźników
- Średnia harmoniczna:n / (1/x1 + 1/x2 + ... + 1/xn) -- używane dla prędkości, stawek, cen na jednostkę
- Średnia ważona:Σ(wixi) / Σwi -- używane, gdy punkty danych mają różne znaczenie (np. GPA)
Mediana: Średnia wartość
Działanieśredniajest wartością środkową zestawu danych sortowanego w kolejności wzrostowej, która dzieli rozkład dokładnie na pół: 50% wartości znajduje się poniżej mediany i 50% powyżej.
Dla nieparzystej liczby wartości:Mediana = wartość (n+1) /2.
Dla równej liczby wartości:Mediana = średnia wartości n/2 i (n/2 + 1) th.
| Zestaw danych | n | Sortyzowane | Średnia |
|---|---|---|---|
| {4, 1, 9, 2, 6} | 5 (niespotykane) | {1, 2, 4, 6, 9} | 4 (3 wartość) |
| {7, 3, 8, 5} | 4 (parzysty) | {3, 5, 7, 8} | (5+7)/2 = 6 |
| {10, 20, 30, 40} | 4 (parzysty) | {10, 20, 30, 40} | (20 + 30) / 2 = 25 |
| {1, 1, 1, 1000} | 4 (parzysty) | {1, 1, 1, 1000} | (1+1)/2 = 1 |
Zwróć uwagę na ostatni przykład: średnia {1, 1, 1, 1000} = 250,75, ale mediana = 1.mediana jest preferowana w stosunku do średniej w przypadku rozkładów zniekształconychśredni dochód, ceny mieszkań i czas pobytu w szpitalu są zgłaszane jako mediany, ponieważ kilka wyjątkowo wysokich wartości sprawiłoby, że średnia nie byłaby reprezentatywna dla typowego doświadczenia.
Tryb: Najczęstsza wartość
Działanietrybjest wartością, która pojawia się najczęściej w zbiorze danych.
- Brak trybu:wszystkie wartości pojawiają się jednakowo często (np. {1, 2, 3, 4, 5})
- Jeden tryb (unimodalny):jedna wartość pojawia się częściej niż wszystkie inne (np. {1, 2, 2, 3, 4} -> tryb = 2)
- Dwa tryby (bimodały):dwie wartości powiązane dla najczęstszych (np. {1, 1, 2, 3, 3} -> tryby = 1 i 3)
- Wielokrotne tryby (multimodalne):trzy lub więcej wartości powiązanych dla najczęstszych
Tryb ten jest szczególnie przydatny dla:
- Dane kategoryczne:"Jaki jest najpopularniejszy rozmiar butów?" (np. rozmiar 10 dla mężczyzn w USA)
- Dane dyskretne:"Ile dzieci ma zazwyczaj rodzina?" (często 2, w trybie)
- Kształt rozkładu:Dystrybucja bimodalna (dwa szczyty) sugeruje dwie odrębne podpopulacje w danych - krytycznie ważny sygnał w analizie eksploracyjnej
| Zestaw danych | Tryb | Rodzaj |
|---|---|---|
| {1, 2, 3, 4, 5} | Brak | Brak trybu |
| {2, 4, 4, 6, 8} | 4 | Unimodal |
| {1, 1, 3, 5, 5} | 1 i 5 | Bimodal |
| {a, b, b, c, c, d, d} | b, c, d | Trimodal |
Zasięg i inne miary rozprzestrzeniania się
Podczas gdy średnia, mediana i tryb opisują centrum rozkładu,pomiary rozprzestrzenianiaSą równie ważne dla zrozumienia zestawu danych.
| Środek | Formuła | Przykład {2, 4, 4, 6, 8} | Wrażliwość na wartości zewnętrzne |
|---|---|---|---|
| Zakres | Maksymalny - Min | 8 - 2 = 6 | Bardzo wrażliwe |
| Zakres międzykwartylny (IQR) | Q3 - Q1 | 7 minus 3 równa się 4. | Odporne |
| Odchylenie (σ2) | Σ ((xi - x̄) 2 / n | 3.44 | Czułe |
| Odchylenie standardowe (σ) | √Różnica | 1.855 | Czułe |
| Średnie odchylenie bezwzględne | Szczęśliwa , szczęśliwa | 1.6 Wskaźniki | Średnie |
Dla {2, 4, 4, 6, 8}: średnia = 4,8, więc odchylenia są: (2-4.8) 2=7.84, (4-4.8) 2=0.64, (4-4.8) 2=0.64, (6-4.8) 2=1.44, (8-4.8) 2=10.24. Wariancja = (7.84+0.64+0.64+1.44+10.24)/5 = 20.8/5 = 4.16. SD = √4.16 ~ 2.04.
Odchylenie standardowe jest końem statystycznym - pojawia się w testach hipotez, przedziałach ufności, obliczeniach rozkładu normalnego i kontroli procesu.
Kiedy należy użyć trybu średnia vs mediana vs
Wybór niewłaściwego środka centralnej tendencji może być mylący.
| Sytuacja | Zalecane działanie | Dlaczego ? |
|---|---|---|
| Symetryczne, bez odbiegających wartości | Złośliwy | Najbardziej rozliczalny matematycznie; wykorzystuje wszystkie dane |
| Zniekształcona dystrybucja | Średnia | Nie wciągane przez wartości skrajne |
| Przychody / ceny mieszkań | Średnia | Kilku milionerów przekręca średnią w górę |
| Dane kategoryczne | Tryb | Średnia/mediana nie dotyczy kategorii |
| Najczęstsza wartość | Tryb | Bezpośrednia odpowiedź na "najbardziej popularne" |
| Średnie oceny / GPA | Średnia (ważona) | Wszystkie wyniki są proporcjonalne |
| Zwrot z inwestycji / tempo wzrostu | Średnia geometryczna | Rachunki składkowe |
| Czas przeżycia, pobyty w szpitalu | Średnia | Przesunięte w prawo przez długotrwałe przypadki |
Dobrze znana obserwacja: "Przeciętny Amerykanin ma jedną pierś i jeden jąder" ilustruje, dlaczego średnia może wprowadzać w błąd w przypadku dystrybucji bimodalnych.
Przykłady rzeczywiste: średnia, mediana i tryb w praktyce
Zrozumienie, w jaki sposób pojęcia te mają zastosowanie w rzeczywistych sytuacjach, buduje intuicję statystyczną:
- Przychód gospodarstw domowych w USA (2023):Średnia ~ $105,000; mediana ~ $74,580. Różnica odzwierciedla nierówność dochodów - niewielka liczba osób o bardzo wysokich zarobkach drastycznie podnosi średnią.
- Czasy zakończenia biegu:W wyścigu na 10 km średni czas ukończenia może być wyższy niż mediana, ponieważ wolni chodzący tworzą długi prawy ogon.
- Wyniki testów klasy:Jeśli jeden uczeń uzyska 5/100, a dwadzieścia innych uzyska 75 - 95/100, średnia jest ciągnięta w dół przez wartość wyjściową.
- Rozmiary butów:Tryb to najbardziej użyteczna statystyka - sprzedawcy detaliczni mają najwięcej zapasów w rozmiarze modalnym (najczęstszym).
- Kontrola jakości:W produkcji odchylenie standardowe pomiarów produktu określa zdolność procesu. Niskie SD oznacza spójną produkcję; wysokie SD oznacza wysokie wskaźniki defektów.
Często zadawane pytania
Co jest lepsze: średnia czy mediana?
Średnia wykorzystuje wszystkie punkty danych, jest optymalna matematycznie dla symetrycznych rozkładów i jest niezbędna do dalszych obliczeń statystycznych, takich jak odchylenie standardowe i testowanie hipotez.
Czy zestaw danych może nie mieć trybu?
Tak. Jeśli wszystkie wartości występują jednakowo często, nie ma trybu (np. {1, 2, 3, 4, 5} - każda wartość pojawia się dokładnie raz). Zbiór danych może być również multimodalny - bimodalny (dwa tryby: {1, 1, 3, 3, 5}) lub trymodalny. W praktyce dystrybucja bimodalna często sygnalizuje dwie odrębne podgrupy w danych, co jest ważnym wzorem do zbadania.
Jak znaleźć medianę parzystej liczby wartości?
Dla {2, 4, 6, 8}: dwie średnie wartości to 4 i 6, więc mediana = (4+6) /2 = 5. Dla {1, 3, 5, 7, 9, 11}: średnie wartości to 5 i 7, więc mediana = (5+7) /2 = 6. Mediana nie musi być wartością w zestawie danych.
Co to znaczy, że średnia = mediana = tryb?
Kiedy wszystkie trzy miary są równe, rozkład jest doskonale symetryczny i unimodalny - klasyczna krzywa dzwonka (rozkład normalny). Oznacza to, że nie ma odbiegających wartości wychylających dane, a wszystkie trzy miary są równie ważnymi opisami centrum. W praktyce dane z świata rzeczywistego rzadko osiągają doskonałą symetrię, ale bliskie wyrównanie średniej i mediany sugeruje przybliżoną symetrię.
Jaki jest związek pomiędzy średnią, medianą i zniekształceniem?
W rozkładzie pochylonym w prawo (pozytywne przesunięcie): średnia > średnia > tryb. W rozkładzie pochylonym w lewo (negatywne przesunięcie): średnia < średnia < tryb. W rozkładzie symetrycznym: średnia = średnia ~ tryb. Ta relacja zapewnia szybką kontrolę wizualną: porównaj średnią i medianę, aby określić kierunek przesunięcia bez patrzenia na wykres.
Jak obliczyć średnią dla zgrupowanych danych?
Przykład: jeśli 10 uczniów uzyskało wynik 50 - 60 (średni punkt 55), 15 uzyskało wynik 60 - 70 (średni punkt 65) i 5 uzyskało wynik 70 - 80 (średni punkt 75), średnia = (10x55 + 15x65 + 5x75) / 30 = (550+975+375) / 30 = 1900/30 ~ 63,3.
Jaka jest różnica między średnią populacji a średnią próbki?
Średnia populacji (μ, "mu") jest obliczana z każdego członka całej populacji. Średnia próbki (x̄, "x-bar") jest obliczana z podzbioru (przykładu) pobranego z tej populacji. Formuła jest identyczna, ale symbole różnią się. W praktyce prawie zawsze pracujemy ze środkami próbkowymi i używamy ich do oszacowania średniej populacji - co wprowadza błąd pobierania próbek i wymaga technik wnioskowania statystycznego.
Jak wartość odbiegająca wpływa na średnią i medianę?
Odstępne wartości silnie wpływają na średnią, ale mają minimalny wpływ na medianę. Przykład: dane {1, 2, 3, 4, 5} mają średnią = 3 i medianę = 3. Dodanie odstępnego wartości {1, 2, 3, 4, 5, 100}: średnia wzrasta do 19,2, ale mediana zmienia się tylko do (3 + 4) / 2 = 3,5. Ta solidność sprawia, że mediana jest preferowaną miarą, gdy występują lub podejrzewane są odstępne wartości.
Jaka jest średnia skrócona?
Średnia skrócona (lub skrócona średnia) usuwa ustalony procent wartości skrajnych przed obliczeniem średniej. Na przykład 10% średnia skrócona na {1, 2, 3, 4, 5, 6, 7, 8, 9, 100}: usuwa dolne i górne 10% (w przybliżeniu 1 wartość każdy), pozostawiając {2, 3, 4, 5, 6, 7, 8, 9}; średnia = 5,5. Średnie skrócone są używane w systemach oceny (sądowanie olimpijskie, łyżwiarstwo artystyczne) i statystyki ekonomicznej w celu zmniejszenia wpływu zewnętrznych, przy jednoczesnym zachowaniu większej liczby danych niż mediana.
Jak obliczyć średnią ważoną?
Przykład - obliczenie GPA: ocena A (4.0) w 3-kredytowym kursie, ocena B (3.0) w 4-kredytowym kursie, ocena C (2.0) w 2-kredytowym kursie: ocena GPA = (4.0x3 + 3.0x4 + 2.0x2) / (3+4+2) = (12+12+4)/9 = 28/9 ~ 3.11. Bez ważenia, prosta średnia byłaby (4+3+2)/3 = 3.0 - brakuje cięższego wpływu 4-kredytowego kursu.
Podsumowanie opisowych statystyk: To, czego zawsze potrzebujesz
Pełne opisowe streszczenie statystyki dla dowolnego zestawu danych powinno zawierać wszystkie poniższe elementy.
| Statystyczne | Symbol | Przykład ({2,4,4,6,8,10}) | Interpretacja |
|---|---|---|---|
| Liczenie | n | 6 | Ile obserwacji |
| Złośliwy | x̄ | 5,67 | Średnia wartość |
| Średnia | M | 5,0 | Średnia wartość (pięćdziesiąty percentil) |
| Tryb | Mo | 4 | Najczęstsze wartości |
| Zakres | R | 8 | Rozpiętość od min do max |
| Odchylenie standardowe | σ lub s | 2,58 | Typowe odchylenie od średniej |
| Odchylenie | σ² | 6,67 | SD kwadrat |
| Min / Maks | — | 2 / 10 | Wartości skrajne |
W pracy akademickiej i naukowej zawsze należy podawać zarówno środek, jak i rozpiętość. Zgłaszanie tylko średniej (lub mediany) bez odchylenia standardowego (lub IQR) daje niekompletny obraz danych. Klasa, w której uczniowie uzyskali średnią 75% z SD = 5%, jest bardzo różna od klasy, w której średnia wynosi 75%, ale SD = 25%.
Percentile, kwartile i pola kwadratowe
Poza średnią, medianą i trybem, kompletne podsumowanie statystyczne często zawiera analizę percentila. Percentile mówią ci, jaka część danych spada poniżej danej wartości - niezbędna do zrozumienia względnej pozycji, identyfikacji wartości odbiegających i porównywania populacji.
- Mediana = 50-ty percentil:Połowa danych jest poniżej tej wartości
- Q1 (pierwszy kwartil) = 25-ty percentil:25% danych jest poniżej Q1
- Q3 (trzeci kwartil) = 75 percentil:75% danych jest poniżej Q3
- IQR (Interquartile Range) = Q3 - Q1:Zawiera środkowe 50% danych
- Zasada wyjątkowa:Punkty poniżej Q1 - 1,5xIQR lub powyżej Q3 + 1,5xIQR są uważane za wartości odbiegające
| Część procentowa | Znaczenie | Przykład (oceny egzaminu, n=100) |
|---|---|---|
| Dziesiąty | 10% poniżej | Wynik 52 -> wynik lepszy niż 10% klasy |
| 25 (Q1) | 25% zaliczyło poniżej | Wynik 64 -> granica najniższego kwartyla |
| 50 (mediana) | 50% poniżej | Wynik 75 -> środek rozkładu |
| 75 (Q3) | 75% poniżej | Wynik 87 -> granica najwyższego kwartyla |
| 90 . | 90% poniżej | Wynik 93 -> 10% najlepszych w klasie |
| 99-ty . | 99% poniżej | Wynik 99 -> 1% najlepszych |
Na wykresie pudełkowym (box-and-whisker plot) wizualizuje się te informacje: pudełko rozciąga się od Q1 do Q3 (IQR), linia oznacza medianę, a "whiskersy" rozciągają się na najmniejsze/największe wartości nieodstępne. Indywidualne punkty odstępne są nakreślone jako kropki. Na przykład, porównanie wyników testów w trzech szkołach przy użyciu trzech bocznych wykresów obok siebie natychmiast pokazuje, która szkoła ma wyższą średnią wydajność, która ma większe rozprzestrzenienie (wskazujące na niespójne nauczanie) i czy jakaś szkoła ma grupę uczniów o wyjątkowym poziomie, którzy potrzebują wsparcia.
Krok po kroku: obliczanie średniej, mediany i trybu ręcznie
Przeanalizujmy kompletny przykład z realistycznym zestawem danych: miesięczne liczby sprzedaży (w tysiącach) dla małej firmy w ciągu 12 miesięcy: {42, 38, 55, 61, 48, 52, 75, 48, 63, 44, 38, 57}.
Krok 1: Sortowanie danych
W porządku wznoszącym: {38, 38, 42, 44, 48, 48, 52, 55, 57, 61, 63, 75}
Krok 2: Oblicz średnią
Suma = 38+38+42+44+48+48+52+55+57+61+63+75 = 621
n = 12, średnia = 621 / 12 =51.75 (tysiąc)
Krok 3: Znajdź medianę
n = 12 (parzysty): średnia wartości szóstej i siódmej = (48 + 52) / 2 =50
Krok 4: Określ tryb
Zarówno 38 jak i 48 pojawiają się dwa razy.{38, 48}(biomodalne)
Krok 5: Zakres obliczeniowy i odchylenie standardowe
Zakres = 75 - 38 =37
Odchylenia od średniej (51.75): (38-51.75) 2 = 189.06; (38-51.75) 2 = 189.06; (42-51.75) 2 = 95.06; (44-51.75) 2 = 60.06; (48-51.75) 2 = 14.06; (48-51.75) 2 = 14.06; (52-51.75) 2 = 0.06; (55-51.75) 2 = 10.56; (57-51.75) 2 = 27.56; (61-51.75) 2 = 85.56; (63-51.75) 2 = 126.56; (75-51.75) 2 = 540.56
Suma odchyleń kwadratowych = 1,352.25; Wariancja = 1,352.25/12 = 112.69; SD = √112.69 ~10.62
Interpretacja
Ten biznes ma średnią miesięczną sprzedaż w wysokości 51 750 USD z medianą 50 000 USD. Odchylenie standardowe ~ 10 620 USD oznacza, że większość miesięcy mieści się w granicach +/- 10 620 USD od średniej. Dystrybucja bimodalna (dwa tryby) może sugerować sezonowe wzorce - sprawdź, czy dwa 38 i dwa 48 gromadzą się w określonych miesiącach. Najwyższy odstęp ($ 75 000 w jednym miesiącu) wyciąga średnią nieznacznie powyżej mediany, co wskazuje na łagodny dodatni przekręt - prawdopodobnie jeden wyjątkowy miesiąc sprzedaży (sezony wakacyjne, duży kontrakt itp.).