Keskimääräinen, mediaani ja tilalaskenta
Laske keskiarvo, mediaani, tila, alue ja muut tilastot mistä tahansa tietokannasta.
Keskeisen suuntauksen mittausten ymmärtäminen
TilastoissaKeskeisen suuntauksen mittauksetKolme tärkeintä ovat keskiarvo, mediaani ja tila - kukin kertoo jotain erilaista tiedoista, ja kukin on sopivin eri tilanteissa.
Harkitse tätä tietokantaa: testitulokset {55, 60, 70, 75, 75, 80, 95}.
| Toimenpiteet | Arvo | Miten lasketaan | Paras vaihtoehto |
|---|---|---|---|
| Keskimääräinen | 72,9 prosenttia | (55 + 60 + 70 + 75 + 75 + 80 + 95) / 7 | Symmetrinen jakauma |
| Mediani (keskiarvo) | 75 | Järjestettyjen tietojen keskiarvo | Epäsuora jakauma, poikkeavia arvoja |
| Toiminto (yleisin) | 75 | Useimmin toistettu arvo | Kategoriatiedot, huippujen löytäminen |
| Toiminta-alue | 40 | Maksimi-minimi = 95 - 55 | Leviämisen mittaaminen |
Mikään yksittäinen mitta ei ole yleisesti "paras". Tietoanalyytikko valitsee sopivan mittauksen jakauman muodon, poikkeavien arvojen läsnäolon ja kysytyn kysymyksen perusteella. Kaikkien kolmen - sekä niiden rajoitusten - ymmärtäminen on perustavaa tilastolliselle lukutaidolle.
Aritmeettinen keskiarvo: Miten se lasketaan?
Seuraavaaritmeettinen keskiarvoon kaikkien arvojen summa jaettuna arvojen lukumäärällä. Se on yleisimmin käytetty keskimääräisen suuntauksen mittari, ja sitä useimmat ihmiset tarkoittavat sanomalla "keskimääräinen".
Kaava: Keskimääräinen (x̄) = (Σxi) / n
Missä Σxi on kaikkien arvojen summa ja n on määrä.
Esimerkki:Tiedot = {3, 7, 8, 5, 12, 4, 9, 6}
- Summa: 3 + 7 + 8 + 5 + 12 + 4 + 9 + 6 = 54
- Lasku: 8 arvoa
- Keskimääräinen = 54 / 8 =6,75 prosenttia
Keskimääräinen on herkkäpoikkeukselliset-- äärimmäiset arvot vetävät keskiarvoa kohti itseään. Esimerkiksi jos yksi arvo edellä olevassa joukossa olisi 100 12 sijasta, keskiarvo hyppäisi (54 - 12 + 100) / 8 = 142 / 8 = 17,75, kaukana jäljellä olevien tietojen "tyypillisestä" arvosta.
Muut erikoiskäyttöön tarkoitetut laitteet:
- Geometrinen keskiarvo:n√(x1 x x2 x ... x xn) -- käytetään kasvuvauhtiin, tuottoihin, suhteisiin
- Armoninen keskiarvo:n / (1/x1 + 1/x2 + ... + 1/xn) -- käytetään nopeuksiin, nopeuksiin, yksikköhintoihin
- Painotettu keskiarvo:Σ(wixi) / Σwi -- käytetään, kun tietopisteillä on erilainen merkitys (esim. GPA)
Mediani: Keskimääräinen arvo
SeuraavakeskiarvoSe jakaa jakauman täsmälleen puoliksi: 50% arvoista on keskiarvon alapuolella ja 50% sen yläpuolella.
Jos arvot ovat parittomia:Mediana = (n+1) /2-arvo.
Jos arvoja on parillinen määrä:Mediani = n/2 ja (n/2 + 1) arvojen keskiarvo.
| Tietojoukko | n | Luokiteltu | Keskimääräinen |
|---|---|---|---|
| {4, 1, 9, 2, 6} | 5 (epätavallinen) | {1, 2, 4, 6, 9} | 4 (kolmas arvo) |
| {7, 3, 8, 5} | 4 (jopa) | {3, 5, 7, 8} | (5 + 7) / 2 = 6 |
| {10, 20, 30, 40} | 4 (jopa) | {10, 20, 30, 40} | (20 + 30) / 2 = 25 |
| {1, 1, 1, 1000} | 4 (jopa) | {1, 1, 1, 1000} | (1 + 1) / 2 = 1 |
Huomaa viimeinen esimerkki: {1, 1, 1, 1000}:n keskiarvo = 250,75, mutta mediaani = 1.Mediana on suositeltavampi kuin keskiarvo kallistuneissa jakaumissa.Keskimääräiset tulot, asuntojen hinnat ja sairaalahoidon kesto ilmoitetaan medianeina, koska muutamat erittäin korkeat arvot tekisivät keskiarvon tyypillisen kokemuksen edustavaksi.
Tyyli: Yleisin arvo
Seuraavatoimintatapaon arvo, joka esiintyy useimmin tietokokonaisuudessa.
- Ei tilaa:kaikki arvot ilmestyvät yhtä usein (esim. {1, 2, 3, 4, 5})
- Yksimuotoinen (unimodaali):yksi arvo näkyy useammin kuin kaikki muut (esim. {1, 2, 2, 3, 4} -> mode = 2)
- Kaksi tilaa (bimodal):kaksi arvoa yhdistettynä useimpiin (esim. {1, 1, 2, 3, 3} -> tilat = 1 ja 3)
- Monimuotoinen (multimodaalinen):kolme tai useampia yhteisiä arvoja useimpien
Tilanne on erityisen hyödyllinen:
- Kategoriatiedot:"Mikä on suosituin kengänkoko?" (esimerkiksi 10 kokoa amerikkalaisille miehille)
- Erilliset tiedot:"Kuinka monta lasta perheillä on tavallisesti?" (usein kaksi)
- Jakautumisen muoto:Bimodaalinen jakauma (kaksi huippua) viittaa kahteen erilliseen alaryhmään tiedoissasi - kriittisesti tärkeä signaali tutkimusperusteisessa analyysissä
| Tietojoukko | Käyttötapa | Tyyppi |
|---|---|---|
| {1, 2, 3, 4, 5} | Ei ole | Ei tilaa |
| {2, 4, 4, 6, 8} | 4 | Unimodaali |
| {1, 1, 3, 5, 5} | 1 ja 5 | Bimodal |
| - Ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei, ei. | b, c, d | Trimodal |
Leviämisalue ja muut leviämisen mitat
Kun keskiarvo, mediaani ja tila kuvaavat jakelun keskusta,leviämisen mittauksetNe ovat yhtä tärkeitä tietokokonaisuuden ymmärtämisessä.
| Toimenpiteet | Suunnitelma | Esimerkki {2, 4, 4, 6, 8} | Herkkyys poikkeuksellisiin arvoihin |
|---|---|---|---|
| Toiminta-alue | Maksimi - minimi | 8 - 2 = 6 | Erittäin herkkä |
| Kvartilinvälinen vaihteluväli (IQR) | Q3 - Q1 | 7 - 3 = 4 | Kestävä |
| Variaatio (σ2) | Σ(xi - x̄) 2 / n | 3 . 44 | Herkkä |
| Normaalipoikkeama (σ) | √Varianssi | 1.855 | Herkkä |
| Keskimääräinen absoluuttinen poikkeama | - Olen pahoillani . | 1 .6 Työpaikat | Kohtalainen |
{2, 4, 4, 6, 8}: keskiarvo = 4,8, joten poikkeamat ovat: (2-4.8) 2=7.84, (4-4.8) 2=0.64, (4-4.8) 2=0.64, (6-4.8) 2=1.44, (8-4.8) 2=10.24. Varianssi = (7.84+0.64+0.64+1.44+10.24)/5 = 20.8/5 = 4.16. SD = √4.16 ~ 2.04.
Standardipoikkeama on tilaston työkalu - se esiintyy hypoteesin testauksessa, luottamusvälillä, normaalijakauman laskelmissa ja prosessivalvonnassa.
Kun käytetään keskiarvoa tai mediaania tai muotoa
Väärän keskussuuntausmittarin valinta voi olla harhaanjohtavaa.
| Tilanne | Suositeltu toimenpide | Miksi ? |
|---|---|---|
| Symmetrinen, ei poikkeavia arvoja | Keskimääräinen | Eniten matemaattisesti käsiteltävissä; käyttää kaikkia tietoja |
| Epäsuora jakautuminen | Keskimääräinen | Ei vedetty äärimmäisiin arvoihin |
| Tulot / asuntojen hinnat | Keskimääräinen | Muutamat miljonäärit ohjaavat keskiarvoa ylöspäin . |
| Kategoriatiedot | Käyttötapa | Keskimääräinen/keskimääräinen ei koske luokkia |
| Yleisimmät arvot | Käyttötapa | Suora vastaus "suosituimpiin" |
| Luokkien keskiarvot / GPA | Keskimääräinen (painotettu) | Kaikki pisteet vaikuttavat suhteellisesti |
| Varastojen tuotto / kasvuvauhti | Geometrinen keskiarvo | Liitännäislaskennat |
| Selviytymisajat, sairaalahoito | Keskimääräinen | Oikealle kallistunut pitkäaikaisten tapausten vuoksi |
Hyvin tunnettu havainto: "Keskimääräisellä amerikkalaisella on yksi rinta ja yksi kives" valaisee, miksi keskiarvo voi olla harhaanjohtava bimodaalisissa jakaumissa. Tässä tapauksessa tila (erillään sukupuolen mukaan) ja mediaani ovat informatiivisempia kuvaajia kuin kokonaiskeskimääräinen keskiarvo.
Tosielämän esimerkkejä: keskiarvo, mediaani ja toimintatapa käytännössä
Tieto siitä, miten näitä käsitteitä sovelletaan todellisiin tilanteisiin, rakentaa tilastollista intuitiota:
- Yhdysvaltojen kotitalouksien tulot (2023):Keskimääräinen ~ $ 105,000; mediaani ~ $ 74,580. Ero heijastaa tulon epätasa-arvoa - pieni määrä erittäin korkeita ansaitsijoita nostaa keskimääräistä dramaattisesti ylös. Poliittiset keskustelut käyttävät mediaanituloa, koska se edustaa paremmin "tyypillistä" kotitaloutta.
- Kilpailun päättymisajat:Kymmenen kilometrin juoksussa keskimääräinen viimeistelyaika voi olla korkeampi kuin mediaani, koska hitaat kävelijät muodostavat pitkän oikean hännän.
- Luokkakokeen tulokset:Jos yksi oppilas saa 5/100 ja kaksikymmentä muuta 75 - 95/100, keskiarvoa lasketaan poikkeavaan arvoon.
- Kengän koko:Mode on kaikkein käytännöllisin tilasto - vähittäiskauppiaat varastoivat eniten modal (yleisin) koko.
- Laadunvalvonta:Valmistuksessa tuotteen mittausten standardipoikkeama määrittää prosessin suorituskykyä. Alhainen SD tarkoittaa johdonmukaista tuotantoa; korkea SD tarkoittaa korkeita virheitä.
Usein kysyttyjä kysymyksiä
Kumpi on parempi: keskiarvo vai keskiarvo?
Kumpikaan ei ole yleisesti parempi - ne palvelevat eri tarkoituksia. Keskimääräinen on vahvempi poikkeavia lukuja vastaan ja edustaa paremmin "tyypillistä" kallistuneissa jakeluissa (tulot, asuntojen hinnat, eloonjäämisajat). Keskimääräinen käyttää kaikkia tietopisteitä, on matemaattisesti optimaalinen symmetrisille jakeluille, ja se on välttämätöntä myöhemmille tilastollisille laskelmille, kuten vakiohaito ja hypoteesien testaus. Käytä molempia yhdessä täydellisen kuvan saamiseksi.
Voiko tietokannassa olla mitään tilaa?
Kyllä. Jos kaikki arvot esiintyvät yhtä usein, ei ole tilaa (esimerkiksi {1, 2, 3, 4, 5} - jokainen arvo esiintyy täsmälleen kerran). Tietosarja voi myös olla multimodalinen - bimodalinen (kaksi tilaa: {1, 1, 3, 3, 5}) tai trimodalinen. Käytännössä bimodalinen jakauma usein merkitsee kaksi erillistä alaryhmää tiedoissasi, mikä on tärkeä tutkimusmalli.
Miten löydän medianan parillisesta arvosta?
Järjestä arvot nousevassa järjestyksessä ja tee keskiarvo kahdesta keskiarvosta. {2, 4, 6, 8}: kaksi keskiarvoa ovat 4 ja 6, joten mediaani = (4+6) / 2 = 5. {1, 3, 5, 7, 9, 11}: keskiarvot ovat 5 ja 7, joten mediaani = (5+7) / 2 = 6. Medianin ei tarvitse olla arvo tietokannassa.
Mitä se tarkoittaa, jos keskiarvo = mediaani = tila?
Kun kaikki kolme mittaa ovat samanarvoisia, jakauma on täydellisesti symmetrinen ja unimodaalinen - klassinen kello-käyrä (normaalijakauma). Tämä tarkoittaa sitä, ettei ole poikkeavia lukuja, jotka vääristävät tietoja, ja kaikki kolme mittaa ovat yhtä päteviä keskuksen kuvaajia. Käytännössä reaalimaailman tiedot saavuttavat harvoin täydellistä symmetriaa, mutta keskiarvon ja mediaanin läheinen yhdenmukaistaminen viittaa noin symmetriaan.
Mikä on keskiarvon, mediaanin ja epätasapainon välinen suhde?
Oikeanpuoleisessa (positiivisessa) jakaumassa: keskiarvo > keskiarvo > tila. Vasenpuoleisessa (negatiivisessa) jakaumassa: keskiarvo < keskiarvo < tila. Symmetrisessä jakaumassa: keskiarvo = keskiarvo ~ tila. Tämä suhde tarjoaa nopean visuaalisen tarkastuksen: vertaile keskiarvoa ja keskiarvoa kallistuksen suunnan määrittämiseksi katsomatta kaaviota.
Miten lasketaan ryhmiteltyjen tietojen keskiarvo?
Esimerkki: jos 10 oppilasta sai pisteet 50 - 60 (keskiarvo 55), 15 sai pisteet 60 - 70 (keskiarvo 65) ja 5 sai pisteet 70 - 80 (keskiarvo 75), keskiarvo = (10x55 + 15x65 + 5x75) / 30 = (550+975+375) / 30 = 1900/30 ~ 63,3.
Mikä on väestön keskiarvon ja otoksen keskiarvon ero?
Väestön keskiarvo (μ, "mu") lasketaan jokaisesta koko väestön jäsenestä. Näytteen keskiarvo (x̄, "x-bar") lasketaan kyseisen väestön otetusta osajoukosta (näytteestä).
Miten poikkeava arvo vaikuttaa keskiarvoon ja mediaaniin?
Poikkeukselliset arvot vaikuttavat voimakkaasti keskiarvoon, mutta niillä on vähäinen vaikutus mediaaniin. Esimerkki: tiedoissa {1, 2, 3, 4, 5} on keskiarvo = 3 ja mediaani = 3. Poikkeuksellisen arvon {1, 2, 3, 4, 5, 100} lisääminen: keskiarvo nousee 19,2: een, mutta mediaani muuttuu vain (3 + 4) / 2 = 3,5. Tämä vakaus tekee medianasta suosituimman mittauksen aina, kun poikkeukselliset arvot ovat läsnä tai niitä epäillään.
Mikä on leikattu keskiarvo?
Korjattu keskiarvo (tai katkaistu keskiarvo) poistaa kiinteän prosenttiosuuden äärimmäisistä arvoista ennen keskiarvon laskemista. Esimerkiksi 10%: n korjattu keskiarvo {1, 2, 3, 4, 5, 6, 7, 8, 9, 100}: poistaa ala- ja ylä-10% (noin 1 arvo kukin), jättäen {2, 3, 4, 5, 6, 7, 8, 9}; keskiarvo = 5,5. Korjattuja keskiarvoja käytetään pisteytysjärjestelmissä (olympialaisten arviointi, kiekkoilu) ja taloustilastossa, jotta voidaan vähentää poikkeavaa vaikutusta säilyttäen enemmän tietoja kuin mediaani.
Miten lasken painotetun keskiarvon?
Painotettu keskiarvo = Σ(paino x-arvo) / Σ(painot). Esimerkki - GPA-laskelma: A-luokka (4.0) 3 opintopisteen kurssissa, B-luokka (3.0) 4 opintopisteen kurssissa, C-luokka (2.0) 2 opintopisteen kurssissa: Painotettu GPA = (4.0x3 + 3.0x4 + 2.0x2) / (3+4+2) = (12+12+4)/9 = 28/9 ~ 3.11.
Kuvailevan tilaston yhteenveto: Mitä tarvitset aina
Täydellinen kuvaileva tilastotietojen yhteenveto mistä tahansa tietokannasta pitäisi sisältää kaikki seuraavat tiedot.
| Tilastot | Symboli | Esimerkki {2,4,4,6,8,10} | Tulkinta |
|---|---|---|---|
| Lasketaan | n | 6 | Kuinka monta havaintoa |
| Keskimääräinen | x̄ | 5,67-prosenttia | Keskimääräinen arvo |
| Keskimääräinen | M | 5,0 prosenttiyksikköä | Keskimääräinen arvo (50-prosentiili) |
| Käyttötapa | Mo | 4 | Yleisimmät arvot |
| Toiminta-alue | R | 8 | Arvopaperimarginaali |
| Tyypillinen poikkeama | σ tai s | 2,58 miljoonaa euroa | Tyypillinen poikkeama keskiarvosta |
| Poikkeama | σ² | 6,67 prosenttia | SD neliö |
| Vähimmäis / enimmäis | — | 2 / 10 | Äärimmäiset arvot |
Akateemisessa ja tieteellisessä työssä ilmoitetaan aina sekä keskiarvon että leviämisen mittaus. Vain keskiarvon (tai medianin) ilmoittaminen ilman vakiohajontaa (tai IQR) antaa epätäydellisen kuvan tiedoistasi. Luokka, jossa opiskelijat saivat keskiarvon 75% SD = 5%, on hyvin erilainen kuin luokka, jossa keskiarvo on 75% mutta SD = 25% - ensimmäinen on tiukka B-luokkien ryhmä, toinen on hurjan sekoitettu ryhmä epäonnistumisesta lähes täydelliseen.
Persentiili, kvartiili ja laatikko
Keskimääräisen, keskiarvon ja modun lisäksi täydellinen tilastollinen yhteenveto sisältää usein prosenttiilianalyysin. Prosenttiili kertoo, mikä osa tiedoista laskee tietyn arvon alapuolelle, mikä on välttämätöntä suhteellisen aseman ymmärtämiseksi, poikkeavien arvojen tunnistamiseksi ja väestöryhmien vertailuun.
- Mediani = 50-prosentiili:Puolet tiedoista on tämän arvon alapuolella
- Q1 (ensimmäinen kvartilli) = 25-prosentiili:25% tiedoista on alhaisempi kuin Q1
- Q3 (kolmas kvartiili) = 75 prosenttiili:75% tiedoista on alle kolmannen neljänneksen
- IQR = Q3 - Q1:Sisältää keskimmäisen 50% tiedoista
- Poikkeuksellinen sääntö:Q1 - 1,5xIQR:n alapuolella tai Q3 + 1,5xIQR:n yläpuolella olevia pisteitä pidetään poikkeavia arvoja
| Percentiili | Tarkoitus | Esimerkki (kokeen tulokset, n=100) |
|---|---|---|
| Kymmenes | 10% alle pisteet | Pistettä 52 -> parempi kuin 10% luokasta |
| 25 (Q1) | 25% pisteitä alle | Pistemäärä 64 -> alaosaston raja |
| 50 (keskimääräinen) | 50% pisteitä alle | Pistettä 75 -> jakelun puoliväli |
| 75 (Q3) | 75 prosenttia alle | Pistemäärä 87 -> ylimmän kvartilin raja |
| Yhdeksänkymmentä | 90% pisteitä alle | Pistettä 93 -> luokan 10% parhaat |
| Yhdeksänkymmentäseitsemäs | 99% pisteitä alle | Pistettä 99 -> ylimmässä prosentissa |
Laatikko kaavio (laatikko ja viikset kaavio) visualisoi tämän tiedon: laatikko ulottuu Q1 Q3 (IQR), linja merkitsee keskiarvoa, ja "viikset" ulottuvat pienin / suurin ei-poikkeuksellinen arvot. Yksittäiset poikkeukselliset pisteet kaavoitetaan pisteinä. Laatikko kaavioita ovat erinomaisia verrata jakeluja useissa ryhmissä vierekkäin, paljastaa erot keskellä, leviäminen, ja skewness että yksinkertainen keskimääräinen vertailun menisi ohi. Esimerkiksi kolmen koulun testitulosten vertailu kolmen vierekkäisen laatikon avulla osoittaa välittömästi, millä koululla on korkeampi keskiarvoinen suorituskyky, joka on enemmän levinnyt (ilmaiseva epäjohdonmukainen opetus) ja onko koulussa ryhmä poikkeuksellisia opiskelijoita, jotka tarvitsevat tukea. Tämä tilastotietojen visuaalinen tiheys kompakti näytössä tekee laatikon yhdeksi tehokkaimmista ja alikäytetyimmistä työkaluista tiedonsiirron alalla.
Askel askeleelta: Keskimääräisen, mediaanin ja muodon laskeminen käsin
Käydään läpi täydellinen esimerkki realistisen tietokannan avulla: pienyrityksen kuukausittainen myynti (tuhannissa) 12 kuukauden aikana: {42, 38, 55, 61, 48, 52, 75, 48, 63, 44, 38, 57}.
Vaihe 1: Järjestä tiedot
Järjestetty nousevasti: {38, 38, 42, 44, 48, 48, 52, 55, 57, 61, 63, 75}
Toinen askel: Laske keskiarvo
Kokonaisuus = 38+38+42+44+48+48+52+55+57+61+63+75 = 621
n = 12, keskiarvo = 621 / 12 =51,75 (tuhatta)
Vaihe 3: Etsi mediaani
n = 12 (parillinen): keskimääräinen kuudes ja seitsemäs arvo = (48 + 52) / 2 =50
Vaihe 4: Määritä toimintatapa
Sekä 38 että 48 näkyvät kahdesti.{38, 48}(kaksimuotoinen)
Vaihe 5: Laskenta-alue ja vakiohajonta
Siirtymä = 75 - 38 =37
Poikkeukset keskiarvosta (51,75): (38-51,75) 2 = 189,06; (38-51,75) 2 = 189,06; (42-51,75) 2 = 95,06; (44-51,75) 2 = 60,06; (48-51,75) 2 = 14,06; (52-51,75) 2 = 0,06; (55-51,75) 2 = 10,56; (57-51,75) 2 = 27,56; (61-51,75) 2 = 85,56; (63-51,75) 2 = 126,56; (75-51,75) 2 = 540,56
Poikkeamien neliön summa = 1,352.25; Varianssi = 1,352.25/12 = 112.69; SD = √112.69 ~10,62 prosenttia
Tulkinta
Tällä liiketoiminnalla on keskimääräinen kuukausittainen myynti 51 750 dollaria ja mediaani 50 000 dollaria. ~ 10 620 dollarin standardipoikkeama tarkoittaa, että useimmat kuukaudet ovat +/- 10 620 dollaria keskiarvoa. Bimodaalinen jakelu (kaksi tilaa) saattaa viitata kausiluonteisiin malleihin - tarkista, onko kaksi 38:tä ja kaksi 48:tä tiettyinä kuukausina. Ylin poikkeava arvo (75 000 dollaria kuukaudessa) vetää keskiarvoa hieman keskiarvon yläpuolelle, mikä osoittaa lievää positiivista kallistusta - todennäköisesti yksi poikkeuksellinen myyntikuukausi (lomakausi, suuri sopimus jne.).