Skip to main content
🔬 Advanced

Kalkulator Varians - Populasi & Varians Sampel

Menghitung varians dan standar deviasi untuk satu set data. Mendukung populasi dan varians sampel. Gratis online statistik kalkulator untuk hasil instan.

Apa Itu Varians?

Varians mengukurpenyebarandari sebuah dataset -- seberapa jauh nilai-nilai dari rata-rata. Varians rendah berarti titik-titik data cluster dekat rata-rata; varians tinggi berarti mereka tersebar luas.

Varians dihitung sebagai rata-rata diferensi kuadrat dari rata-rata:

Di mana xi adalah setiap titik data, μ (atau x̄) adalah rata-rata, dan N adalah jumlah nilai.deviasi standaradalah akar kuadrat dari varians -- dalam satuan yang sama dengan data asli, membuatnya lebih mudah diinterpretasikan.

Mengapa kita mengkuadratkan perbedaan? Dua alasan: (1) mengkuadratkan menghilangkan nilai negatif sehingga penyimpangan di atas dan di bawah rata-rata tidak membatalkan, dan (2) mengkuadratkan memberikan bobot yang tidak proporsional untuk outlier, membuat varians sensitif terhadap nilai ekstrim. Properti ini adalah kekuatan (deteksi outlier) dan kelemahan (sensitivitas outlier). Untuk data dengan outlier ekstrim, pertimbangkan untuk menggunakandeviasi absolut median (MAD)sebagai alternatif yang lebih kuat.

Populasi vs. Varians Sampel

Perbedaan utama adalah penyebut -- N vs (N-1) -- yang dikenal sebagai koreksi Bessel:

JenisDenominatorGunakan KapanSimbol
Variasi PopulasiNAnda memiliki data pada seluruh populasiσ²
Sampel VariansN-1Anda memiliki sampel dari populasi yang lebih besar

Dalam prakteknya, sebagian besar data dunia nyata adalah sampel.perkiraan yang tidak biasPenggunaan N (varians populasi) pada sampel secara sistematis meremehkan varians sebenarnya.

Contoh: menguji obat baru pada 50 pasien berarti menggunakan varians sampel (s2). menganalisis semua siswa di kelas berarti menggunakan varians populasi (σ2).

Mengapa koreksi Bessel bekerja?Ketika Anda menghitung rata-rata sampel, Anda menggunakan satu "derajat kebebasan" - rata-rata dihitung dari data itu sendiri, sehingga penyimpangan dari rata-rata tidak sepenuhnya independen. Membagi dengan (N-1) bukan N mengkompensasi kehilangan satu derajat kebebasan ini, menghasilkan estimator yang tidak bias dari varians populasi. Ketika N tumbuh besar, perbedaan antara N dan N-1 menjadi dapat diabaikan.

Perhitungan Varians Langkah-demi-Langkah

Mengingat dataset: 4, 7, 13, 2, 8

  1. Hitung rata-rata:(4+7+13+2+8) ÷ 5 = 34/5 =6.8
  2. Temukan penyimpangan dari rata-rata:(4-6.8) =-2.8; (7-6.8) =0.2; (13-6.8) =6.2; (2-6.8) =-4.8; (8-6.8) =1.2
  3. Kuadratkan penyimpangan:7.84; 0.04; 38.44; 23.04; 1.44
  4. Jumlah kuadrat:7.84+0.04+38.44+23.04+1.44 =70,8
  5. Varians populasi:70,8 ÷ 5 =14,16 tahun
  6. Varians sampel:70,8 ÷ 4 =17,7
  7. Penyimpangan standar:√14.16 =3.76(populasi) atau √17.7 =4.21(sampel)

Rumus Pintasan untuk Varians

Ada rumus "komputasi" yang sama yang menghindari perhitungan deviasi secara eksplisit, berguna ketika menghitung dengan tangan atau dalam spreadsheet:

σ2 = (Σxi2) / N - (Σxi/N) 2 = (Σxi2 - (Σxi) 2 / N) / N

Untuk varians sampel:s2 = (Σxi2 - (Σxi)2/N) / (N-1)

Menggunakan data contoh kami (4, 7, 13, 2, 8):

  1. Σxi = 34, jadi (Σxi) 2 = 1.156
  2. Σxi2 = 16 + 49 + 169 + 4 + 64 = 302
  3. Varians populasi = (302 - 1156/5) / 5 = (302 - 231.2) / 5 = 70,8 / 5 =14,16 tahun
  4. Variansi sampel = 70,8 / 4 =17,7

Rumus ini identik secara numerik tetapi dapat mengalami masalah presisi floating-point ketika nilainya sangat besar. Untuk stabilitas komputasi, algoritma online Welford (yang memproses satu nilai pada satu waktu) lebih disukai dalam implementasi perangkat lunak.

Ukuran Statistik Terkait

Varians adalah salah satu dari beberapa ukuran penyebaran. Masing-masing memiliki kekuatan yang berbeda:

TindakanRumusSatuanRobustitas untuk OutliersTerbaik Untuk
Varians (σ2 atau s2)Rata-rata deviasi kuadratSatuan kuadratRendah - sangat sensitifStatistik teoritis, ANOVA
Deviasi Standar (σ atau s)√VariansiSama seperti dataRendahSpread pelaporan dalam unit asli
JangkauanMax - MinSama seperti dataSangat rendahPeriksa cepat, sampel kecil
Interquartile Range (IQR)Q3 - Q1Sama seperti dataTinggiDistribusi miring, plot kotak
Rata-rata deviasi mutlak (MAD)Rata-rata dariSama seperti dataSedangUkuran intuitif dari penyebaran
Koefisien Variasi (CV)(SD / Rata-rata) x 100%PersentaseRendahMembandingkan penyebaran di berbagai skala

Untuk distribusi normal (kurva lonceng), penyimpangan standar memiliki interpretasi khusus: sekitar 68% dari data berada dalam +/-1 SD dari rata-rata, 95% dalam +/-2 SD, dan 99,7% dalam +/-3 SD.aturan empiris(Aturan 68-95-99.7)

Variasi dalam Spreadsheet dan Pemrograman

Sebagian besar alat memiliki fungsi varians built-in. Pastikan Anda memilih versi yang benar (populasi vs sampel):

AlatSampel VariansVariasi Populasi
Excel / Google SheetsVAR.S(range) or VAR(range)VAR.P(range) or VARP(range)
Python (NumPy)np.var(data, ddof=1)np.var(data)
Python (statistik)statistics.variance(data)statistics.pvariance(data)
Rvar(x)var(x) * (n-1)/n
JavaScriptPerhitungan manual (tidak terpasang)Perhitungan manual
SQL (PostgreSQL)VAR_SAMP(column)VAR_POP(column)
MATLABvar(x)var(x, 1)

Catatan: NumPy Python secara default adalahjumlah pendudukvarians (ddof=0), sedangkan Rvar()default untuksampelIni adalah sumber umum kebingungan ketika membandingkan hasil di seluruh bahasa.

Penerapan Praktis Varians

LapanganAplikasiContoh
KeuanganRisiko investasiVarians tinggi = lebih volatile stock returns
ManufakturKontrol kualitasVarians rendah = dimensi produk yang konsisten
Obat-obatanUji klinisMengukur variabilitas dalam respon pasien
Ilmu olahragaAnalisis kinerjaVariabilitas dalam kinerja atlet selama musim
PendidikanAnalisis skor tesMemahami penyebaran prestasi siswa

Varians dalam Keuangan: Risiko Portofolio

Dalam keuangan, varians dan standar deviasi mengukur risiko investasi. varians yang lebih tinggi berarti pengembalian berfluktuasi lebih - investasi lebih berisiko.Teori Portofolio Modern(1952, Hadiah Nobel 1990) menggunakan varians sebagai ukuran risiko pusat.

Untuk portofolio dua aset, varians gabungan tergantung pada varians individudankorelasi antara aset:

σ²portofolio= w12σ12 + w22σ22 + 2·w1·w2·σ1·σ2·ρ12

Di mana w = berat, σ2 = varians, dan ρ = korelasi. Ketika ρ < 1 (aset tidak bergerak dalam lockstep sempurna), varians portofolio adalahkurangIni adalah dasar matematika diversifikasi - menggabungkan aset yang tidak berkorelasi mengurangi risiko keseluruhan tanpa secara proporsional mengurangi pengembalian yang diharapkan.

Kelas Aset (2000 - 2023)Pengembalian tahunanAnnualisasi SD (Volatilitas)
US Large Cap (S&P 500)~7,5%~15%
US Small Cap (Russell 2000)~7,0%~20%
Internasional Berkembang (EAFE)~4,5%~17%
Obligasi AS (Aggregat)~4,0%~4%
Emas~8,0%~16%

Portofolio yang menggabungkan saham dan obligasi biasanya memiliki standar deviasi yang jauh lebih rendah daripada saham saja, sementara masih menangkap sebagian besar premi pengembalian ekuitas.

Variasi dalam Pengendalian Kualitas (Six Sigma)

Manufaktur menggunakan varian untuk mengontrol kualitas produk.Enam SigmaMetodologi, yang dikembangkan oleh Motorola pada 1980-an, bertujuan untuk mengurangi variasi proses sampai hampir tidak ada produk yang berada di luar batas spesifikasi.

Tingkat SigmaCacat per Juta (DPMO)MenyerahKapasitas Proses (Cpk)
691.46230,9%0,33
308.53869,1%0,67
66.80793,3%1.00
6.21099,38%1.33
Dua ratus tiga puluh tiga99,977%1.67
3,499,99966%2.00 pagi

Sebuah proses yang beroperasi pada 6σ hanya menghasilkan 3,4 cacat per juta kesempatan.Cpksecara langsung berhubungan dengan varians: Cpk = (USL - μ) / (3σ), dimana USL adalah batas spesifikasi atas. Mengurangi varians (melalui mesin, pelatihan, atau bahan yang lebih baik) meningkatkan Cpk dan mendorong proses menuju kualitas Six Sigma.

Contoh-Contoh dari Berbagai Bidang

Contoh-contoh dunia nyata ini menunjukkan bagaimana varians dihitung dan ditafsirkan dalam praktek:

Contoh 1: Volatilitas Pengembalian Saham

Pengembalian bulanan untuk saham lebih dari 6 bulan: +3.2%, -1.5%, +4.8%, -0.7%, +2.1%, +1.6%

  1. Rata-rata = (3,2-1,5+4,8-0,7+2,1+1,6) / 6 = 9,5/6 =1,583%
  2. Penyimpangan: 1.617, -3.083, 3.217, -2.283, 0.517, 0.017
  3. Kuadrat: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
  4. Jumlah kuadrat = 27.947
  5. Variansi sampel = 27.947/5 =5.589 (%2)
  6. Deviasi standar = √5.589 =2.364%per bulan
  7. Volatilitas tahunan ~ 2,364% x √12 =8,19%

Saham ini memiliki volatilitas moderat. S&P 500 secara historis memiliki ~15% volatilitas tahunan, sehingga saham ini kira-kira setengah volatilitas sebagai pasar luas.

Contoh 2: Kontrol Kualitas Manufaktur

Sebuah pabrik memproduksi baut dengan panjang sasaran 50,00 mm. Sebuah sampel dari 8 baut mengukur: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

  1. Rata-rata = 400.05/8 =50,00625 mm
  2. Variansi sampel =0,000655 mm2
  3. Deviasi standar =0,0256 mm
  4. Dengan batas spesifikasi 50,00 +/- 0,10 mm: Cpk = (50,10 - 50,006) / (3 x 0,0256) =1.22

Cpk 1,22 berarti proses ini mampu tetapi memiliki sedikit margin. target standar industri adalah Cpk >= 1,33 (4σ kemampuan), sehingga proses ini membutuhkan kontrol yang lebih ketat untuk mencapai tingkat itu.

Contoh 3: Nilai Tes Siswa

Kelas 10 siswa mendapat nilai: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 pada ujian.

  1. Rata-rata = 810/10 =81,0
  2. Varians populasi (seluruh kelas) =72,2
  3. Deviasi standar =8,50
  4. Koefisien variasi = 8,50/81,0 x 100% =10,5%

CV 10,5% menunjukkan penyebaran sedang - sebagian besar siswa berkinerja dalam kisaran yang wajar dari rata-rata. Jika CV melebihi 25%, instruktur mungkin menyelidiki apakah tes memiliki pertanyaan yang terlalu sulit bagi beberapa siswa atau apakah ada distribusi bimodal (dua kelompok yang berbeda).

Kesalahan Umum Saat Menghitung Varians

Hindari kesalahan yang sering terjadi:

KesalahanMengapa Itu SalahKoreksi
Menggunakan N bukan N-1 untuk sampelMeremehkan varians populasi yang sebenarnyaGunakan N-1 untuk setiap data yang merupakan sampel dari populasi yang lebih besar
Rata-rata penyimpangan mutlak bukan kuadratMemberikan MAD, bukan variansKuadratkan setiap deviasi, kemudian rata-rata.
Lupa untuk kuadrat sebelum rata-rataPenyimpangan positif dan negatif membatalkan, memberikan ~ 0Selalu deviasi kuadrat pertama
Membandingkan varians di berbagai skalaVarians tergantung pada unit; $2 ≠ kg2Gunakan koefisien variasi (CV) untuk perbandingan lintas skala
Dengan asumsi varians = standar deviasiVarians adalah SD2; satuan adalah kuadratAmbil akar kuadrat dari varians untuk mendapatkan SD

ANOVA: Membandingkan Varians Antara Kelompok

Analisis Varians (ANOVA)adalah tes statistik yang membandingkan rata-rata beberapa kelompok dengan menganalisis varians. Meskipun namanya, ia menguji apakah kelompok berarti berbeda, bukan apakah varians berbeda.

ANOVA membagi total varians menjadi dua komponen:

ItuF-statistik= Varians antar kelompok / Varians dalam kelompok. F besar berarti kelompok lebih berbeda dari satu sama lain daripada yang diharapkan secara kebetulan. Jika F melebihi nilai kritis (atau p < 0,05), setidaknya satu rata-rata kelompok berbeda secara signifikan.

Contoh: Membandingkan nilai tes siswa yang diajarkan dengan tiga metode yang berbeda. ANOVA memberi tahu Anda apakah metode pengajaran penting; tes pasca-hoc (Tukey, Bonferroni) memberi tahu AndayangMetode berbeda.

Apa kau tahu?

Pertanyaan yang Sering Diajukan

Apa perbedaan antara varians dan standar deviasi?

Varians adalah rata-rata penyimpangan kuadrat dari rata-rata; standar deviasi adalah akar kuadratnya. standar deviasi adalah dalam satuan yang sama dengan data asli (misalnya, dolar, kg, detik), sehingga lebih mudah diinterpretasikan. varian berguna dalam operasi matematika (varian variabel independen menambahkan langsung), sedangkan standar deviasi lebih baik untuk menggambarkan penyebaran ke audiens non-teknis.

Kapan saya harus menggunakan varians sampel vs populasi?

Gunakan varian populasi ketika data Anda berisi setiap anggota kelompok yang Anda analisis (misalnya, semua karyawan di satu perusahaan). Gunakan varian sampel ketika data Anda adalah subset dari kelompok yang lebih besar (misalnya, survei terhadap 500 pemilih untuk memperkirakan semua pendapat pemilih).

Bisakah varians negatif?

Tidak. Varians selalu nol atau positif karena dihitung dari nilai kuadrat. Varians = 0 hanya ketika semua titik data identik (tidak ada spread). Varians negatif secara matematis tidak mungkin dan menunjukkan kesalahan perhitungan.

Apa itu varian "tinggi" atau "rendah"?

Tinggi dan rendah relatif terhadap skala dan konteks data. Varians 10 adalah "rendah" untuk ketinggian manusia dalam cm tetapi "tinggi" untuk ketinggian dalam meter. Koefisien variasi (SD / rata-rata x 100%) tidak bergantung pada skala dan memungkinkan perbandingan di berbagai set data. Dalam kontrol kualitas, spesifikasi mendefinisikan kisaran varians yang dapat diterima untuk setiap pengukuran.

Bagaimana varians berhubungan dengan distribusi normal?

Distribusi normal (Gaussian) sepenuhnya dijelaskan oleh hanya dua parameter: mean (μ) dan varians (σ2). Kurva lonceng yang akrab lebih lebar ketika varians besar dan lebih sempit ketika varians kecil. Untuk data normal, aturan empiris berlaku: 68,3% dalam +/-1σ, 95,4% dalam +/-2σ, dan 99,7% dalam +/-3σ. Banyak tes statistik (t-test, ANOVA, regresi) menganggap data mengikuti distribusi normal atau bahwa rata-rata sampel adalah normal (melalui Teorema Batas Pusat).

Apa itu varians gabungan?

Varians gabungan adalah rata-rata tertimbang dari varians sampel dari dua atau lebih kelompok, yang digunakan dalam t-test dua sampel ketika Anda mengasumsikan varians yang sama di seluruh kelompok.dikumpulkan= [(n1-1) s12 + (n2-1) s22] / (n1 + n2 - 2). Ini menghasilkan perkiraan varians tunggal yang menggabungkan informasi dari kedua sampel, meningkatkan kekuatan statistik ketika asumsi varians yang sama valid.