Kalkulator Varians - Populasi & Varians Sampel
Menghitung varians dan standar deviasi untuk satu set data. Mendukung populasi dan varians sampel. Gratis online statistik kalkulator untuk hasil instan.
Apa Itu Varians?
Varians mengukurpenyebarandari sebuah dataset -- seberapa jauh nilai-nilai dari rata-rata. Varians rendah berarti titik-titik data cluster dekat rata-rata; varians tinggi berarti mereka tersebar luas.
Varians dihitung sebagai rata-rata diferensi kuadrat dari rata-rata:
- Varians populasi (σ2):σ2 = Σ(xi - μ) 2 / N
- Varians sampel (s2):s2 = Σ(xi - x̄) 2 / (N-1)
Di mana xi adalah setiap titik data, μ (atau x̄) adalah rata-rata, dan N adalah jumlah nilai.deviasi standaradalah akar kuadrat dari varians -- dalam satuan yang sama dengan data asli, membuatnya lebih mudah diinterpretasikan.
Mengapa kita mengkuadratkan perbedaan? Dua alasan: (1) mengkuadratkan menghilangkan nilai negatif sehingga penyimpangan di atas dan di bawah rata-rata tidak membatalkan, dan (2) mengkuadratkan memberikan bobot yang tidak proporsional untuk outlier, membuat varians sensitif terhadap nilai ekstrim. Properti ini adalah kekuatan (deteksi outlier) dan kelemahan (sensitivitas outlier). Untuk data dengan outlier ekstrim, pertimbangkan untuk menggunakandeviasi absolut median (MAD)sebagai alternatif yang lebih kuat.
Populasi vs. Varians Sampel
Perbedaan utama adalah penyebut -- N vs (N-1) -- yang dikenal sebagai koreksi Bessel:
| Jenis | Denominator | Gunakan Kapan | Simbol |
|---|---|---|---|
| Variasi Populasi | N | Anda memiliki data pada seluruh populasi | σ² |
| Sampel Varians | N-1 | Anda memiliki sampel dari populasi yang lebih besar | s² |
Dalam prakteknya, sebagian besar data dunia nyata adalah sampel.perkiraan yang tidak biasPenggunaan N (varians populasi) pada sampel secara sistematis meremehkan varians sebenarnya.
Contoh: menguji obat baru pada 50 pasien berarti menggunakan varians sampel (s2). menganalisis semua siswa di kelas berarti menggunakan varians populasi (σ2).
Mengapa koreksi Bessel bekerja?Ketika Anda menghitung rata-rata sampel, Anda menggunakan satu "derajat kebebasan" - rata-rata dihitung dari data itu sendiri, sehingga penyimpangan dari rata-rata tidak sepenuhnya independen. Membagi dengan (N-1) bukan N mengkompensasi kehilangan satu derajat kebebasan ini, menghasilkan estimator yang tidak bias dari varians populasi. Ketika N tumbuh besar, perbedaan antara N dan N-1 menjadi dapat diabaikan.
Perhitungan Varians Langkah-demi-Langkah
Mengingat dataset: 4, 7, 13, 2, 8
- Hitung rata-rata:(4+7+13+2+8) ÷ 5 = 34/5 =6.8
- Temukan penyimpangan dari rata-rata:(4-6.8) =-2.8; (7-6.8) =0.2; (13-6.8) =6.2; (2-6.8) =-4.8; (8-6.8) =1.2
- Kuadratkan penyimpangan:7.84; 0.04; 38.44; 23.04; 1.44
- Jumlah kuadrat:7.84+0.04+38.44+23.04+1.44 =70,8
- Varians populasi:70,8 ÷ 5 =14,16 tahun
- Varians sampel:70,8 ÷ 4 =17,7
- Penyimpangan standar:√14.16 =3.76(populasi) atau √17.7 =4.21(sampel)
Rumus Pintasan untuk Varians
Ada rumus "komputasi" yang sama yang menghindari perhitungan deviasi secara eksplisit, berguna ketika menghitung dengan tangan atau dalam spreadsheet:
σ2 = (Σxi2) / N - (Σxi/N) 2 = (Σxi2 - (Σxi) 2 / N) / N
Untuk varians sampel:s2 = (Σxi2 - (Σxi)2/N) / (N-1)
Menggunakan data contoh kami (4, 7, 13, 2, 8):
- Σxi = 34, jadi (Σxi) 2 = 1.156
- Σxi2 = 16 + 49 + 169 + 4 + 64 = 302
- Varians populasi = (302 - 1156/5) / 5 = (302 - 231.2) / 5 = 70,8 / 5 =14,16 tahun ✓
- Variansi sampel = 70,8 / 4 =17,7 ✓
Rumus ini identik secara numerik tetapi dapat mengalami masalah presisi floating-point ketika nilainya sangat besar. Untuk stabilitas komputasi, algoritma online Welford (yang memproses satu nilai pada satu waktu) lebih disukai dalam implementasi perangkat lunak.
Ukuran Statistik Terkait
Varians adalah salah satu dari beberapa ukuran penyebaran. Masing-masing memiliki kekuatan yang berbeda:
| Tindakan | Rumus | Satuan | Robustitas untuk Outliers | Terbaik Untuk |
|---|---|---|---|---|
| Varians (σ2 atau s2) | Rata-rata deviasi kuadrat | Satuan kuadrat | Rendah - sangat sensitif | Statistik teoritis, ANOVA |
| Deviasi Standar (σ atau s) | √Variansi | Sama seperti data | Rendah | Spread pelaporan dalam unit asli |
| Jangkauan | Max - Min | Sama seperti data | Sangat rendah | Periksa cepat, sampel kecil |
| Interquartile Range (IQR) | Q3 - Q1 | Sama seperti data | Tinggi | Distribusi miring, plot kotak |
| Rata-rata deviasi mutlak (MAD) | Rata-rata dari | Sama seperti data | Sedang | Ukuran intuitif dari penyebaran |
| Koefisien Variasi (CV) | (SD / Rata-rata) x 100% | Persentase | Rendah | Membandingkan penyebaran di berbagai skala |
Untuk distribusi normal (kurva lonceng), penyimpangan standar memiliki interpretasi khusus: sekitar 68% dari data berada dalam +/-1 SD dari rata-rata, 95% dalam +/-2 SD, dan 99,7% dalam +/-3 SD.aturan empiris(Aturan 68-95-99.7)
Variasi dalam Spreadsheet dan Pemrograman
Sebagian besar alat memiliki fungsi varians built-in. Pastikan Anda memilih versi yang benar (populasi vs sampel):
| Alat | Sampel Varians | Variasi Populasi |
|---|---|---|
| Excel / Google Sheets | VAR.S(range) or VAR(range) | VAR.P(range) or VARP(range) |
| Python (NumPy) | np.var(data, ddof=1) | np.var(data) |
| Python (statistik) | statistics.variance(data) | statistics.pvariance(data) |
| R | var(x) | var(x) * (n-1)/n |
| JavaScript | Perhitungan manual (tidak terpasang) | Perhitungan manual |
| SQL (PostgreSQL) | VAR_SAMP(column) | VAR_POP(column) |
| MATLAB | var(x) | var(x, 1) |
Catatan: NumPy Python secara default adalahjumlah pendudukvarians (ddof=0), sedangkan Rvar()default untuksampelIni adalah sumber umum kebingungan ketika membandingkan hasil di seluruh bahasa.
Penerapan Praktis Varians
| Lapangan | Aplikasi | Contoh |
|---|---|---|
| Keuangan | Risiko investasi | Varians tinggi = lebih volatile stock returns |
| Manufaktur | Kontrol kualitas | Varians rendah = dimensi produk yang konsisten |
| Obat-obatan | Uji klinis | Mengukur variabilitas dalam respon pasien |
| Ilmu olahraga | Analisis kinerja | Variabilitas dalam kinerja atlet selama musim |
| Pendidikan | Analisis skor tes | Memahami penyebaran prestasi siswa |
Varians dalam Keuangan: Risiko Portofolio
Dalam keuangan, varians dan standar deviasi mengukur risiko investasi. varians yang lebih tinggi berarti pengembalian berfluktuasi lebih - investasi lebih berisiko.Teori Portofolio Modern(1952, Hadiah Nobel 1990) menggunakan varians sebagai ukuran risiko pusat.
Untuk portofolio dua aset, varians gabungan tergantung pada varians individudankorelasi antara aset:
σ²portofolio= w12σ12 + w22σ22 + 2·w1·w2·σ1·σ2·ρ12
Di mana w = berat, σ2 = varians, dan ρ = korelasi. Ketika ρ < 1 (aset tidak bergerak dalam lockstep sempurna), varians portofolio adalahkurangIni adalah dasar matematika diversifikasi - menggabungkan aset yang tidak berkorelasi mengurangi risiko keseluruhan tanpa secara proporsional mengurangi pengembalian yang diharapkan.
| Kelas Aset (2000 - 2023) | Pengembalian tahunan | Annualisasi SD (Volatilitas) |
|---|---|---|
| US Large Cap (S&P 500) | ~7,5% | ~15% |
| US Small Cap (Russell 2000) | ~7,0% | ~20% |
| Internasional Berkembang (EAFE) | ~4,5% | ~17% |
| Obligasi AS (Aggregat) | ~4,0% | ~4% |
| Emas | ~8,0% | ~16% |
Portofolio yang menggabungkan saham dan obligasi biasanya memiliki standar deviasi yang jauh lebih rendah daripada saham saja, sementara masih menangkap sebagian besar premi pengembalian ekuitas.
Variasi dalam Pengendalian Kualitas (Six Sigma)
Manufaktur menggunakan varian untuk mengontrol kualitas produk.Enam SigmaMetodologi, yang dikembangkan oleh Motorola pada 1980-an, bertujuan untuk mengurangi variasi proses sampai hampir tidak ada produk yang berada di luar batas spesifikasi.
| Tingkat Sigma | Cacat per Juta (DPMO) | Menyerah | Kapasitas Proses (Cpk) |
|---|---|---|---|
| 1σ | 691.462 | 30,9% | 0,33 |
| 2σ | 308.538 | 69,1% | 0,67 |
| 3σ | 66.807 | 93,3% | 1.00 |
| 4σ | 6.210 | 99,38% | 1.33 |
| 5σ | Dua ratus tiga puluh tiga | 99,977% | 1.67 |
| 6σ | 3,4 | 99,99966% | 2.00 pagi |
Sebuah proses yang beroperasi pada 6σ hanya menghasilkan 3,4 cacat per juta kesempatan.Cpksecara langsung berhubungan dengan varians: Cpk = (USL - μ) / (3σ), dimana USL adalah batas spesifikasi atas. Mengurangi varians (melalui mesin, pelatihan, atau bahan yang lebih baik) meningkatkan Cpk dan mendorong proses menuju kualitas Six Sigma.
Contoh-Contoh dari Berbagai Bidang
Contoh-contoh dunia nyata ini menunjukkan bagaimana varians dihitung dan ditafsirkan dalam praktek:
Contoh 1: Volatilitas Pengembalian Saham
Pengembalian bulanan untuk saham lebih dari 6 bulan: +3.2%, -1.5%, +4.8%, -0.7%, +2.1%, +1.6%
- Rata-rata = (3,2-1,5+4,8-0,7+2,1+1,6) / 6 = 9,5/6 =1,583%
- Penyimpangan: 1.617, -3.083, 3.217, -2.283, 0.517, 0.017
- Kuadrat: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
- Jumlah kuadrat = 27.947
- Variansi sampel = 27.947/5 =5.589 (%2)
- Deviasi standar = √5.589 =2.364%per bulan
- Volatilitas tahunan ~ 2,364% x √12 =8,19%
Saham ini memiliki volatilitas moderat. S&P 500 secara historis memiliki ~15% volatilitas tahunan, sehingga saham ini kira-kira setengah volatilitas sebagai pasar luas.
Contoh 2: Kontrol Kualitas Manufaktur
Sebuah pabrik memproduksi baut dengan panjang sasaran 50,00 mm. Sebuah sampel dari 8 baut mengukur: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.
- Rata-rata = 400.05/8 =50,00625 mm
- Variansi sampel =0,000655 mm2
- Deviasi standar =0,0256 mm
- Dengan batas spesifikasi 50,00 +/- 0,10 mm: Cpk = (50,10 - 50,006) / (3 x 0,0256) =1.22
Cpk 1,22 berarti proses ini mampu tetapi memiliki sedikit margin. target standar industri adalah Cpk >= 1,33 (4σ kemampuan), sehingga proses ini membutuhkan kontrol yang lebih ketat untuk mencapai tingkat itu.
Contoh 3: Nilai Tes Siswa
Kelas 10 siswa mendapat nilai: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 pada ujian.
- Rata-rata = 810/10 =81,0
- Varians populasi (seluruh kelas) =72,2
- Deviasi standar =8,50
- Koefisien variasi = 8,50/81,0 x 100% =10,5%
CV 10,5% menunjukkan penyebaran sedang - sebagian besar siswa berkinerja dalam kisaran yang wajar dari rata-rata. Jika CV melebihi 25%, instruktur mungkin menyelidiki apakah tes memiliki pertanyaan yang terlalu sulit bagi beberapa siswa atau apakah ada distribusi bimodal (dua kelompok yang berbeda).
Kesalahan Umum Saat Menghitung Varians
Hindari kesalahan yang sering terjadi:
| Kesalahan | Mengapa Itu Salah | Koreksi |
|---|---|---|
| Menggunakan N bukan N-1 untuk sampel | Meremehkan varians populasi yang sebenarnya | Gunakan N-1 untuk setiap data yang merupakan sampel dari populasi yang lebih besar |
| Rata-rata penyimpangan mutlak bukan kuadrat | Memberikan MAD, bukan varians | Kuadratkan setiap deviasi, kemudian rata-rata. |
| Lupa untuk kuadrat sebelum rata-rata | Penyimpangan positif dan negatif membatalkan, memberikan ~ 0 | Selalu deviasi kuadrat pertama |
| Membandingkan varians di berbagai skala | Varians tergantung pada unit; $2 ≠ kg2 | Gunakan koefisien variasi (CV) untuk perbandingan lintas skala |
| Dengan asumsi varians = standar deviasi | Varians adalah SD2; satuan adalah kuadrat | Ambil akar kuadrat dari varians untuk mendapatkan SD |
ANOVA: Membandingkan Varians Antara Kelompok
Analisis Varians (ANOVA)adalah tes statistik yang membandingkan rata-rata beberapa kelompok dengan menganalisis varians. Meskipun namanya, ia menguji apakah kelompok berarti berbeda, bukan apakah varians berbeda.
ANOVA membagi total varians menjadi dua komponen:
- Varians antar kelompok:Berapa banyak rata-rata kelompok berbeda dari rata-rata keseluruhan
- Varians dalam kelompok:Berapa banyak nilai individu bervariasi dalam setiap kelompok
ItuF-statistik= Varians antar kelompok / Varians dalam kelompok. F besar berarti kelompok lebih berbeda dari satu sama lain daripada yang diharapkan secara kebetulan. Jika F melebihi nilai kritis (atau p < 0,05), setidaknya satu rata-rata kelompok berbeda secara signifikan.
Contoh: Membandingkan nilai tes siswa yang diajarkan dengan tiga metode yang berbeda. ANOVA memberi tahu Anda apakah metode pengajaran penting; tes pasca-hoc (Tukey, Bonferroni) memberi tahu AndayangMetode berbeda.
Apa kau tahu?
- Varians diperkenalkan oleh Ronald Fisher pada tahun 1918 -- makalah yang sama di mana ia menciptakan istilah "varians".
- Di bidang keuangan, varians adalah dasar dari Teori Portofolio Modern. Varians portofolio tidak hanya bergantung pada varians aset individu tetapi pada korelasi antara aset.
- Koefisien variasi (CV = standar deviasi / rata-rata x 100%) memungkinkan untuk membandingkan variabilitas di seluruh dataset dengan unit atau skala yang berbeda.
- Ketidaksetaraan Chebyshev menjamin bahwa untukapapundistribusi (bukan hanya normal), setidaknya 75% dari data berada dalam +/-2 standar deviasi dan setidaknya 89% dalam +/-3 standar deviasi.
Pertanyaan yang Sering Diajukan
Apa perbedaan antara varians dan standar deviasi?
Varians adalah rata-rata penyimpangan kuadrat dari rata-rata; standar deviasi adalah akar kuadratnya. standar deviasi adalah dalam satuan yang sama dengan data asli (misalnya, dolar, kg, detik), sehingga lebih mudah diinterpretasikan. varian berguna dalam operasi matematika (varian variabel independen menambahkan langsung), sedangkan standar deviasi lebih baik untuk menggambarkan penyebaran ke audiens non-teknis.
Kapan saya harus menggunakan varians sampel vs populasi?
Gunakan varian populasi ketika data Anda berisi setiap anggota kelompok yang Anda analisis (misalnya, semua karyawan di satu perusahaan). Gunakan varian sampel ketika data Anda adalah subset dari kelompok yang lebih besar (misalnya, survei terhadap 500 pemilih untuk memperkirakan semua pendapat pemilih).
Bisakah varians negatif?
Tidak. Varians selalu nol atau positif karena dihitung dari nilai kuadrat. Varians = 0 hanya ketika semua titik data identik (tidak ada spread). Varians negatif secara matematis tidak mungkin dan menunjukkan kesalahan perhitungan.
Apa itu varian "tinggi" atau "rendah"?
Tinggi dan rendah relatif terhadap skala dan konteks data. Varians 10 adalah "rendah" untuk ketinggian manusia dalam cm tetapi "tinggi" untuk ketinggian dalam meter. Koefisien variasi (SD / rata-rata x 100%) tidak bergantung pada skala dan memungkinkan perbandingan di berbagai set data. Dalam kontrol kualitas, spesifikasi mendefinisikan kisaran varians yang dapat diterima untuk setiap pengukuran.
Bagaimana varians berhubungan dengan distribusi normal?
Distribusi normal (Gaussian) sepenuhnya dijelaskan oleh hanya dua parameter: mean (μ) dan varians (σ2). Kurva lonceng yang akrab lebih lebar ketika varians besar dan lebih sempit ketika varians kecil. Untuk data normal, aturan empiris berlaku: 68,3% dalam +/-1σ, 95,4% dalam +/-2σ, dan 99,7% dalam +/-3σ. Banyak tes statistik (t-test, ANOVA, regresi) menganggap data mengikuti distribusi normal atau bahwa rata-rata sampel adalah normal (melalui Teorema Batas Pusat).
Apa itu varians gabungan?
Varians gabungan adalah rata-rata tertimbang dari varians sampel dari dua atau lebih kelompok, yang digunakan dalam t-test dua sampel ketika Anda mengasumsikan varians yang sama di seluruh kelompok.dikumpulkan= [(n1-1) s12 + (n2-1) s22] / (n1 + n2 - 2). Ini menghasilkan perkiraan varians tunggal yang menggabungkan informasi dari kedua sampel, meningkatkan kekuatan statistik ketika asumsi varians yang sama valid.