🔬 Advanced

Kalkulator Varians - Populasi & Varians Sampel

Menghitung varians dan standar deviasi untuk satu set data. Mendukung populasi dan varians sampel. Gratis online statistik kalkulator untuk hasil instan.

Apa Itu Varians?

Varians mengukurpenyebarandari sebuah dataset -- seberapa jauh nilai-nilai dari rata-rata. Varians rendah berarti titik-titik data cluster dekat rata-rata; varians tinggi berarti mereka tersebar luas.

Varians dihitung sebagai rata-rata diferensi kuadrat dari rata-rata:

Varians populasi (σ2):σ2 = Σ(xi - μ) 2 / N
Varians sampel (s2):s2 = Σ(xi - x̄) 2 / (N-1)

Di mana xi adalah setiap titik data, μ (atau x̄) adalah rata-rata, dan N adalah jumlah nilai.deviasi standaradalah akar kuadrat dari varians -- dalam satuan yang sama dengan data asli, membuatnya lebih mudah diinterpretasikan.

Mengapa kita mengkuadratkan perbedaan? Dua alasan: (1) mengkuadratkan menghilangkan nilai negatif sehingga penyimpangan di atas dan di bawah rata-rata tidak membatalkan, dan (2) mengkuadratkan memberikan bobot yang tidak proporsional untuk outlier, membuat varians sensitif terhadap nilai ekstrim. Properti ini adalah kekuatan (deteksi outlier) dan kelemahan (sensitivitas outlier). Untuk data dengan outlier ekstrim, pertimbangkan untuk menggunakandeviasi absolut median (MAD)sebagai alternatif yang lebih kuat.

Populasi vs. Varians Sampel

Perbedaan utama adalah penyebut -- N vs (N-1) -- yang dikenal sebagai koreksi Bessel:

Jenis	Denominator	Gunakan Kapan	Simbol
Variasi Populasi	N	Anda memiliki data pada seluruh populasi	σ²
Sampel Varians	N-1	Anda memiliki sampel dari populasi yang lebih besar	s²

Dalam prakteknya, sebagian besar data dunia nyata adalah sampel.perkiraan yang tidak biasPenggunaan N (varians populasi) pada sampel secara sistematis meremehkan varians sebenarnya.

Contoh: menguji obat baru pada 50 pasien berarti menggunakan varians sampel (s2). menganalisis semua siswa di kelas berarti menggunakan varians populasi (σ2).

Mengapa koreksi Bessel bekerja?Ketika Anda menghitung rata-rata sampel, Anda menggunakan satu "derajat kebebasan" - rata-rata dihitung dari data itu sendiri, sehingga penyimpangan dari rata-rata tidak sepenuhnya independen. Membagi dengan (N-1) bukan N mengkompensasi kehilangan satu derajat kebebasan ini, menghasilkan estimator yang tidak bias dari varians populasi. Ketika N tumbuh besar, perbedaan antara N dan N-1 menjadi dapat diabaikan.

Perhitungan Varians Langkah-demi-Langkah

Mengingat dataset: 4, 7, 13, 2, 8

Hitung rata-rata:(4+7+13+2+8) ÷ 5 = 34/5 =6.8
Temukan penyimpangan dari rata-rata:(4-6.8) =-2.8; (7-6.8) =0.2; (13-6.8) =6.2; (2-6.8) =-4.8; (8-6.8) =1.2
Kuadratkan penyimpangan:7.84; 0.04; 38.44; 23.04; 1.44
Jumlah kuadrat:7.84+0.04+38.44+23.04+1.44 =70,8
Varians populasi:70,8 ÷ 5 =14,16 tahun
Varians sampel:70,8 ÷ 4 =17,7
Penyimpangan standar:√14.16 =3.76(populasi) atau √17.7 =4.21(sampel)

Rumus Pintasan untuk Varians

Ada rumus "komputasi" yang sama yang menghindari perhitungan deviasi secara eksplisit, berguna ketika menghitung dengan tangan atau dalam spreadsheet:

σ2 = (Σxi2) / N - (Σxi/N) 2 = (Σxi2 - (Σxi) 2 / N) / N

Untuk varians sampel:s2 = (Σxi2 - (Σxi)2/N) / (N-1)

Menggunakan data contoh kami (4, 7, 13, 2, 8):

Σxi = 34, jadi (Σxi) 2 = 1.156
Σxi2 = 16 + 49 + 169 + 4 + 64 = 302
Varians populasi = (302 - 1156/5) / 5 = (302 - 231.2) / 5 = 70,8 / 5 =14,16 tahun ✓
Variansi sampel = 70,8 / 4 =17,7 ✓

Rumus ini identik secara numerik tetapi dapat mengalami masalah presisi floating-point ketika nilainya sangat besar. Untuk stabilitas komputasi, algoritma online Welford (yang memproses satu nilai pada satu waktu) lebih disukai dalam implementasi perangkat lunak.

Ukuran Statistik Terkait

Varians adalah salah satu dari beberapa ukuran penyebaran. Masing-masing memiliki kekuatan yang berbeda:

Tindakan	Rumus	Satuan	Robustitas untuk Outliers	Terbaik Untuk
Varians (σ2 atau s2)	Rata-rata deviasi kuadrat	Satuan kuadrat	Rendah - sangat sensitif	Statistik teoritis, ANOVA
Deviasi Standar (σ atau s)	√Variansi	Sama seperti data	Rendah	Spread pelaporan dalam unit asli
Jangkauan	Max - Min	Sama seperti data	Sangat rendah	Periksa cepat, sampel kecil
Interquartile Range (IQR)	Q3 - Q1	Sama seperti data	Tinggi	Distribusi miring, plot kotak
Rata-rata deviasi mutlak (MAD)	Rata-rata dari	Sama seperti data	Sedang	Ukuran intuitif dari penyebaran
Koefisien Variasi (CV)	(SD / Rata-rata) x 100%	Persentase	Rendah	Membandingkan penyebaran di berbagai skala

Untuk distribusi normal (kurva lonceng), penyimpangan standar memiliki interpretasi khusus: sekitar 68% dari data berada dalam +/-1 SD dari rata-rata, 95% dalam +/-2 SD, dan 99,7% dalam +/-3 SD.aturan empiris(Aturan 68-95-99.7)

Variasi dalam Spreadsheet dan Pemrograman

Sebagian besar alat memiliki fungsi varians built-in. Pastikan Anda memilih versi yang benar (populasi vs sampel):

Alat	Sampel Varians	Variasi Populasi
Excel / Google Sheets	`VAR.S(range)` or `VAR(range)`	`VAR.P(range)` or `VARP(range)`
Python (NumPy)	`np.var(data, ddof=1)`	`np.var(data)`
Python (statistik)	`statistics.variance(data)`	`statistics.pvariance(data)`
R	`var(x)`	`var(x) * (n-1)/n`
JavaScript	Perhitungan manual (tidak terpasang)	Perhitungan manual
SQL (PostgreSQL)	`VAR_SAMP(column)`	`VAR_POP(column)`
MATLAB	`var(x)`	`var(x, 1)`

Catatan: NumPy Python secara default adalahjumlah pendudukvarians (ddof=0), sedangkan Rvar()default untuksampelIni adalah sumber umum kebingungan ketika membandingkan hasil di seluruh bahasa.

Penerapan Praktis Varians

Lapangan	Aplikasi	Contoh
Keuangan	Risiko investasi	Varians tinggi = lebih volatile stock returns
Manufaktur	Kontrol kualitas	Varians rendah = dimensi produk yang konsisten
Obat-obatan	Uji klinis	Mengukur variabilitas dalam respon pasien
Ilmu olahraga	Analisis kinerja	Variabilitas dalam kinerja atlet selama musim
Pendidikan	Analisis skor tes	Memahami penyebaran prestasi siswa

Varians dalam Keuangan: Risiko Portofolio

Dalam keuangan, varians dan standar deviasi mengukur risiko investasi. varians yang lebih tinggi berarti pengembalian berfluktuasi lebih - investasi lebih berisiko.Teori Portofolio Modern(1952, Hadiah Nobel 1990) menggunakan varians sebagai ukuran risiko pusat.

Untuk portofolio dua aset, varians gabungan tergantung pada varians individudankorelasi antara aset:

σ²_portofolio= w12σ12 + w22σ22 + 2·w1·w2·σ1·σ2·ρ12

Di mana w = berat, σ2 = varians, dan ρ = korelasi. Ketika ρ < 1 (aset tidak bergerak dalam lockstep sempurna), varians portofolio adalahkurangIni adalah dasar matematika diversifikasi - menggabungkan aset yang tidak berkorelasi mengurangi risiko keseluruhan tanpa secara proporsional mengurangi pengembalian yang diharapkan.

Kelas Aset (2000 - 2023)	Pengembalian tahunan	Annualisasi SD (Volatilitas)
US Large Cap (S&P 500)	~7,5%	~15%
US Small Cap (Russell 2000)	~7,0%	~20%
Internasional Berkembang (EAFE)	~4,5%	~17%
Obligasi AS (Aggregat)	~4,0%	~4%
Emas	~8,0%	~16%

Portofolio yang menggabungkan saham dan obligasi biasanya memiliki standar deviasi yang jauh lebih rendah daripada saham saja, sementara masih menangkap sebagian besar premi pengembalian ekuitas.

Variasi dalam Pengendalian Kualitas (Six Sigma)

Manufaktur menggunakan varian untuk mengontrol kualitas produk.Enam SigmaMetodologi, yang dikembangkan oleh Motorola pada 1980-an, bertujuan untuk mengurangi variasi proses sampai hampir tidak ada produk yang berada di luar batas spesifikasi.

Tingkat Sigma	Cacat per Juta (DPMO)	Menyerah	Kapasitas Proses (Cpk)
1σ	691.462	30,9%	0,33
2σ	308.538	69,1%	0,67
3σ	66.807	93,3%	1.00
4σ	6.210	99,38%	1.33
5σ	Dua ratus tiga puluh tiga	99,977%	1.67
6σ	3,4	99,99966%	2.00 pagi

Sebuah proses yang beroperasi pada 6σ hanya menghasilkan 3,4 cacat per juta kesempatan.Cpksecara langsung berhubungan dengan varians: Cpk = (USL - μ) / (3σ), dimana USL adalah batas spesifikasi atas. Mengurangi varians (melalui mesin, pelatihan, atau bahan yang lebih baik) meningkatkan Cpk dan mendorong proses menuju kualitas Six Sigma.

Contoh-Contoh dari Berbagai Bidang

Contoh-contoh dunia nyata ini menunjukkan bagaimana varians dihitung dan ditafsirkan dalam praktek:

Contoh 1: Volatilitas Pengembalian Saham

Pengembalian bulanan untuk saham lebih dari 6 bulan: +3.2%, -1.5%, +4.8%, -0.7%, +2.1%, +1.6%

Rata-rata = (3,2-1,5+4,8-0,7+2,1+1,6) / 6 = 9,5/6 =1,583%
Penyimpangan: 1.617, -3.083, 3.217, -2.283, 0.517, 0.017
Kuadrat: 2,615, 9,504, 10,349, 5,212, 0,267, 0,0003
Jumlah kuadrat = 27.947
Variansi sampel = 27.947/5 =5.589 (%2)
Deviasi standar = √5.589 =2.364%per bulan
Volatilitas tahunan ~ 2,364% x √12 =8,19%

Saham ini memiliki volatilitas moderat. S&P 500 secara historis memiliki ~15% volatilitas tahunan, sehingga saham ini kira-kira setengah volatilitas sebagai pasar luas.

Contoh 2: Kontrol Kualitas Manufaktur

Sebuah pabrik memproduksi baut dengan panjang sasaran 50,00 mm. Sebuah sampel dari 8 baut mengukur: 50,02, 49,98, 50,05, 49,97, 50,01, 50,03, 49,99, 50,00 mm.

Rata-rata = 400.05/8 =50,00625 mm
Variansi sampel =0,000655 mm2
Deviasi standar =0,0256 mm
Dengan batas spesifikasi 50,00 +/- 0,10 mm: Cpk = (50,10 - 50,006) / (3 x 0,0256) =1.22

Cpk 1,22 berarti proses ini mampu tetapi memiliki sedikit margin. target standar industri adalah Cpk >= 1,33 (4σ kemampuan), sehingga proses ini membutuhkan kontrol yang lebih ketat untuk mencapai tingkat itu.

Contoh 3: Nilai Tes Siswa

Kelas 10 siswa mendapat nilai: 72, 85, 90, 68, 77, 95, 83, 79, 88, 73 pada ujian.

Rata-rata = 810/10 =81,0
Varians populasi (seluruh kelas) =72,2
Deviasi standar =8,50
Koefisien variasi = 8,50/81,0 x 100% =10,5%

CV 10,5% menunjukkan penyebaran sedang - sebagian besar siswa berkinerja dalam kisaran yang wajar dari rata-rata. Jika CV melebihi 25%, instruktur mungkin menyelidiki apakah tes memiliki pertanyaan yang terlalu sulit bagi beberapa siswa atau apakah ada distribusi bimodal (dua kelompok yang berbeda).

Kesalahan Umum Saat Menghitung Varians

Hindari kesalahan yang sering terjadi:

Kesalahan	Mengapa Itu Salah	Koreksi
Menggunakan N bukan N-1 untuk sampel	Meremehkan varians populasi yang sebenarnya	Gunakan N-1 untuk setiap data yang merupakan sampel dari populasi yang lebih besar
Rata-rata penyimpangan mutlak bukan kuadrat	Memberikan MAD, bukan varians	Kuadratkan setiap deviasi, kemudian rata-rata.
Lupa untuk kuadrat sebelum rata-rata	Penyimpangan positif dan negatif membatalkan, memberikan ~ 0	Selalu deviasi kuadrat pertama
Membandingkan varians di berbagai skala	Varians tergantung pada unit; $2 ≠ kg2	Gunakan koefisien variasi (CV) untuk perbandingan lintas skala
Dengan asumsi varians = standar deviasi	Varians adalah SD2; satuan adalah kuadrat	Ambil akar kuadrat dari varians untuk mendapatkan SD

ANOVA: Membandingkan Varians Antara Kelompok

Analisis Varians (ANOVA)adalah tes statistik yang membandingkan rata-rata beberapa kelompok dengan menganalisis varians. Meskipun namanya, ia menguji apakah kelompok berarti berbeda, bukan apakah varians berbeda.

ANOVA membagi total varians menjadi dua komponen:

Varians antar kelompok:Berapa banyak rata-rata kelompok berbeda dari rata-rata keseluruhan
Varians dalam kelompok:Berapa banyak nilai individu bervariasi dalam setiap kelompok

ItuF-statistik= Varians antar kelompok / Varians dalam kelompok. F besar berarti kelompok lebih berbeda dari satu sama lain daripada yang diharapkan secara kebetulan. Jika F melebihi nilai kritis (atau p < 0,05), setidaknya satu rata-rata kelompok berbeda secara signifikan.

Contoh: Membandingkan nilai tes siswa yang diajarkan dengan tiga metode yang berbeda. ANOVA memberi tahu Anda apakah metode pengajaran penting; tes pasca-hoc (Tukey, Bonferroni) memberi tahu AndayangMetode berbeda.

Apa kau tahu?

Varians diperkenalkan oleh Ronald Fisher pada tahun 1918 -- makalah yang sama di mana ia menciptakan istilah "varians".
Di bidang keuangan, varians adalah dasar dari Teori Portofolio Modern. Varians portofolio tidak hanya bergantung pada varians aset individu tetapi pada korelasi antara aset.
Koefisien variasi (CV = standar deviasi / rata-rata x 100%) memungkinkan untuk membandingkan variabilitas di seluruh dataset dengan unit atau skala yang berbeda.
Ketidaksetaraan Chebyshev menjamin bahwa untukapapundistribusi (bukan hanya normal), setidaknya 75% dari data berada dalam +/-2 standar deviasi dan setidaknya 89% dalam +/-3 standar deviasi.

Pertanyaan yang Sering Diajukan

Apa perbedaan antara varians dan standar deviasi?

Varians adalah rata-rata penyimpangan kuadrat dari rata-rata; standar deviasi adalah akar kuadratnya. standar deviasi adalah dalam satuan yang sama dengan data asli (misalnya, dolar, kg, detik), sehingga lebih mudah diinterpretasikan. varian berguna dalam operasi matematika (varian variabel independen menambahkan langsung), sedangkan standar deviasi lebih baik untuk menggambarkan penyebaran ke audiens non-teknis.

Kapan saya harus menggunakan varians sampel vs populasi?

Gunakan varian populasi ketika data Anda berisi setiap anggota kelompok yang Anda analisis (misalnya, semua karyawan di satu perusahaan). Gunakan varian sampel ketika data Anda adalah subset dari kelompok yang lebih besar (misalnya, survei terhadap 500 pemilih untuk memperkirakan semua pendapat pemilih).

Bisakah varians negatif?

Tidak. Varians selalu nol atau positif karena dihitung dari nilai kuadrat. Varians = 0 hanya ketika semua titik data identik (tidak ada spread). Varians negatif secara matematis tidak mungkin dan menunjukkan kesalahan perhitungan.

Apa itu varian "tinggi" atau "rendah"?

Tinggi dan rendah relatif terhadap skala dan konteks data. Varians 10 adalah "rendah" untuk ketinggian manusia dalam cm tetapi "tinggi" untuk ketinggian dalam meter. Koefisien variasi (SD / rata-rata x 100%) tidak bergantung pada skala dan memungkinkan perbandingan di berbagai set data. Dalam kontrol kualitas, spesifikasi mendefinisikan kisaran varians yang dapat diterima untuk setiap pengukuran.

Bagaimana varians berhubungan dengan distribusi normal?

Distribusi normal (Gaussian) sepenuhnya dijelaskan oleh hanya dua parameter: mean (μ) dan varians (σ2). Kurva lonceng yang akrab lebih lebar ketika varians besar dan lebih sempit ketika varians kecil. Untuk data normal, aturan empiris berlaku: 68,3% dalam +/-1σ, 95,4% dalam +/-2σ, dan 99,7% dalam +/-3σ. Banyak tes statistik (t-test, ANOVA, regresi) menganggap data mengikuti distribusi normal atau bahwa rata-rata sampel adalah normal (melalui Teorema Batas Pusat).

Apa itu varians gabungan?

Varians gabungan adalah rata-rata tertimbang dari varians sampel dari dua atau lebih kelompok, yang digunakan dalam t-test dua sampel ketika Anda mengasumsikan varians yang sama di seluruh kelompok._dikumpulkan= [(n1-1) s12 + (n2-1) s22] / (n1 + n2 - 2). Ini menghasilkan perkiraan varians tunggal yang menggabungkan informasi dari kedua sampel, meningkatkan kekuatan statistik ketika asumsi varians yang sama valid.