🔬 Advanced 🔥 Popular

Máy Tính Độ Lệch Chuẩn

Tính độ lệch chuẩn, phương sai, trung bình và nhiều hơn nữa cho bất kỳ tập dữ liệu nào. Hỗ trợ cả tính toán tổng thể và mẫu. Giải pháp từng bước miễn phí.

Giá trị trung bình lệch chuẩn và tại sao nó quan trọng?

Giá trị trung bình lệch chuẩn đo làm thế nào dữ liệu của bạn phân tán xung quanh giá trị trung bình (trung bình). Một giá trị trung bình lệch chuẩn nhỏ có nghĩa là các giá trị tập trung chặt chẽ xung quanh giá trị trung bình; một giá trị trung bình lệch chuẩn lớn có nghĩa là các giá trị phân tán rộng rãi.

hai tập dữ liệu có thể có trung bình giống nhau nhưng phân phối hoàn toàn khác nhau — giá trị trung bình lệch chuẩn bắt được sự khác biệt đó:

Tập dữ liệu A: {9, 10, 10, 11, 10} — Trung bình = 10, SD ≈ 0,63 (tập trung chặt chẽ)
Tập dữ liệu B: {2, 5, 10, 15, 18} — Trung bình = 10, SD ≈ 5,83 (phân tán rộng)

Both có trung bình là 10, nhưng Tập dữ liệu B gần như 10× có biến động hơn. Giá trị trung bình lệch chuẩn làm cho điều này rõ ràng.

Giá trị trung bình lệch chuẩn được ký hiệu σ (sigma) cho một dân số và s cho một mẫu. Nó là căn bậc hai của biến thiên, được biểu thị bằng cùng đơn vị như dữ liệu gốc — làm cho nó dễ hiểu hơn nhiều so với biến thiên đơn thuần.

Ứng dụng trải rộng gần như trong mọi lĩnh vực: kiểm soát chất lượng (các bộ phận được sản xuất đều nằm trong giới hạn cho phép?), tài chính (sự rủi ro đầu tư = độ biến động lợi nhuận), y tế (đọc của bệnh nhân nằm trong 2 SD của bình thường?), giáo dục (các điểm số được phân phối như thế nào?), và phân tích thể thao (sự nhất quán của hiệu suất của một vận động viên?).

Giá trị trung bình lệch chuẩn dân số và mẫu

Chọn quan trọng nhất khi tính giá trị trung bình lệch chuẩn là bạn đang làm việc với một dân số (tất cả các điểm dữ liệu) hoặc một mẫu (một phần). Điều này quyết định công thức và ảnh hưởng đến kết quả.

Giá trị trung bình lệch chuẩn dân số (σ): Sử dụng khi bạn có dữ liệu cho toàn bộ nhóm bạn đang nghiên cứu. Công thức: σ = √[Σ(xᵢ − μ)² / N]

Đó: μ = trung bình dân số, N = số lượng giá trị, Σ = tổng của tất cả các giá trị.

Giá trị trung bình lệch chuẩn mẫu (s): Sử dụng khi dữ liệu của bạn là một mẫu được lấy từ một dân số lớn hơn. Công thức: s = √[Σ(xᵢ − x̄)² / (n−1)]

Đó: x̄ = trung bình mẫu, n = số lượng giá trị trong mẫu, (n−1) = phương pháp Bessel.

Phương pháp Bessel chia cho (n−1) thay vì n vì các mẫu có xu hướng thấp hơn biến thiên thực tế của dân số — đặc biệt là cho các mẫu nhỏ. Sử dụng (n−1) cung cấp một đo lường không thiên vị của biến thiên dân số.

Nên sử dụng?

Giá trị trung bình lệch chuẩn dân số: Bạn có dữ liệu cho tất cả học sinh trong một lớp; tất cả điểm số của một bài kiểm tra cụ thể; tất cả nhân viên của một công ty cụ thể.
Giá trị trung bình lệch chuẩn mẫu: Bạn đã khảo sát 500 người Mỹ về thu nhập (đánh giá cho tất cả người Mỹ); bạn đã đo 30 widget từ một chu kỳ sản xuất (đánh giá cho tất cả widget); bất kỳ nghiên cứu khoa học nào với một mẫu.

Cách tính giá trị trung bình lệch chuẩn từng bước

Hãy cùng chúng tôi làm qua một ví dụ hoàn chỉnh với các số thực:

Dữ liệu: Điểm số của 6 học sinh: {72, 85, 91, 68, 79, 88}

Bước 1 — Tìm trung bình: (72 + 85 + 91 + 68 + 79 + 88) / 6 = 483 / 6 = 80,5

Bước 2 — Tìm mỗi sự khác biệt từ trung bình và bình phương nó:

Điểm (xᵢ)	Sự khác biệt (xᵢ − x̄)	Bình phương (xᵢ − x̄)²
72	72 − 80,5 = −8,5	72,25
85	85 − 80,5 = +4,5	20,25
91	91 − 80,5 = +10,5	110,25
68	68 − 80,5 = −12,5	156,25
79	79 − 80,5 = −1,5	2,25
88	88 − 80,5 = +7,5	56,25
Tổng	0 (luôn luôn)	417,50

Bước 3 — Tính biến thiên: Biến thiên mẫu (n−1) = 417,50 / 5 = 83,50

Bước 4 — Lấy căn bậc hai cho giá trị trung bình lệch chuẩn: s = √83,50 ≈ 9,14

Giải thích: Hầu hết các điểm số đều nằm trong khoảng 9,14 điểm của trung bình 80,5. Khoảng 68% điểm số được dự kiến nằm giữa 71,4 và 89,6 (trung bình ± 1 SD) nếu đây là một dân số phân phối bình thường.

Quy tắc thực nghiệm và phân phối chuẩn

Đối với dữ liệu tuân theo phân phối chuẩn (đường cong hình chuông), Quy tắc thực nghiệm (68-95-99.7) cho biết chính xác bao nhiêu giá trị nằm trong từng khoảng độ lệch chuẩn:

Khoảng giá trị	Tỷ lệ dữ liệu	Ví dụ (trung bình = 100, SD = 15)
Trung bình ± 1 SD	~68.27%	85 đến 115
Trung bình ± 2 SD	~95.45%	70 đến 130
Trung bình ± 3 SD	~99.73%	55 đến 145
Qua ± 3 SD	~0.27%	Dưới 55 hoặc trên 145

Ứng dụng kinh điển là điểm IQ: trung bình = 100, SD = 15. Điểm IQ là 130 là 2 SD trên trung bình - chỉ khoảng 2,3% người có điểm cao như vậy. Điểm IQ là 145 là 3 SD trên trung bình - khoảng 0,13% người (khoảng 1 trong 750).

Trong kiểm soát chất lượng, tiêu chuẩn Six Sigma yêu cầu quy trình phải có ít hơn 3,4 lỗi trên một triệu cơ hội - tương đương với việc giữ biến động trong ±6 độ lệch chuẩn từ mục tiêu, chỉ để lại 0,00034% tỷ lệ lỗi. Đây là cơ sở thống kê của các chương trình chất lượng sản xuất Six Sigma.

Không phải tất cả dữ liệu đều phân phối chuẩn. Các phân phối thu nhập bị lệch về phía phải (các cá nhân có thu nhập cao rất cao kéo dài phần đuôi phải). Trong các trường hợp như vậy, giá trị trung vị và khoảng giữa bốn phần tư có thể cung cấp thông tin hữu ích hơn giá trị trung bình và độ lệch chuẩn.

Các chỉ số thống kê khác: Trung bình, Trung vị, Độ biến động và hơn nữa

Độ lệch chuẩn có ý nghĩa nhất khi kết hợp với các chỉ số thống kê khác. Đây là cách chúng hoạt động cùng nhau:

Trung bình (trung bình cộng): Tổng các giá trị ÷ số lượng. Dễ bị ảnh hưởng bởi các giá trị ngoại lai - một giá trị cực đoan có thể làm thay đổi đáng kể trung bình.
Trung vị: Giá trị trung gian khi dữ liệu được sắp xếp theo thứ tự. Khá bền vững so với trung bình. Đối với {1, 2, 3, 4, 100}: trung bình = 22, trung vị = 3.
Chỉ số đa số: Giá trị xuất hiện nhiều nhất. Dùng cho dữ liệu phân loại; một tập dữ liệu có thể có nhiều chỉ số đa số hoặc không.
Khoảng giá trị: Giá trị tối đa - giá trị tối thiểu. Dễ dàng nhưng dễ bị ảnh hưởng bởi các giá trị ngoại lai; không mô tả hình dạng phân phối.
Độ biến động (σ² hoặc s²): Là bình phương của độ lệch chuẩn. Dùng trong toán học nhưng khó hiểu hơn vì nó là đơn vị bình phương. Ví dụ: nếu chiều cao là cm, độ biến động là cm² - không có ý nghĩa vật lý.
Độ biến động của hệ số (CV): (Độ lệch chuẩn / trung bình) × 100%. Cho phép so sánh biến động giữa các tập dữ liệu có trung bình khác nhau. Một CV là 10% có nghĩa là độ lệch chuẩn là 10% của trung bình - hữu ích trong tài chính và sinh học.
Độ sai số tiêu chuẩn của trung bình (SEM): Độ lệch chuẩn ÷ √n. Đo độ chính xác của trung bình mẫu như một ước lượng của trung bình dân số. Khi kích thước mẫu tăng lên, SEM giảm - các mẫu lớn hơn cho các ước lượng chính xác hơn.

Tỷ lệ biến động tiêu chuẩn trong tài chính, khoa học và thể thao

Tỷ lệ biến động có những ý nghĩa cụ thể, thực tế trong các lĩnh vực khác nhau:

Tài chính — Đo lường rủi ro: Tỷ lệ biến động của lợi nhuận = độ biến động = rủi ro. Một cổ phiếu có lợi nhuận 10% hàng năm với SD của 15% có 68% khả năng có lợi nhuận từ -5% đến +25% trong bất kỳ năm nào. S&P 500 lịch sử có SD hàng năm khoảng 15-20%. Các quỹ đầu tư trái phiếu thường có SD từ 3-7%. Hiệu suất được điều chỉnh theo rủi ro (Tỷ số Sharpe) = (lợi nhuận - lãi suất không rủi ro) / SD — cao hơn, tốt hơn.

Khoa học — Kiểm soát chất lượng và đo lường: Các thiết bị phòng thí nghiệm báo cáo các phép đo là trung bình ± SD. Một nhiệt kế đọc 37,2 ± 0,3 ° C có nghĩa là phép đo nằm trong 0,3 ° C của giá trị thực tế với 68% sự tự tin. Trong các thử nghiệm lâm sàng, sự khác biệt thống kê thường được định nghĩa là hiệu ứng điều trị được hơn 2 SDs từ nhóm đối chứng trung bình (p < 0,05).

Thể thao phân tích: Độ tin cậy của cầu thủ được đo bằng SD. Một cầu thủ bóng rổ trung bình 25 điểm mỗi trận với SD của 3 là đáng tin cậy hơn một cầu thủ trung bình 25 điểm với SD của 10. Dự báo thời tiết sử dụng các mô hình đa số nơi SD của dự đoán nhiệt độ chỉ ra sự tự tin — một SD hẹp có nghĩa là các nhà dự báo đồng ý; một SD rộng có nghĩa là không chắc chắn cao.

Giáo dục: Z-scores biểu thị số SD một học sinh điểm là từ trung bình lớp: Z = (điểm - trung bình) / SD. Một Z-score của +2 có nghĩa là điểm 2 SDs trên trung bình — tốt hơn khoảng 97,7% học sinh. Các bài kiểm tra tiêu chuẩn hóa như SAT được thiết kế để điểm số tuân theo phân phối chuẩn, cho phép so sánh phần trăm này.

Câu hỏi thường gặp

Những điểm khác giữa tỉ lệ tiêu chỉ và tỉ lệ phát tán?

Tỉ lệ phát tán là tỉ lệ trung bình của các phát tán từ tỉ lệ trung bình. Tỉ lệ tiêu chỉ là một chỉnh sách của tỉ lệ phát tán. Cả hai đó đo lường phát tán, nhưng tỉ lệ tiêu chỉ làm được trong những đơn vị như nhau như các dữ liệu (dễ hiểu hơn), trong khi tỉ lệ phát tán là trong đơn vị hạn chế. Một bộ dữ liệu chiều cao trong cm có tỉ lệ phát tán trong cm² — không có ý nghĩa. Tỉ lệ tiêu chỉ trong cm là trực tiếp so sánh được với các đo lường ban đầu.

Khi nào tôi nên sử dụng tỉ lệ tiêu chỉ dân cư vs tỉ lệ tiêu chỉ mẫu?

Sử dụng tỉ lệ tiêu chỉ dân cư (σ, chia cho N) khi bạn có dữ liệu cho toàn bộ dân cư bạn đang mô tả — tất cả học sinh trong một lớp học cụ thể, tất cả nhân viên trong một công ty. Sử dụng tỉ lệ tiêu chỉ mẫu (s, chia cho n−1) khi dữ liệu của bạn là một phần của một dân cư lớn hơn và bạn đang ước tính sự biến động của dân cư — một cuộc khảo sát mẫu, các tham gia thử nghiệm lâm sàng, các mẫu kiểm soát chất lượng từ một chuỗi sản xuất.

Những điểm tỉ lệ tiêu chỉ cao hay thấp có nghĩa là gì?

Tỉ lệ tiêu chỉ thấp có nghĩa là các điểm dữ liệu tập trung gần nhau xung quanh trung bình — sự nhất quán, thấp biến động. Tỉ lệ tiêu chỉ cao có nghĩa là dữ liệu được phân tán rộng rãi — biến động cao. Không có gì là tốt hơn; nó phụ thuộc vào ngữ cảnh. Trong sản xuất, tỉ lệ tiêu chỉ thấp được mong muốn (sự nhất quán). Trong các khoản đầu tư, một số nhà đầu tư chấp nhận tỉ lệ tiêu chỉ cao cho lợi nhuận tiềm năng cao hơn.

Những điểm tỉ lệ Z và những điểm liên quan đến tỉ lệ tiêu chỉ?

Tỉ lệ Z đo lường những điểm tiêu chỉ những điểm dữ liệu là từ trung bình: Z = (giá trị − trung bình) / tỉ lệ tiêu chỉ. Tỉ lệ Z = 0 = chính xác trung bình. Z = +1 = 1 tỉ lệ tiêu chỉ trên trung bình (84th phần trăm). Z = −2 = 2 tỉ lệ tiêu chỉ dưới trung bình (2.3 phần trăm). Tỉ lệ Z cho phép so sánh các giá trị từ các bộ dữ liệu khác nhau với các thang đo khác nhau.

Những điểm tỉ lệ sai số và những điểm khác biệt so với tỉ lệ tiêu chỉ?

Tỉ lệ tiêu chỉ mô tả sự phân tán của các điểm dữ liệu riêng lẻ. Tỉ lệ sai số của trung bình (SEM = tỉ lệ tiêu chỉ / √n) mô tả độ chính xác của trung bình mẫu như một ước tính của trung bình dân cư thực sự. Khi kích thước mẫu tăng lên, SEM giảm đi (dữ liệu nhiều hơn = ước tính chính xác hơn), nhưng tỉ lệ tiêu chỉ không nhất thiết phải thay đổi. SEM được sử dụng trong các khoảng tin cậy; tỉ lệ tiêu chỉ mô tả sự phân tán của dữ liệu bản thân.

Có thể tỉ lệ tiêu chỉ âm không?

Không. Tỉ lệ tiêu chỉ luôn là 0 hoặc dương. Nó bằng 0 chỉ khi tất cả các giá trị dữ liệu đều giống nhau (không có biến động nào). Vì nó được tính toán như một căn bậc hai của tổng bình phương, nó không thể âm. Tỉ lệ tiêu chỉ âm hoặc tiêu chỉ âm sẽ chỉ ra một lỗi tính toán.

Những điểm dữ liệu ngoại vi ảnh hưởng đến tỉ lệ tiêu chỉ?

Dữ liệu ngoại vi có thể làm cho tỉ lệ tiêu chỉ tăng lên đáng kể vì các phát tán được bình phương hóa — các phát tán lớn từ trung bình đóng góp không cân xứng. Ví dụ, trong {10, 11, 10, 12, 100}: xóa dữ liệu ngoại vi (100) làm cho tỉ lệ tiêu chỉ từ ~38 đến ~0,9. Khi có dữ liệu ngoại vi, trung bình và khoảng IQR (IQR) là các biện pháp ổn định hơn về trung bình và sự phân tán.

Những điểm tỉ lệ tiêu chỉ bằng 0 có nghĩa là gì?

Tỉ lệ tiêu chỉ bằng 0 có nghĩa là tất cả các giá trị trong bộ dữ liệu đều giống nhau — không có biến động nào. Ví dụ, {5, 5, 5, 5, 5} có trung bình = 5 và tỉ lệ tiêu chỉ = 0. Điều này xảy ra trong các bộ dữ liệu nhân tạo hoặc các bộ dữ liệu bị hạn chế. Trong các bộ dữ liệu thực tế, tỉ lệ tiêu chỉ = 0 thường chỉ ra lỗi thu thập dữ liệu hoặc các đo lường giống nhau.