Skip to main content
🔬 Advanced 🔥 Popular

Máy Tính Độ Lệch Chuẩn

Tính độ lệch chuẩn, phương sai, trung bình và nhiều hơn nữa cho bất kỳ tập dữ liệu nào. Hỗ trợ cả tính toán tổng thể và mẫu. Giải pháp từng bước miễn phí.

Giá trị trung bình lệch chuẩn và tại sao nó quan trọng?

Giá trị trung bình lệch chuẩn đo làm thế nào dữ liệu của bạn phân tán xung quanh giá trị trung bình (trung bình). Một giá trị trung bình lệch chuẩn nhỏ có nghĩa là các giá trị tập trung chặt chẽ xung quanh giá trị trung bình; một giá trị trung bình lệch chuẩn lớn có nghĩa là các giá trị phân tán rộng rãi.

hai tập dữ liệu có thể có trung bình giống nhau nhưng phân phối hoàn toàn khác nhau — giá trị trung bình lệch chuẩn bắt được sự khác biệt đó:

Both có trung bình là 10, nhưng Tập dữ liệu B gần như 10× có biến động hơn. Giá trị trung bình lệch chuẩn làm cho điều này rõ ràng.

Giá trị trung bình lệch chuẩn được ký hiệu σ (sigma) cho một dân số và s cho một mẫu. Nó là căn bậc hai của biến thiên, được biểu thị bằng cùng đơn vị như dữ liệu gốc — làm cho nó dễ hiểu hơn nhiều so với biến thiên đơn thuần.

Ứng dụng trải rộng gần như trong mọi lĩnh vực: kiểm soát chất lượng (các bộ phận được sản xuất đều nằm trong giới hạn cho phép?), tài chính (sự rủi ro đầu tư = độ biến động lợi nhuận), y tế (đọc của bệnh nhân nằm trong 2 SD của bình thường?), giáo dục (các điểm số được phân phối như thế nào?), và phân tích thể thao (sự nhất quán của hiệu suất của một vận động viên?).

Giá trị trung bình lệch chuẩn dân số và mẫu

Chọn quan trọng nhất khi tính giá trị trung bình lệch chuẩn là bạn đang làm việc với một dân số (tất cả các điểm dữ liệu) hoặc một mẫu (một phần). Điều này quyết định công thức và ảnh hưởng đến kết quả.

Giá trị trung bình lệch chuẩn dân số (σ): Sử dụng khi bạn có dữ liệu cho toàn bộ nhóm bạn đang nghiên cứu. Công thức: σ = √[Σ(xᵢ − μ)² / N]

Đó: μ = trung bình dân số, N = số lượng giá trị, Σ = tổng của tất cả các giá trị.

Giá trị trung bình lệch chuẩn mẫu (s): Sử dụng khi dữ liệu của bạn là một mẫu được lấy từ một dân số lớn hơn. Công thức: s = √[Σ(xᵢ − x̄)² / (n−1)]

Đó: x̄ = trung bình mẫu, n = số lượng giá trị trong mẫu, (n−1) = phương pháp Bessel.

Phương pháp Bessel chia cho (n−1) thay vì n vì các mẫu có xu hướng thấp hơn biến thiên thực tế của dân số — đặc biệt là cho các mẫu nhỏ. Sử dụng (n−1) cung cấp một đo lường không thiên vị của biến thiên dân số.

Nên sử dụng?

Cách tính giá trị trung bình lệch chuẩn từng bước

Hãy cùng chúng tôi làm qua một ví dụ hoàn chỉnh với các số thực:

Dữ liệu: Điểm số của 6 học sinh: {72, 85, 91, 68, 79, 88}

Bước 1 — Tìm trung bình: (72 + 85 + 91 + 68 + 79 + 88) / 6 = 483 / 6 = 80,5

Bước 2 — Tìm mỗi sự khác biệt từ trung bình và bình phương nó:

Điểm (xᵢ)Sự khác biệt (xᵢ − x̄)Bình phương (xᵢ − x̄)²
7272 − 80,5 = −8,572,25
8585 − 80,5 = +4,520,25
9191 − 80,5 = +10,5110,25
6868 − 80,5 = −12,5156,25
7979 − 80,5 = −1,52,25
8888 − 80,5 = +7,556,25
Tổng0 (luôn luôn)417,50

Bước 3 — Tính biến thiên: Biến thiên mẫu (n−1) = 417,50 / 5 = 83,50

Bước 4 — Lấy căn bậc hai cho giá trị trung bình lệch chuẩn: s = √83,50 ≈ 9,14

Giải thích: Hầu hết các điểm số đều nằm trong khoảng 9,14 điểm của trung bình 80,5. Khoảng 68% điểm số được dự kiến nằm giữa 71,4 và 89,6 (trung bình ± 1 SD) nếu đây là một dân số phân phối bình thường.

Quy tắc thực nghiệm và phân phối chuẩn

Đối với dữ liệu tuân theo phân phối chuẩn (đường cong hình chuông), Quy tắc thực nghiệm (68-95-99.7) cho biết chính xác bao nhiêu giá trị nằm trong từng khoảng độ lệch chuẩn:

Khoảng giá trịTỷ lệ dữ liệu Ví dụ (trung bình = 100, SD = 15)
Trung bình ± 1 SD~68.27%85 đến 115
Trung bình ± 2 SD~95.45%70 đến 130
Trung bình ± 3 SD~99.73%55 đến 145
Qua ± 3 SD~0.27%Dưới 55 hoặc trên 145

Ứng dụng kinh điển là điểm IQ: trung bình = 100, SD = 15. Điểm IQ là 130 là 2 SD trên trung bình - chỉ khoảng 2,3% người có điểm cao như vậy. Điểm IQ là 145 là 3 SD trên trung bình - khoảng 0,13% người (khoảng 1 trong 750).

Trong kiểm soát chất lượng, tiêu chuẩn Six Sigma yêu cầu quy trình phải có ít hơn 3,4 lỗi trên một triệu cơ hội - tương đương với việc giữ biến động trong ±6 độ lệch chuẩn từ mục tiêu, chỉ để lại 0,00034% tỷ lệ lỗi. Đây là cơ sở thống kê của các chương trình chất lượng sản xuất Six Sigma.

Không phải tất cả dữ liệu đều phân phối chuẩn. Các phân phối thu nhập bị lệch về phía phải (các cá nhân có thu nhập cao rất cao kéo dài phần đuôi phải). Trong các trường hợp như vậy, giá trị trung vị và khoảng giữa bốn phần tư có thể cung cấp thông tin hữu ích hơn giá trị trung bình và độ lệch chuẩn.

Các chỉ số thống kê khác: Trung bình, Trung vị, Độ biến động và hơn nữa

Độ lệch chuẩn có ý nghĩa nhất khi kết hợp với các chỉ số thống kê khác. Đây là cách chúng hoạt động cùng nhau:

Tỷ lệ biến động tiêu chuẩn trong tài chính, khoa học và thể thao

Tỷ lệ biến động có những ý nghĩa cụ thể, thực tế trong các lĩnh vực khác nhau:

Tài chính — Đo lường rủi ro: Tỷ lệ biến động của lợi nhuận = độ biến động = rủi ro. Một cổ phiếu có lợi nhuận 10% hàng năm với SD của 15% có 68% khả năng có lợi nhuận từ -5% đến +25% trong bất kỳ năm nào. S&P 500 lịch sử có SD hàng năm khoảng 15-20%. Các quỹ đầu tư trái phiếu thường có SD từ 3-7%. Hiệu suất được điều chỉnh theo rủi ro (Tỷ số Sharpe) = (lợi nhuận - lãi suất không rủi ro) / SD — cao hơn, tốt hơn.

Khoa học — Kiểm soát chất lượng và đo lường: Các thiết bị phòng thí nghiệm báo cáo các phép đo là trung bình ± SD. Một nhiệt kế đọc 37,2 ± 0,3 ° C có nghĩa là phép đo nằm trong 0,3 ° C của giá trị thực tế với 68% sự tự tin. Trong các thử nghiệm lâm sàng, sự khác biệt thống kê thường được định nghĩa là hiệu ứng điều trị được hơn 2 SDs từ nhóm đối chứng trung bình (p < 0,05).

Thể thao phân tích: Độ tin cậy của cầu thủ được đo bằng SD. Một cầu thủ bóng rổ trung bình 25 điểm mỗi trận với SD của 3 là đáng tin cậy hơn một cầu thủ trung bình 25 điểm với SD của 10. Dự báo thời tiết sử dụng các mô hình đa số nơi SD của dự đoán nhiệt độ chỉ ra sự tự tin — một SD hẹp có nghĩa là các nhà dự báo đồng ý; một SD rộng có nghĩa là không chắc chắn cao.

Giáo dục: Z-scores biểu thị số SD một học sinh điểm là từ trung bình lớp: Z = (điểm - trung bình) / SD. Một Z-score của +2 có nghĩa là điểm 2 SDs trên trung bình — tốt hơn khoảng 97,7% học sinh. Các bài kiểm tra tiêu chuẩn hóa như SAT được thiết kế để điểm số tuân theo phân phối chuẩn, cho phép so sánh phần trăm này.

Câu hỏi thường gặp

Những điểm khác giữa tỉ lệ tiêu chỉ và tỉ lệ phát tán?

Tỉ lệ phát tán là tỉ lệ trung bình của các phát tán từ tỉ lệ trung bình. Tỉ lệ tiêu chỉ là một chỉnh sách của tỉ lệ phát tán. Cả hai đó đo lường phát tán, nhưng tỉ lệ tiêu chỉ làm được trong những đơn vị như nhau như các dữ liệu (dễ hiểu hơn), trong khi tỉ lệ phát tán là trong đơn vị hạn chế. Một bộ dữ liệu chiều cao trong cm có tỉ lệ phát tán trong cm² — không có ý nghĩa. Tỉ lệ tiêu chỉ trong cm là trực tiếp so sánh được với các đo lường ban đầu.

Khi nào tôi nên sử dụng tỉ lệ tiêu chỉ dân cư vs tỉ lệ tiêu chỉ mẫu?

Sử dụng tỉ lệ tiêu chỉ dân cư (σ, chia cho N) khi bạn có dữ liệu cho toàn bộ dân cư bạn đang mô tả — tất cả học sinh trong một lớp học cụ thể, tất cả nhân viên trong một công ty. Sử dụng tỉ lệ tiêu chỉ mẫu (s, chia cho n−1) khi dữ liệu của bạn là một phần của một dân cư lớn hơn và bạn đang ước tính sự biến động của dân cư — một cuộc khảo sát mẫu, các tham gia thử nghiệm lâm sàng, các mẫu kiểm soát chất lượng từ một chuỗi sản xuất.

Những điểm tỉ lệ tiêu chỉ cao hay thấp có nghĩa là gì?

Tỉ lệ tiêu chỉ thấp có nghĩa là các điểm dữ liệu tập trung gần nhau xung quanh trung bình — sự nhất quán, thấp biến động. Tỉ lệ tiêu chỉ cao có nghĩa là dữ liệu được phân tán rộng rãi — biến động cao. Không có gì là tốt hơn; nó phụ thuộc vào ngữ cảnh. Trong sản xuất, tỉ lệ tiêu chỉ thấp được mong muốn (sự nhất quán). Trong các khoản đầu tư, một số nhà đầu tư chấp nhận tỉ lệ tiêu chỉ cao cho lợi nhuận tiềm năng cao hơn.

Những điểm tỉ lệ Z và những điểm liên quan đến tỉ lệ tiêu chỉ?

Tỉ lệ Z đo lường những điểm tiêu chỉ những điểm dữ liệu là từ trung bình: Z = (giá trị − trung bình) / tỉ lệ tiêu chỉ. Tỉ lệ Z = 0 = chính xác trung bình. Z = +1 = 1 tỉ lệ tiêu chỉ trên trung bình (84th phần trăm). Z = −2 = 2 tỉ lệ tiêu chỉ dưới trung bình (2.3 phần trăm). Tỉ lệ Z cho phép so sánh các giá trị từ các bộ dữ liệu khác nhau với các thang đo khác nhau.

Những điểm tỉ lệ sai số và những điểm khác biệt so với tỉ lệ tiêu chỉ?

Tỉ lệ tiêu chỉ mô tả sự phân tán của các điểm dữ liệu riêng lẻ. Tỉ lệ sai số của trung bình (SEM = tỉ lệ tiêu chỉ / √n) mô tả độ chính xác của trung bình mẫu như một ước tính của trung bình dân cư thực sự. Khi kích thước mẫu tăng lên, SEM giảm đi (dữ liệu nhiều hơn = ước tính chính xác hơn), nhưng tỉ lệ tiêu chỉ không nhất thiết phải thay đổi. SEM được sử dụng trong các khoảng tin cậy; tỉ lệ tiêu chỉ mô tả sự phân tán của dữ liệu bản thân.

Có thể tỉ lệ tiêu chỉ âm không?

Không. Tỉ lệ tiêu chỉ luôn là 0 hoặc dương. Nó bằng 0 chỉ khi tất cả các giá trị dữ liệu đều giống nhau (không có biến động nào). Vì nó được tính toán như một căn bậc hai của tổng bình phương, nó không thể âm. Tỉ lệ tiêu chỉ âm hoặc tiêu chỉ âm sẽ chỉ ra một lỗi tính toán.

Những điểm dữ liệu ngoại vi ảnh hưởng đến tỉ lệ tiêu chỉ?

Dữ liệu ngoại vi có thể làm cho tỉ lệ tiêu chỉ tăng lên đáng kể vì các phát tán được bình phương hóa — các phát tán lớn từ trung bình đóng góp không cân xứng. Ví dụ, trong {10, 11, 10, 12, 100}: xóa dữ liệu ngoại vi (100) làm cho tỉ lệ tiêu chỉ từ ~38 đến ~0,9. Khi có dữ liệu ngoại vi, trung bình và khoảng IQR (IQR) là các biện pháp ổn định hơn về trung bình và sự phân tán.

Những điểm tỉ lệ tiêu chỉ bằng 0 có nghĩa là gì?

Tỉ lệ tiêu chỉ bằng 0 có nghĩa là tất cả các giá trị trong bộ dữ liệu đều giống nhau — không có biến động nào. Ví dụ, {5, 5, 5, 5, 5} có trung bình = 5 và tỉ lệ tiêu chỉ = 0. Điều này xảy ra trong các bộ dữ liệu nhân tạo hoặc các bộ dữ liệu bị hạn chế. Trong các bộ dữ liệu thực tế, tỉ lệ tiêu chỉ = 0 thường chỉ ra lỗi thu thập dữ liệu hoặc các đo lường giống nhau.