Trong thống kê, Chi-squared test (kiểm định Chi-bình phương) là một trong những phương pháp phổ biến được áp dụng khi ta muốn xem xét sự khác biệt giữa dữ liệu quan sát và dữ liệu kỳ vọng.
Mục lục bài viết
1. Giới thiệu chung về Chi-squared test
Kiểm định Chi-bình phương đặc biệt hữu ích trong các nghiên cứu khoa học xã hội, y học, marketing và giáo dục, khi ta làm việc với dữ liệu phân loại (categorical data). Phương pháp này giúp chúng ta trả lời những câu hỏi như:
- Hai biến phân loại có mối liên hệ với nhau không?
- Phân phối dữ liệu quan sát có phù hợp với phân phối lý thuyết không?

2. Các loại [math]\chi^2[/math] thường dùng
Chi-squared test có nhiều biến thể, nhưng phổ biến nhất có hai dạng:
- Chi-squared test of independence (Kiểm định độc lập)
- Dùng để xem xét mối quan hệ giữa hai biến phân loại trong một bảng chéo (contingency table).
- Ví dụ: Giới tính (nam/nữ) có liên quan đến sở thích uống cà phê/trà hay không.
- Chi-squared goodness of fit test (Kiểm định mức độ phù hợp)
- Dùng để so sánh phân phối quan sát với phân phối kỳ vọng.
- Ví dụ: Số lần xuất hiện của mặt xúc xắc có tuân theo phân phối đồng đều hay không.
Trường hợp này thường dùng để so sánh xem mô hình đưa ra có phù hợp với thực tế hay không.
3. Công thức Chi-squared test
Công thức tính thống kê kiểm định trong Chi-squared test như sau:
[math]\chi^2 = \sum \frac{(O_i – E_i)^2}{E_i}[/math]
Trong đó:
- [math]O_i[/math]: Giá trị quan sát (Observed frequency).
- [math]E_i[/math]: Giá trị kỳ vọng (Expected frequency).
- [math]\chi^2[/math]: Thống kê Chi-bình phương.
Điều kiện áp dụng:
- Các quan sát độc lập với nhau.
- Số lượng quan sát kỳ vọng trong mỗi ô không quá nhỏ (thông thường [math]E_i \geq 5[/math]).
4. Quy trình thực hiện Chi-squared test
Để thực hiện kiểm định Chi-bình phương, ta thường theo các bước sau:
B1: Xác định giả thuyết
[math]H_0[/math]: Không có sự khác biệt hoặc không có mối liên hệ giữa các biến.
[math]H_1[/math]: Có sự khác biệt hoặc có mối liên hệ giữa các biến.
B2: Tính giá trị kỳ vọng (E) trong kiểm định Chi-bình phương:
[math]E_{ij} = \frac{(\text{Tổng hàng i}) \times (\text{Tổng cột j})}{\text{Tổng số quan sát}}[/math]
B3: Tính giá trị [math]\chi^2[/math]:
Áp dụng công thức [math]\chi^2 = \sum \frac{(O – E)^2}{E}[/math]
Xác định bậc tự do (df):
[math]df = (r – 1) \times (c – 1)[/math]
Trong đó: [math]r[/math] = số hàng, [math]c[/math] = số cột.
B4: So sánh với giá trị tới hạn:
Dựa vào bảng phân phối [math]chi^2[/math] và mức ý nghĩa [math]\alpha[/math] (thường là 0.05).
Nếu [math]\chi^2_\text{tính toán} > \chi^2_{bảng}[/math] thì ta bác bỏ [math]H_0[/math].
5. Ví dụ cụ thể về Chi-squared test
Một nhà nghiên cứu muốn kiểm tra xem giới tính (Nam/Nữ) có liên quan đến sở thích uống cà phê hay trà không (với độ tin cậy 95%).
Dữ liệu khảo sát 100 người như sau:
Giới tính | Thích uống cà phê | Thích uống trà | Tổng |
---|---|---|---|
Nam | 35 | 10 | 45 |
Nữ | 20 | 35 | 55 |
Tổng | 55 | 45 | 100 |
Bước 1: Xác định giả thuyết
[math]H_0[/math]: Không có sự liên quan nào giữa giới tính và thức uống.
[math]H_1[/math]: Có mối liên hệ giữa giới tính và thức uống.
Bước 2: Tính giá trị E của chi-squared test
Nam thích uống cà phê:
[math]E = \frac{45 \times 55}{100} = 24.75[/math]
Nam thích uống trà:
[math]E = \frac{45 \times 45}{100} = 20.25[/math]
Nữ thích uống cà phê:
[math]E = \frac{55 \times 55}{100} = 30.25[/math]
Nữ thích uống trà:
[math]E = \frac{55 \times 45}{100} = 24.75[/math]
Ta được bảng kỳ vọng trong kiểm định chi-bình phương sau khi đã tính toán:
Giới tính | Thích uống cà phê (E) | Thích uống trà (E) |
---|---|---|
Nam | 24.75 | 20.25 |
Nữ | 30.25 | 24.75 |
Bước 3: Tính giá trị [math]\chi^2[/math]
Áp dụng công thức [math]\chi^2 = \sum \frac{(O – E)^2}{E}[/math]:
Nam thích uống cà phê:
[math]\frac{(35 – 24.75)^2}{24.75} = 4.24[/math]
Nam thích uống trà:
[math]\frac{(10 – 20.25)^2}{20.25} = 5.18[/math]
Nữ thích uống cà phê:
[math]\frac{(20-30.25)^2}{30.25} = 3.47[/math]
Nữ thích uống trà:
[math]\frac{(35-24.75)^2}{24.75} = 4.24[/math]
Từ đó ta tính được giá trị [math]\chi^2[/math] là:
[math]\chi^2 = 4.24+5.18+3.47+4.24 = 17.13[/math]
Bước 4: Tính bậc tự do (df)
[math]df = (2 – 1) \times (2 – 1) = 1[/math]
Bước 5: So sánh với giá trị tới hạn
Với [math]\alpha = 0.05[/math] ta tìm được giá trị [math]\chi^2_{bảng}= 3.841[/math].
Vì 17.13 > 3.841 nên ta bác bỏ giả thuyết [math]H_0[/math]
Kết luận: Giới tính và sở thích đồ uống có liên quan với nhau.
6. Ứng dụng thực tế của Chi-squared test
- Y học: Kiểm tra mối quan hệ giữa thuốc và hiệu quả điều trị.
- Marketing: Xem quảng cáo có ảnh hưởng đến hành vi mua sắm không.
- Giáo dục: Phân tích sự khác biệt giữa kết quả học tập của các nhóm học sinh.
- Kinh tế – xã hội: Đánh giá mối quan hệ giữa thu nhập và mức độ tiêu dùng.

7. Kết luận
Chi-squared test là một công cụ mạnh mẽ để phân tích dữ liệu phân loại. Bằng cách so sánh dữ liệu quan sát với dữ liệu kỳ vọng, kiểm định Chi-bình phương giúp nhà nghiên cứu đưa ra kết luận khách quan về mối quan hệ giữa các biến.
Nếu bạn đang làm việc với dữ liệu phân loại, đừng quên sử dụng Chi-squared test để có được kết quả phân tích chính xác và khoa học.