Chi-squared test | Series thống kê cho KHDL bài 17

by Ra là thế

1. Giới thiệu chung về Chi-squared test

Kiểm định Chi-bình phương đặc biệt hữu ích trong các nghiên cứu khoa học xã hội, y học, marketing và giáo dục, khi ta làm việc với dữ liệu phân loại (categorical data). Phương pháp này giúp chúng ta trả lời những câu hỏi như:

  • Hai biến phân loại có mối liên hệ với nhau không?
  • Phân phối dữ liệu quan sát có phù hợp với phân phối lý thuyết không?
giới thiệu về kiểm định chi bình phương
giới thiệu về kiểm định chi bình phương

2. Các loại [math]\chi^2[/math] thường dùng

Chi-squared test có nhiều biến thể, nhưng phổ biến nhất có hai dạng:

  1. Chi-squared test of independence (Kiểm định độc lập)
    • Dùng để xem xét mối quan hệ giữa hai biến phân loại trong một bảng chéo (contingency table).
    • Ví dụ: Giới tính (nam/nữ) có liên quan đến sở thích uống cà phê/trà hay không.
  2. Chi-squared goodness of fit test (Kiểm định mức độ phù hợp)
    • Dùng để so sánh phân phối quan sát với phân phối kỳ vọng.
    • Ví dụ: Số lần xuất hiện của mặt xúc xắc có tuân theo phân phối đồng đều hay không.

    3. Công thức Chi-squared test

    Công thức tính thống kê kiểm định trong Chi-squared test như sau:

    [math]\chi^2 = \sum \frac{(O_i – E_i)^2}{E_i}[/math]

    Trong đó:

    • [math]O_i[/math]​: Giá trị quan sát (Observed frequency).
    • [math]E_i[/math]​: Giá trị kỳ vọng (Expected frequency).
    • [math]\chi^2[/math]: Thống kê Chi-bình phương.

    Điều kiện áp dụng:

    • Các quan sát độc lập với nhau.
    • Số lượng quan sát kỳ vọng trong mỗi ô không quá nhỏ (thông thường [math]E_i \geq 5[/math]).

    4. Quy trình thực hiện Chi-squared test

    Để thực hiện kiểm định Chi-bình phương, ta thường theo các bước sau:

    B1: Xác định giả thuyết

    [math]H_0[/math]​: Không có sự khác biệt hoặc không có mối liên hệ giữa các biến.

    [math]H_1[/math]​: Có sự khác biệt hoặc có mối liên hệ giữa các biến.

    B2: Tính giá trị kỳ vọng (E) trong kiểm định Chi-bình phương:

    [math]E_{ij} = \frac{(\text{Tổng hàng i}) \times (\text{Tổng cột j})}{\text{Tổng số quan sát}}[/math]

    B3: Tính giá trị [math]\chi^2[/math]:

    Áp dụng công thức [math]\chi^2 = \sum \frac{(O – E)^2}{E}[/math]

    Xác định bậc tự do (df):

    [math]df = (r – 1) \times (c – 1)[/math]

    Trong đó: [math]r[/math] = số hàng, [math]c[/math] = số cột.

    B4: So sánh với giá trị tới hạn:

    Dựa vào bảng phân phối [math]chi^2[/math] và mức ý nghĩa [math]\alpha[/math] (thường là 0.05).

    Nếu [math]\chi^2_\text{tính toán} > \chi^2_{bảng}[/math] thì ta bác bỏ [math]H_0[/math]​.


    5. Ví dụ cụ thể về Chi-squared test

    Một nhà nghiên cứu muốn kiểm tra xem giới tính (Nam/Nữ) có liên quan đến sở thích uống cà phê hay trà không (với độ tin cậy 95%).

    Dữ liệu khảo sát 100 người như sau:

    Giới tínhThích uống cà phêThích uống tràTổng
    Nam351045
    Nữ203555
    Tổng5545100

    Bước 1: Xác định giả thuyết

    [math]H_0[/math]​: Không có sự liên quan nào giữa giới tính và thức uống.

    [math]H_1[/math]​: Có mối liên hệ giữa giới tính và thức uống.

    Bước 2: Tính giá trị E của chi-squared test

    Nam thích uống cà phê:

    [math]E = \frac{45 \times 55}{100} = 24.75[/math]

    Nam thích uống trà:

    [math]E = \frac{45 \times 45}{100} = 20.25[/math]

    Nữ thích uống cà phê:

    [math]E = \frac{55 \times 55}{100} = 30.25[/math]

    Nữ thích uống trà:

    [math]E = \frac{55 \times 45}{100} = 24.75[/math]

    Ta được bảng kỳ vọng trong kiểm định chi-bình phương sau khi đã tính toán:

    Giới tínhThích uống cà phê (E)Thích uống trà (E)
    Nam24.7520.25
    Nữ30.2524.75

    Bước 3: Tính giá trị [math]\chi^2[/math]

    Áp dụng công thức [math]\chi^2 = \sum \frac{(O – E)^2}{E}[/math]:

    Nam thích uống cà phê:

    [math]\frac{(35 – 24.75)^2}{24.75} = 4.24[/math]

    Nam thích uống trà:

    [math]\frac{(10 – 20.25)^2}{20.25} = 5.18[/math]

    Nữ thích uống cà phê:

    [math]\frac{(20-30.25)^2}{30.25} = 3.47[/math]

    Nữ thích uống trà:

    [math]\frac{(35-24.75)^2}{24.75} = 4.24[/math]

    Từ đó ta tính được giá trị [math]\chi^2[/math] là:

    [math]\chi^2 = 4.24+5.18+3.47+4.24 = 17.13[/math]

    Bước 4: Tính bậc tự do (df)

    [math]df = (2 – 1) \times (2 – 1) = 1[/math]

    Bước 5: So sánh với giá trị tới hạn

    Với [math]\alpha = 0.05[/math] ta tìm được giá trị [math]\chi^2_{bảng}= 3.841[/math].

    Vì 17.13 > 3.841 nên ta bác bỏ giả thuyết [math]H_0[/math]

    Kết luận: Giới tính và sở thích đồ uống có liên quan với nhau.


    6. Ứng dụng thực tế của Chi-squared test

    • Y học: Kiểm tra mối quan hệ giữa thuốc và hiệu quả điều trị.
    • Marketing: Xem quảng cáo có ảnh hưởng đến hành vi mua sắm không.
    • Giáo dục: Phân tích sự khác biệt giữa kết quả học tập của các nhóm học sinh.
    • Kinh tế – xã hội: Đánh giá mối quan hệ giữa thu nhập và mức độ tiêu dùng.
    Ứng dụng của kiểm định chi bình phương
    Ứng dụng của kiểm định chi bình phương

    7. Kết luận

    Chi-squared test là một công cụ mạnh mẽ để phân tích dữ liệu phân loại. Bằng cách so sánh dữ liệu quan sát với dữ liệu kỳ vọng, kiểm định Chi-bình phương giúp nhà nghiên cứu đưa ra kết luận khách quan về mối quan hệ giữa các biến.

    Nếu bạn đang làm việc với dữ liệu phân loại, đừng quên sử dụng Chi-squared test để có được kết quả phân tích chính xác và khoa học.

    Bài viết liên quan

    >>>> Tìm hiểu về t-test bắt cặp

    >>>> Học thống kê từ cơ bản nhất ở đây nhé!

    >>>> Z-test, một kiểm định thống kê khá phổ biến

    You may also like

    Leave a Comment

    Are you sure want to unlock this post?
    Unlock left : 0
    Are you sure want to cancel subscription?
    -
    00:00
    00:00
    Update Required Flash plugin
    -
    00:00
    00:00