Trong bài one sample Z-test trước ta đã xem xét trung bình của 1 mẫu so với quần thể. Bài two sample Z-test này sẽ giúp chúng ta kiểm tra xem giá trị trung bình của hai quần thể có liên quan với nhau như thế nào.
Mục lục bài viết
Điều kiện để thực hiện kiểm định Z hai mẫu
Cũng giống như kiểm định 1 mẫu, điều kiện để làm kiểm định 2 mẫu sẽ là:
- Dữ liệu của cả hai quần thể phải liên tục
- Mẫu của mỗi quần thể phải được lấy ngẫu nhiên
- Mẫu trong mỗi quần thể phải tuân theo phân bố chuẩn
- Phương sai hay độ lệch chuẩn của quần thể phải biết trước
Về cách lấy mẫu, các bạn có thể tham khảo thêm trong bài 1 của series thống kê cho khoa học dữ liệu này.
Công thức tính two sample z-test
Đặt giả thuyết thống kê
Cũng giống như bài trước, giả thuyết thống kê sẽ được đặt tùy vào mục đích và nhu cầu của người làm kiểm định.
Do đó, ta sẽ có kiểm định 2 bên (two tail) hay kiểm định 1 bên (one tail).
Điểm khác biệt ở đây là: thay vì so sánh với giá trị của cả quần thể, ta sẽ so sánh hai giá trị của hai mẫu với nhau.
So sánh hai giá trị trung bình
Công thức tính hệ số [math]z[/math] để so sánh hai giá trị trung bình của mẫu như sau:
[math]z=\frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}[/math]
Trong đó:
- [math]\bar{x_1}[/math] và [math]\bar{x_2}[/math] lần lượt là giá trị trung bình của mẫu được lấy ngẫu nhiên từ 2 quần thể (có giá trị trung bình là [math]\mu_1[/math] và [math]\mu_2[/math])
- [math]\sigma_1[/math] và [math]\sigma_2[/math] là độ lệch chuẩn của quần thể 1 và quần thể 2
- [math]n_1[/math] và [math]n_2[/math] là số lượng cá thể của 2 mẫu trích xuất
So sánh hai tỷ lệ
Xét 2 mẫu trích xuất ngẫu nhiên từ 2 quần thể có tỷ lệ lần lần lượt là [math]p_1[/math] và [math]p_2[/math] và có số lượng là [math]n_1[/math] và [math]n_2[/math]. Ta có thể tính hệ số [math]z[/math] để so sánh 2 tỷ lệ này như sau:
[math]z =\frac{p_1-p_2}{\sqrt{p(1-p)(\frac{1}{n_1}+\frac{1}{n_2})}}[/math]
với [math]p=\frac{n_1p_1+n_2p_2}{n_1+n_2}[/math]
Công thức nhìn thì có vẽ phức tạp, nhưng sau này chúng ta sẽ dùng python để tính toán nên không có gì phải ngại 😅😅😅
Ví dụ về việc sử dụng two sample z-test
Để hiểu rõ hơn, ta hãy cùng nhau xem xét ví dụ sau nhé.
Sử dụng kiểm định Z hai mẫu để so sánh giá trị trung bình
Giả sử rằng IQ của dân số quốc gia Y tuân theo phân bố chuẩn và có độ lệch chuẩn là 15.
Bạn muốn biết giá trị IQ trung bình của thành phố A và B có khác nhau không. Bạn tiến hành thu thập dữ liệu IQ ngẫu nhiên của 20 người dân trong mỗi thành phố.
Kết quả thu được là giá trị IQ trung bình dân dân thành phố A là 100.65, thành phố B là 108.8
Với độ tin cậy 95% thì giá trị IQ của thành phố A và B có khác nhau không?
Bước 1: thu thập số liệu
- [math]\bar{x_A} = 100.65[/math]
- [math]n_A = 20[/math]
- [math]\bar{x_B} = 108.8[/math]
- [math]n_B = 20[/math]
- CI = 95%, do đó [math]\alpha = 0.05[/math]
- Độ lệch chuẩn của quần thể [math]\sigma = 20[/math]
Bước 2: Thành lập giả thuyết
Do đề bài yêu câu là có sự khác nhau giữa hai thành phố hay không, nên ta sẽ sử dụng two sample z-test 2 đuôi với giả thuyết như sau:
- [math]H_0: \mu_A = \mu_B[/math] (không có sự khác biệt về IQ giữa hai thành phố)
- [math]H_1: \mu_A \ne \mu_B[/math] (có sự khác biệt về IQ giữa hai thành phố)
Bước 3: Tính toán giá trị z từ công thức
[math]z=\frac{100.65-108.8}{\sqrt{\frac{15^2}{20}+\frac{15^2}{20}}}=-1.718[/math]
Bước 4: So sánh giá trị z tính toán với giá trị [math]z_{\alpha}[/math]
Vì ta làm kiểm định z-test 2 đuôi nên ta sẽ so sánh giá trị [math]z[/math] tính toán được so với giá trị [math]z_{\alpha/2}[/math].
Ta thấy [math]z = -1.718[/math] nằm trong khoảng -1.96 đến 1.96 của [math]z_{\alpha/2}[/math] nên ta chấp nhận giả thuyết [math]H_0[/math].
Bước 5: rút ra kết luận
Từ đó ta có kết luận là: không có sự khác biệt về chỉ số IQ giữa thành phố A và B.
Sử dụng two sample z-test để so sánh hai tỷ lệ
Giả sử bạn muốn nghiên cứu việc sử dụng app báo thức trên điện thoại di động của thanh niên (18-25) và người trưởng thành (>25). Bạn khảo sát ngẫu nhiên một nhóm người và kết quả thu được như sau:
Sử dụng app báo thức trên điện thoại | Thanh niên | Người trưởng thành |
Có | 70 | 150 |
Không | 30 | 150 |
Tổng cộng | 100 | 300 |
Giả sử tất cả các điều kiện để làm kiểm định Z hai mẫu đều đầy đủ. Vậy có sự khác biệt nào trong tỷ lệ sử dụng báo thức trên điện thoại của thanh niên và người trưởng thành không?
Khoảng tin cậy là 95%.
Việc đầu tiên, thu thập số liệu
- Tỷ lệ thanh niên dùng app báo thức: [math]p_1=70/100 = 0.7[/math]
- Với người trưởng thành, tỷ lệ này là: [math]p_2=150/300 = 0.5[/math]
- Tính toán tỷ lệ chung: [math]p=\frac{0.7\times 100 + 0.5\times 300}{100+300} = 0.55[/math]
- [math]\alpha = 0.05[/math] nên [math]z_{\alpha/2}=1.96[/math]
Bước 2: thành lập giả thuyết
- [math]H_0: p_1 = p_2[/math] (không có sự khác biệt về tỉ lệ dùng app báo thức giữa thanh niên và người trưởng thành)
- [math]H_0: p_1 \ne p_2[/math] (tỷ lệ dùng app báo thức giữa 2 nhóm là khác nhau)
Bước 3: Tính toán
Từ công thức tỉ lệ của two sample z-test trên, ta tính được kết quả:
[math]z =\frac{0.7-0.5}{\sqrt{0.55(1-0.55)(\frac{1}{100}+\frac{1}{300})}}=3.482[/math]
Bước 4: Kết luận
[math]z > z_{\alpha/2}[/math]
Ta loại bỏ giả thuyết [math]H_0[/math]. Kết luận rằng có sự khác biệt giữa tỷ lệ sử dụng điện thoại giữa thanh niên và người trưởng thành.