bài 13. two sample z-test
Trong bài one sample Z-test trước ta đã xem xét trung bình của 1 mẫu so với quần thể. Bài two sample Z-test này sẽ giúp chúng ta kiểm tra xem giá trị trung bình của hai quần thể có liên quan với nhau như thế nào.
Mục lục bài viết
Cũng giống như kiểm định 1 mẫu, điều kiện để làm kiểm định 2 mẫu sẽ là:
Về cách lấy mẫu, các bạn có thể tham khảo thêm trong bài 1 của series thống kê cho khoa học dữ liệu này.
Cũng giống như bài trước, giả thuyết thống kê sẽ được đặt tùy vào mục đích và nhu cầu của người làm kiểm định.
Do đó, ta sẽ có kiểm định 2 bên (two tail) hay kiểm định 1 bên (one tail).
Điểm khác biệt ở đây là: thay vì so sánh với giá trị của cả quần thể, ta sẽ so sánh hai giá trị của hai mẫu với nhau.
Công thức tính hệ số [math]z[/math] để so sánh hai giá trị trung bình của mẫu như sau:
[math]z=\frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}[/math]
Trong đó:
Xét 2 mẫu trích xuất ngẫu nhiên từ 2 quần thể có tỷ lệ lần lần lượt là [math]p_1[/math] và [math]p_2[/math] và có số lượng là [math]n_1[/math] và [math]n_2[/math]. Ta có thể tính hệ số [math]z[/math] để so sánh 2 tỷ lệ này như sau:
[math]z =\frac{p_1-p_2}{\sqrt{p(1-p)(\frac{1}{n_1}+\frac{1}{n_2})}}[/math]
với [math]p=\frac{n_1p_1+n_2p_2}{n_1+n_2}[/math]
Công thức nhìn thì có vẽ phức tạp, nhưng sau này chúng ta sẽ dùng python để tính toán nên không có gì phải ngại 😅😅😅
Để hiểu rõ hơn, ta hãy cùng nhau xem xét ví dụ sau nhé.
Giả sử rằng IQ của dân số quốc gia Y tuân theo phân bố chuẩn và có độ lệch chuẩn là 15.
Bạn muốn biết giá trị IQ trung bình của thành phố A và B có khác nhau không. Bạn tiến hành thu thập dữ liệu IQ ngẫu nhiên của 20 người dân trong mỗi thành phố.
Kết quả thu được là giá trị IQ trung bình dân dân thành phố A là 100.65, thành phố B là 108.8
Với độ tin cậy 95% thì giá trị IQ của thành phố A và B có khác nhau không?
Do đề bài yêu câu là có sự khác nhau giữa hai thành phố hay không, nên ta sẽ sử dụng two sample z-test 2 đuôi với giả thuyết như sau:
[math]z=\frac{100.65-108.8}{\sqrt{\frac{15^2}{20}+\frac{15^2}{20}}}=-1.718[/math]
Vì ta làm kiểm định z-test 2 đuôi nên ta sẽ so sánh giá trị [math]z[/math] tính toán được so với giá trị [math]z_{\alpha/2}[/math].
Ta thấy [math]z = -1.718[/math] nằm trong khoảng -1.96 đến 1.96 của [math]z_{\alpha/2}[/math] nên ta chấp nhận giả thuyết [math]H_0[/math].
Từ đó ta có kết luận là: không có sự khác biệt về chỉ số IQ giữa thành phố A và B.
>>>> Làm cách nào để xác định mức độ phù hợp của một mô hình đưa ra??
Giả sử bạn muốn nghiên cứu việc sử dụng app báo thức trên điện thoại di động của thanh niên (18-25) và người trưởng thành (>25). Bạn khảo sát ngẫu nhiên một nhóm người và kết quả thu được như sau:
| Sử dụng app báo thức trên điện thoại | Thanh niên | Người trưởng thành |
| Có | 70 | 150 |
| Không | 30 | 150 |
| Tổng cộng | 100 | 300 |
Giả sử tất cả các điều kiện để làm kiểm định Z hai mẫu đều đầy đủ. Vậy có sự khác biệt nào trong tỷ lệ sử dụng báo thức trên điện thoại của thanh niên và người trưởng thành không?
Khoảng tin cậy là 95%.
Từ công thức tỉ lệ của two sample z-test trên, ta tính được kết quả:
[math]z =\frac{0.7-0.5}{\sqrt{0.55(1-0.55)(\frac{1}{100}+\frac{1}{300})}}=3.482[/math]
[math]z > z_{\alpha/2}[/math]
Ta loại bỏ giả thuyết [math]H_0[/math]. Kết luận rằng có sự khác biệt giữa tỷ lệ sử dụng điện thoại giữa thanh niên và người trưởng thành.
>>>> Xem thêm: hướng dẫn sử dụng csdl NCBI trong tin sinh học
Các nhà nghiên cứu Đại học Tokyo công bố phương pháp tổng hợp kim cương…
Công cụ tìm DNA đã tạo ra một làn sóng đột phá. Giúp giải mã…
Các nhà khoa học đã tạo ra dạng bán dẫn siêu dẫn. Một bước đột…
Kiểm định nhị thức, hay binomial test, là một trong những phép kiểm định xác…
Những người duy trì thói quen đi bộ liên tục từ 10 đến 15 phút…
Trên toàn cầu và trong suốt lịch sử, phụ nữ thường sống thọ hơn đàn…
This website uses cookies.