Two sample Z-test | series thống kê cho KHDL bài 13

bài 13. two sample z-test

Trong bài one sample Z-test trước ta đã xem xét trung bình của 1 mẫu so với quần thể. Bài two sample Z-test này sẽ giúp chúng ta kiểm tra xem giá trị trung bình của hai quần thể có liên quan với nhau như thế nào.

Mục lục bài viết

1 Điều kiện để thực hiện kiểm định Z hai mẫu
2 Công thức tính two sample z-test
3 Ví dụ về việc sử dụng two sample z-test
- 3.1 Sử dụng kiểm định Z hai mẫu để so sánh giá trị trung bình
- 3.2 Sử dụng two sample z-test để so sánh hai tỷ lệ

Điều kiện để thực hiện kiểm định Z hai mẫu

Cũng giống như kiểm định 1 mẫu, điều kiện để làm kiểm định 2 mẫu sẽ là:

Dữ liệu của cả hai quần thể phải liên tục
Mẫu của mỗi quần thể phải được lấy ngẫu nhiên
Mẫu trong mỗi quần thể phải tuân theo phân bố chuẩn
Phương sai hay độ lệch chuẩn của quần thể phải biết trước

Về cách lấy mẫu, các bạn có thể tham khảo thêm trong bài 1 của series thống kê cho khoa học dữ liệu này.

Công thức tính two sample z-test

Đặt giả thuyết thống kê

Cũng giống như bài trước, giả thuyết thống kê sẽ được đặt tùy vào mục đích và nhu cầu của người làm kiểm định.

Do đó, ta sẽ có kiểm định 2 bên (two tail) hay kiểm định 1 bên (one tail).

Điểm khác biệt ở đây là: thay vì so sánh với giá trị của cả quần thể, ta sẽ so sánh hai giá trị của hai mẫu với nhau.

Giả thuyết thống kê trong two sample z-test

>>>> Xem thêm: Kiểm định trong thống kê là gì?

So sánh hai giá trị trung bình

Công thức tính hệ số [math]z[/math] để so sánh hai giá trị trung bình của mẫu như sau:

[math]z=\frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}[/math]

Trong đó:

[math]\bar{x_1}[/math] và [math]\bar{x_2}[/math] lần lượt là giá trị trung bình của mẫu được lấy ngẫu nhiên từ 2 quần thể (có giá trị trung bình là [math]\mu_1[/math] và [math]\mu_2[/math])
[math]\sigma_1[/math] và [math]\sigma_2[/math] là độ lệch chuẩn của quần thể 1 và quần thể 2
[math]n_1[/math] và [math]n_2[/math] là số lượng cá thể của 2 mẫu trích xuất

So sánh hai tỷ lệ

Xét 2 mẫu trích xuất ngẫu nhiên từ 2 quần thể có tỷ lệ lần lần lượt là [math]p_1[/math] và [math]p_2[/math] và có số lượng là [math]n_1[/math] và [math]n_2[/math]. Ta có thể tính hệ số [math]z[/math] để so sánh 2 tỷ lệ này như sau:

[math]z =\frac{p_1-p_2}{\sqrt{p(1-p)(\frac{1}{n_1}+\frac{1}{n_2})}}[/math]

với [math]p=\frac{n_1p_1+n_2p_2}{n_1+n_2}[/math]

Công thức nhìn thì có vẽ phức tạp, nhưng sau này chúng ta sẽ dùng python để tính toán nên không có gì phải ngại 😅😅😅

Ví dụ về việc sử dụng two sample z-test

Để hiểu rõ hơn, ta hãy cùng nhau xem xét ví dụ sau nhé.

Sử dụng kiểm định Z hai mẫu để so sánh giá trị trung bình

Giả sử rằng IQ của dân số quốc gia Y tuân theo phân bố chuẩn và có độ lệch chuẩn là 15.

Bạn muốn biết giá trị IQ trung bình của thành phố A và B có khác nhau không. Bạn tiến hành thu thập dữ liệu IQ ngẫu nhiên của 20 người dân trong mỗi thành phố.

Kết quả thu được là giá trị IQ trung bình dân dân thành phố A là 100.65, thành phố B là 108.8

Với độ tin cậy 95% thì giá trị IQ của thành phố A và B có khác nhau không?

>>>> Xem thêm: các loại biến mở rộng trong thống kê

Bước 1: thu thập số liệu

[math]\bar{x_A} = 100.65[/math]
[math]n_A = 20[/math]
[math]\bar{x_B} = 108.8[/math]
[math]n_B = 20[/math]
CI = 95%, do đó [math]\alpha = 0.05[/math]
Độ lệch chuẩn của quần thể [math]\sigma = 20[/math]

Bước 2: Thành lập giả thuyết

Do đề bài yêu câu là có sự khác nhau giữa hai thành phố hay không, nên ta sẽ sử dụng two sample z-test 2 đuôi với giả thuyết như sau:

[math]H_0: \mu_A = \mu_B[/math] (không có sự khác biệt về IQ giữa hai thành phố)
[math]H_1: \mu_A \ne \mu_B[/math] (có sự khác biệt về IQ giữa hai thành phố)

Bước 3: Tính toán giá trị z từ công thức

[math]z=\frac{100.65-108.8}{\sqrt{\frac{15^2}{20}+\frac{15^2}{20}}}=-1.718[/math]

Bước 4: So sánh giá trị z tính toán với giá trị [math]z_{\alpha}[/math]

Vì ta làm kiểm định z-test 2 đuôi nên ta sẽ so sánh giá trị [math]z[/math] tính toán được so với giá trị [math]z_{\alpha/2}[/math].

Ta thấy [math]z = -1.718[/math] nằm trong khoảng -1.96 đến 1.96 của [math]z_{\alpha/2}[/math] nên ta chấp nhận giả thuyết [math]H_0[/math].

Bước 5: rút ra kết luận

Từ đó ta có kết luận là: không có sự khác biệt về chỉ số IQ giữa thành phố A và B.

>>>> Làm cách nào để xác định mức độ phù hợp của một mô hình đưa ra??

Sử dụng two sample z-test để so sánh hai tỷ lệ

Giả sử bạn muốn nghiên cứu việc sử dụng app báo thức trên điện thoại di động của thanh niên (18-25) và người trưởng thành (>25). Bạn khảo sát ngẫu nhiên một nhóm người và kết quả thu được như sau:

Sử dụng app báo thức trên điện thoại	Thanh niên	Người trưởng thành
Có	70	150
Không	30	150
Tổng cộng	100	300

Giả sử tất cả các điều kiện để làm kiểm định Z hai mẫu đều đầy đủ. Vậy có sự khác biệt nào trong tỷ lệ sử dụng báo thức trên điện thoại của thanh niên và người trưởng thành không?

Khoảng tin cậy là 95%.

Việc đầu tiên, thu thập số liệu

Tỷ lệ thanh niên dùng app báo thức: [math]p_1=70/100 = 0.7[/math]
Với người trưởng thành, tỷ lệ này là: [math]p_2=150/300 = 0.5[/math]
Tính toán tỷ lệ chung: [math]p=\frac{0.7\times 100 + 0.5\times 300}{100+300} = 0.55[/math]
[math]\alpha = 0.05[/math] nên [math]z_{\alpha/2}=1.96[/math]

Bước 2: thành lập giả thuyết

[math]H_0: p_1 = p_2[/math] (không có sự khác biệt về tỉ lệ dùng app báo thức giữa thanh niên và người trưởng thành)
[math]H_0: p_1 \ne p_2[/math] (tỷ lệ dùng app báo thức giữa 2 nhóm là khác nhau)

Bước 3: Tính toán

Từ công thức tỉ lệ của two sample z-test trên, ta tính được kết quả:

[math]z =\frac{0.7-0.5}{\sqrt{0.55(1-0.55)(\frac{1}{100}+\frac{1}{300})}}=3.482[/math]

Bước 4: Kết luận

[math]z > z_{\alpha/2}[/math]

Ta loại bỏ giả thuyết [math]H_0[/math]. Kết luận rằng có sự khác biệt giữa tỷ lệ sử dụng điện thoại giữa thanh niên và người trưởng thành.

>>>> Xem các bài viết khác về thống kê ở đây nè!!

>>>> Xem thêm: Thành công tạo ra sự sống nhân tạo

>>>> Xem thêm: hướng dẫn sử dụng csdl NCBI trong tin sinh học

>>>> Mở rộng: Tìm hiểu về one sample t-test

Ra là thế

Chia sẽ những gì góp nhặt được trong cuộc sống. Mỗi ngày trôi qua đều để lại gì đó, điều quan trọng là bạn có chú ý đến nó hay không. “Bạn có hai cách để sống cuộc sống của mình. Một là nghĩ rằng trên đời này chẳng có điều gì là phép màu. Hai là nghĩ rằng mọi thứ đến với bạn đều là phép màu.” – Albert Einstein.