Two sample Z-test | series thống kê cho KHDL bài 13

bài 13. two sample z-test

Điều kiện để thực hiện kiểm định Z hai mẫu

Cũng giống như kiểm định 1 mẫu, điều kiện để làm kiểm định 2 mẫu sẽ là:

Về cách lấy mẫu, các bạn có thể tham khảo thêm trong bài 1 của series thống kê cho khoa học dữ liệu này.

Công thức tính two sample z-test

Đặt giả thuyết thống kê

Cũng giống như bài trước, giả thuyết thống kê sẽ được đặt tùy vào mục đích và nhu cầu của người làm kiểm định.

Do đó, ta sẽ có kiểm định 2 bên (two tail) hay kiểm định 1 bên (one tail).

Điểm khác biệt ở đây là: thay vì so sánh với giá trị của cả quần thể, ta sẽ so sánh hai giá trị của hai mẫu với nhau.

Giả thuyết thống kê trong two sample z-test

>>>> Xem thêm: Kiểm định trong thống kê là gì?

So sánh hai giá trị trung bình

Công thức tính hệ số [math]z[/math] để so sánh hai giá trị trung bình của mẫu như sau:

[math]z=\frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}[/math]

Trong đó:

  • [math]\bar{x_1}[/math] và [math]\bar{x_2}[/math] lần lượt là giá trị trung bình của mẫu được lấy ngẫu nhiên từ 2 quần thể (có giá trị trung bình là [math]\mu_1[/math] và [math]\mu_2[/math])
  • [math]\sigma_1[/math] và [math]\sigma_2[/math] là độ lệch chuẩn của quần thể 1 và quần thể 2
  • [math]n_1[/math] và [math]n_2[/math] là số lượng cá thể của 2 mẫu trích xuất

So sánh hai tỷ lệ

Xét 2 mẫu trích xuất ngẫu nhiên từ 2 quần thể có tỷ lệ lần lần lượt là [math]p_1[/math] và [math]p_2[/math] và có số lượng là [math]n_1[/math] và [math]n_2[/math]. Ta có thể tính hệ số [math]z[/math] để so sánh 2 tỷ lệ này như sau:

[math]z =\frac{p_1-p_2}{\sqrt{p(1-p)(\frac{1}{n_1}+\frac{1}{n_2})}}[/math]

với [math]p=\frac{n_1p_1+n_2p_2}{n_1+n_2}[/math]

Công thức nhìn thì có vẽ phức tạp, nhưng sau này chúng ta sẽ dùng python để tính toán nên không có gì phải ngại 😅😅😅

Ví dụ về việc sử dụng two sample z-test

Để hiểu rõ hơn, ta hãy cùng nhau xem xét ví dụ sau nhé.

Sử dụng kiểm định Z hai mẫu để so sánh giá trị trung bình

Giả sử rằng IQ của dân số quốc gia Y tuân theo phân bố chuẩn và có độ lệch chuẩn là 15.

Bạn muốn biết giá trị IQ trung bình của thành phố A và B có khác nhau không. Bạn tiến hành thu thập dữ liệu IQ ngẫu nhiên của 20 người dân trong mỗi thành phố.

Kết quả thu được là giá trị IQ trung bình dân dân thành phố A là 100.65, thành phố B là 108.8

Với độ tin cậy 95% thì giá trị IQ của thành phố A và B có khác nhau không?

>>>> Xem thêm: các loại biến mở rộng trong thống kê

Bước 1: thu thập số liệu

  • [math]\bar{x_A} = 100.65[/math]
  • [math]n_A = 20[/math]
  • [math]\bar{x_B} = 108.8[/math]
  • [math]n_B = 20[/math]
  • CI = 95%, do đó [math]\alpha = 0.05[/math]
  • Độ lệch chuẩn của quần thể [math]\sigma = 20[/math]

Bước 2: Thành lập giả thuyết

Do đề bài yêu câu là có sự khác nhau giữa hai thành phố hay không, nên ta sẽ sử dụng two sample z-test 2 đuôi với giả thuyết như sau:

  • [math]H_0: \mu_A = \mu_B[/math] (không có sự khác biệt về IQ giữa hai thành phố)
  • [math]H_1: \mu_A \ne \mu_B[/math] (có sự khác biệt về IQ giữa hai thành phố)

Bước 3: Tính toán giá trị z từ công thức

[math]z=\frac{100.65-108.8}{\sqrt{\frac{15^2}{20}+\frac{15^2}{20}}}=-1.718[/math]

Bước 4: So sánh giá trị z tính toán với giá trị [math]z_{\alpha}[/math]

Vì ta làm kiểm định z-test 2 đuôi nên ta sẽ so sánh giá trị [math]z[/math] tính toán được so với giá trị [math]z_{\alpha/2}[/math].

Ta thấy [math]z = -1.718[/math] nằm trong khoảng -1.96 đến 1.96 của [math]z_{\alpha/2}[/math] nên ta chấp nhận giả thuyết [math]H_0[/math].

Bước 5: rút ra kết luận

Từ đó ta có kết luận là: không có sự khác biệt về chỉ số IQ giữa thành phố A và B.

Sử dụng two sample z-test để so sánh hai tỷ lệ

Giả sử bạn muốn nghiên cứu việc sử dụng app báo thức trên điện thoại di động của thanh niên (18-25) và người trưởng thành (>25). Bạn khảo sát ngẫu nhiên một nhóm người và kết quả thu được như sau:

Sử dụng app báo thức trên điện thoạiThanh niênNgười trưởng thành
Có70150
Không30150
Tổng cộng100300

Giả sử tất cả các điều kiện để làm kiểm định Z hai mẫu đều đầy đủ. Vậy có sự khác biệt nào trong tỷ lệ sử dụng báo thức trên điện thoại của thanh niên và người trưởng thành không?

Khoảng tin cậy là 95%.

Việc đầu tiên, thu thập số liệu

  • Tỷ lệ thanh niên dùng app báo thức: [math]p_1=70/100 = 0.7[/math]
  • Với người trưởng thành, tỷ lệ này là: [math]p_2=150/300 = 0.5[/math]
  • Tính toán tỷ lệ chung: [math]p=\frac{0.7\times 100 + 0.5\times 300}{100+300} = 0.55[/math]
  • [math]\alpha = 0.05[/math] nên [math]z_{\alpha/2}=1.96[/math]

Bước 2: thành lập giả thuyết

  • [math]H_0: p_1 = p_2[/math] (không có sự khác biệt về tỉ lệ dùng app báo thức giữa thanh niên và người trưởng thành)
  • [math]H_0: p_1 \ne p_2[/math] (tỷ lệ dùng app báo thức giữa 2 nhóm là khác nhau)

Bước 3: Tính toán

Từ công thức tỉ lệ của two sample z-test trên, ta tính được kết quả:

[math]z =\frac{0.7-0.5}{\sqrt{0.55(1-0.55)(\frac{1}{100}+\frac{1}{300})}}=3.482[/math]

Bước 4: Kết luận

[math]z > z_{\alpha/2}[/math]

Ta loại bỏ giả thuyết [math]H_0[/math]. Kết luận rằng có sự khác biệt giữa tỷ lệ sử dụng điện thoại giữa thanh niên và người trưởng thành.

>>>> Xem các bài viết khác về thống kê ở đây nè!!

Related posts

One sample Z-test | Bài 12 trong series TKCKHDL

Từ hư không | Sự sống nhân tạo nay đã không còn là viễn tưởng

Thống kê cho khoa học dữ liệu | Bài 11: cơ bản về kiểm định