Cập nhật

Two sample Z-test | series thống kê cho KHDL bài 13

Điều kiện để thực hiện kiểm định Z hai mẫu

Cũng giống như kiểm định 1 mẫu, điều kiện để làm kiểm định 2 mẫu sẽ là:

Về cách lấy mẫu, các bạn có thể tham khảo thêm trong bài 1 của series thống kê cho khoa học dữ liệu này.

Công thức tính two sample z-test

Đặt giả thuyết thống kê

Cũng giống như bài trước, giả thuyết thống kê sẽ được đặt tùy vào mục đích và nhu cầu của người làm kiểm định.

Do đó, ta sẽ có kiểm định 2 bên (two tail) hay kiểm định 1 bên (one tail).

Điểm khác biệt ở đây là: thay vì so sánh với giá trị của cả quần thể, ta sẽ so sánh hai giá trị của hai mẫu với nhau.

Giả thuyết thống kê trong two sample z-test

>>>> Xem thêm: Kiểm định trong thống kê là gì?

So sánh hai giá trị trung bình

Công thức tính hệ số [math]z[/math] để so sánh hai giá trị trung bình của mẫu như sau:

[math]z=\frac{\bar{x_1}-\bar{x_2}}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}[/math]

Trong đó:

  • [math]\bar{x_1}[/math] và [math]\bar{x_2}[/math] lần lượt là giá trị trung bình của mẫu được lấy ngẫu nhiên từ 2 quần thể (có giá trị trung bình là [math]\mu_1[/math] và [math]\mu_2[/math])
  • [math]\sigma_1[/math] và [math]\sigma_2[/math] là độ lệch chuẩn của quần thể 1 và quần thể 2
  • [math]n_1[/math] và [math]n_2[/math] là số lượng cá thể của 2 mẫu trích xuất

So sánh hai tỷ lệ

Xét 2 mẫu trích xuất ngẫu nhiên từ 2 quần thể có tỷ lệ lần lần lượt là [math]p_1[/math] và [math]p_2[/math] và có số lượng là [math]n_1[/math] và [math]n_2[/math]. Ta có thể tính hệ số [math]z[/math] để so sánh 2 tỷ lệ này như sau:

[math]z =\frac{p_1-p_2}{\sqrt{p(1-p)(\frac{1}{n_1}+\frac{1}{n_2})}}[/math]

với [math]p=\frac{n_1p_1+n_2p_2}{n_1+n_2}[/math]

Công thức nhìn thì có vẽ phức tạp, nhưng sau này chúng ta sẽ dùng python để tính toán nên không có gì phải ngại 😅😅😅

Ví dụ về việc sử dụng two sample z-test

Để hiểu rõ hơn, ta hãy cùng nhau xem xét ví dụ sau nhé.

Sử dụng kiểm định Z hai mẫu để so sánh giá trị trung bình

Giả sử rằng IQ của dân số quốc gia Y tuân theo phân bố chuẩn và có độ lệch chuẩn là 15.

Bạn muốn biết giá trị IQ trung bình của thành phố A và B có khác nhau không. Bạn tiến hành thu thập dữ liệu IQ ngẫu nhiên của 20 người dân trong mỗi thành phố.

Kết quả thu được là giá trị IQ trung bình dân dân thành phố A là 100.65, thành phố B là 108.8

Với độ tin cậy 95% thì giá trị IQ của thành phố A và B có khác nhau không?

>>>> Xem thêm: các loại biến mở rộng trong thống kê

Bước 1: thu thập số liệu

  • [math]\bar{x_A} = 100.65[/math]
  • [math]n_A = 20[/math]
  • [math]\bar{x_B} = 108.8[/math]
  • [math]n_B = 20[/math]
  • CI = 95%, do đó [math]\alpha = 0.05[/math]
  • Độ lệch chuẩn của quần thể [math]\sigma = 20[/math]

Bước 2: Thành lập giả thuyết

Do đề bài yêu câu là có sự khác nhau giữa hai thành phố hay không, nên ta sẽ sử dụng two sample z-test 2 đuôi với giả thuyết như sau:

  • [math]H_0: \mu_A = \mu_B[/math] (không có sự khác biệt về IQ giữa hai thành phố)
  • [math]H_1: \mu_A \ne \mu_B[/math] (có sự khác biệt về IQ giữa hai thành phố)

Bước 3: Tính toán giá trị z từ công thức

[math]z=\frac{100.65-108.8}{\sqrt{\frac{15^2}{20}+\frac{15^2}{20}}}=-1.718[/math]

Bước 4: So sánh giá trị z tính toán với giá trị [math]z_{\alpha}[/math]

Vì ta làm kiểm định z-test 2 đuôi nên ta sẽ so sánh giá trị [math]z[/math] tính toán được so với giá trị [math]z_{\alpha/2}[/math].

Ta thấy [math]z = -1.718[/math] nằm trong khoảng -1.96 đến 1.96 của [math]z_{\alpha/2}[/math] nên ta chấp nhận giả thuyết [math]H_0[/math].

Bước 5: rút ra kết luận

Từ đó ta có kết luận là: không có sự khác biệt về chỉ số IQ giữa thành phố A và B.

>>>> Làm cách nào để xác định mức độ phù hợp của một mô hình đưa ra??

Sử dụng two sample z-test để so sánh hai tỷ lệ

Giả sử bạn muốn nghiên cứu việc sử dụng app báo thức trên điện thoại di động của thanh niên (18-25) và người trưởng thành (>25). Bạn khảo sát ngẫu nhiên một nhóm người và kết quả thu được như sau:

Sử dụng app báo thức trên điện thoạiThanh niênNgười trưởng thành
Có70150
Không30150
Tổng cộng100300

Giả sử tất cả các điều kiện để làm kiểm định Z hai mẫu đều đầy đủ. Vậy có sự khác biệt nào trong tỷ lệ sử dụng báo thức trên điện thoại của thanh niên và người trưởng thành không?

Khoảng tin cậy là 95%.

Việc đầu tiên, thu thập số liệu

  • Tỷ lệ thanh niên dùng app báo thức: [math]p_1=70/100 = 0.7[/math]
  • Với người trưởng thành, tỷ lệ này là: [math]p_2=150/300 = 0.5[/math]
  • Tính toán tỷ lệ chung: [math]p=\frac{0.7\times 100 + 0.5\times 300}{100+300} = 0.55[/math]
  • [math]\alpha = 0.05[/math] nên [math]z_{\alpha/2}=1.96[/math]

Bước 2: thành lập giả thuyết

  • [math]H_0: p_1 = p_2[/math] (không có sự khác biệt về tỉ lệ dùng app báo thức giữa thanh niên và người trưởng thành)
  • [math]H_0: p_1 \ne p_2[/math] (tỷ lệ dùng app báo thức giữa 2 nhóm là khác nhau)

Bước 3: Tính toán

Từ công thức tỉ lệ của two sample z-test trên, ta tính được kết quả:

[math]z =\frac{0.7-0.5}{\sqrt{0.55(1-0.55)(\frac{1}{100}+\frac{1}{300})}}=3.482[/math]

Bước 4: Kết luận

[math]z > z_{\alpha/2}[/math]

Ta loại bỏ giả thuyết [math]H_0[/math]. Kết luận rằng có sự khác biệt giữa tỷ lệ sử dụng điện thoại giữa thanh niên và người trưởng thành.

>>>> Xem các bài viết khác về thống kê ở đây nè!!

>>>> Xem thêm: Thành công tạo ra sự sống nhân tạo

>>>> Xem thêm: hướng dẫn sử dụng csdl NCBI trong tin sinh học

>>>> Mở rộng: Tìm hiểu về one sample t-test

Ra là thế

Chia sẽ những gì góp nhặt được trong cuộc sống. Mỗi ngày trôi qua đều để lại gì đó, điều quan trọng là bạn có chú ý đến nó hay không. “Bạn có hai cách để sống cuộc sống của mình. Một là nghĩ rằng trên đời này chẳng có điều gì là phép màu. Hai là nghĩ rằng mọi thứ đến với bạn đều là phép màu.” – Albert Einstein.

Recent Posts

Tổng hợp kim cương | Bước tiến mới trong khoa học vật liệu

Các nhà nghiên cứu Đại học Tokyo công bố phương pháp tổng hợp kim cương…

4 weeks ago

Công cụ tìm DNA | Google của bộ gen mở ra kỷ nguyên mới

Công cụ tìm DNA đã tạo ra một làn sóng đột phá. Giúp giải mã…

4 weeks ago

Bán dẫn siêu dẫn | Bước đột phá mới trong công nghệ siêu dẫn

Các nhà khoa học đã tạo ra dạng bán dẫn siêu dẫn. Một bước đột…

4 weeks ago

Kiểm định nhị thức | Series thống kê cho KHDL bài 18

Kiểm định nhị thức, hay binomial test, là một trong những phép kiểm định xác…

2 months ago

Đi bộ mỗi ngày – Bí quyết sống thọ không tốn kém

Những người duy trì thói quen đi bộ liên tục từ 10 đến 15 phút…

2 months ago

Phụ nữ sống thọ | Tiết lộ khoa học vì sao phụ nữ thọ hơn nam giới

Trên toàn cầu và trong suốt lịch sử, phụ nữ thường sống thọ hơn đàn…

2 months ago

This website uses cookies.