thống kê cho khdl bài 16 - t-test bắt cặp
Trong lĩnh vực thống kê, t-test bắt cặp (paired t-test) là một phương pháp mạnh mẽ được sử dụng để kiểm định sự khác biệt giữa hai nhóm dữ liệu có liên quan. Phương pháp này đặc biệt hữu ích khi bạn muốn so sánh hai giá trị đo lường từ cùng một nhóm người hoặc đối tượng. Ví dụ như đo lường sức khỏe của một bệnh nhân trước và sau khi điều trị, hoặc đo lường kết quả của một nhóm học sinh trước và sau một khóa học.
Mục lục bài viết
t-test bắt cặp (một số bài gọi là t-test phụ thuộc) hay còn gọi là paired sample t-test, là một kỹ thuật kiểm định thống kê dùng để so sánh giá trị trung bình của hai nhóm liên quan.
Mục tiêu của phương pháp này là kiểm tra xem có sự khác biệt có ý nghĩa thống kê giữa hai nhóm đo lường được thực hiện trên cùng một đối tượng hay không.
Ví dụ, nếu bạn muốn kiểm tra xem liệu một liệu pháp giảm cân có hiệu quả hay không.
Đầu tiên bạn có thể đo cân nặng của các đối tượng trước điều trị. Sau đó tiến hành đo lại cân nặng trên cùng đối tượng sau khi điều trị.
Kiểm định này sẽ giúp bạn xác định xem sự thay đổi này có ý nghĩa thống kê hay chỉ là sự ngẫu nhiên.
Để thực hiện kiểm định t-test này, bạn cần thực hiện các bước tính toán sau:
Chọn mức ý nghĩa [math]\alpha[/math] mong muốn (thường là 0.05)
[math]H_0[/math]: Không có sự khác biệt nào giữa nhóm đo lường
[math]H_1[/math]: Có sự khác biệt có ý nghĩa thống kê giữa 2 nhóm đo lường.
Ở đây tùy vào yêu cầu mà chúng ta cũng có t-test 2 đuôi và 1 đuôi như những kiểm định khác.
Giả sử bạn có hai tập dữ liệu: [math]X_1, X_2, \dots, X_n[/math] và [math]Y_1, Y_2, \dots, Y_n[/math].
Mỗi cặp giá trị [math](X_i, Y_i)[/math] đại diện cho hai lần đo lường trên cùng một đối tượng. Sự khác biệt giữa các cặp giá trị được tính bằng:
[math]D_i = X_i – Y_i[/math]
Tính trung bình của các sự khác biệt:
[math]\bar{D} = \frac{1}{n} \sum_{i=1}^{n} D_i[/math]
Và độ lệch chuẩn của các sự khác biệt:
[math]s_D = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (D_i – \bar{D})^2}[/math]
Giá trị t tới hạn (t-critical) được tính theo công thức sau:
[math]t_c = \frac{\bar{D}}{s_D / \sqrt{n}}[/math]
Trong đó:
Cuối cùng, bạn so sánh giá trị [math]t_c[/math] tính được với giá trị t tới hạn từ bảng phân phối t với bậc tự do là [math]n-1[/math].
Nếu giá trị [math]t_c[/math] tính được vượt qua giá trị t tới hạn, bạn bác bỏ giả thuyết không và kết luận rằng có sự khác biệt có ý nghĩa thống kê giữa hai nhóm.
Giả sử bạn có dữ liệu về huyết áp của 10 bệnh nhân trước và sau khi dùng một loại thuốc. Dưới đây là các số liệu huyết áp của 10 bệnh nhân trước và sau điều trị:
| Bệnh Nhân | Trước Điều Trị | Sau Điều Trị | Sự Khác Biệt (D) |
|---|---|---|---|
| 1 | 140 | 130 | 10 |
| 2 | 150 | 140 | 10 |
| 3 | 160 | 155 | 5 |
| 4 | 145 | 135 | 10 |
| 5 | 170 | 160 | 10 |
| 6 | 155 | 145 | 10 |
| 7 | 160 | 150 | 10 |
| 8 | 150 | 140 | 10 |
| 9 | 165 | 155 | 10 |
| 10 | 180 | 170 | 10 |
Chọn mức ý nghĩa [math]\alpha = 0.05[/math].
Giá trị [math]D[/math] đã được tính ở cột cuối cùng.
Trung bình sự khác biệt:
[math]\bar{D} = \frac{10 + 10 + 5 + 10 + 10 + 10 + 10 + 10 + 10 + 10}{10} = 9[/math]
Độ lệch chuẩn:
[math]s_D = \sqrt{\frac{1}{9} \sum_{i=1}^{10} (D_i – 9)^2} = 1.58[/math]
[math]t_c = \frac{9}{1.58 / \sqrt{10}} = 18.99[/math]
So sánh giá trị [math]t_c[/math] và giá trị t tới hạn từ bảng phân phối t với bậc tự do: [math]d_f=9[/math] (vì có 10 bệnh nhân).
Nếu bạn sử dụng mức ý nghĩa [math]\alpha = 0.05[/math], giá trị t tới hạn là khoảng 2.262.
Vì giá trị [math]t_c =18.99[/math] lớn hơn giá trị t tới hạn 2.262, bạn bác bỏ giả thuyết không và kết luận rằng thuốc có ảnh hưởng đáng kể đến huyết áp của bệnh nhân.
>>>> làm sao xác định mô hình dự đoán có phù hợp với thực tế không? Tìm hiểu ngay nhé!
t-test bắt cặp là một công cụ rất hữu ích để kiểm tra sự khác biệt giữa hai nhóm có liên quan, đặc biệt khi bạn muốn so sánh trước và sau một can thiệp hoặc thay đổi.
Phương pháp này giúp bạn đưa ra các kết luận có căn cứ dựa trên dữ liệu và xác định xem sự khác biệt có thực sự có ý nghĩa thống kê hay không.
Bằng cách áp dụng t-test bắt cặp, bạn có thể kiểm tra giả thuyết của mình một cách chính xác, từ đó hỗ trợ việc đưa ra các quyết định trong nhiều lĩnh vực, từ y tế, giáo dục cho đến nghiên cứu khoa học và công nghiệp.
>>>> Chi squared test là gì? làm sao kiểm định giá trị không phải số?
Để làm được kiểm định này thì dữ liệu của bạn cần tuân thủ theo các điều kiện sau:
Điều kiện về dữ liệu thuộc phân phối chuẩn là rất quan trọng đối với dữ liệu có cỡ mẫu nhỏ (nhỏ hơn 30)
Ví dụ về dữ liệu phân bố chuẩn khi vẽ Q-Q plot (biểu đồ so sánh phân phối chuẩn), ta sẽ được:
Code python thể hiện biểu đồ trên:
import numpy as np
import scipy.stats as stats
import matplotlib.pyplot as plt
# Dữ liệu ví dụ
np.random.seed(1)
data = np.random.normal(loc=0, scale=1, size=30)
n = len(data)
# Sắp xếp dữ liệu
data_sorted = np.sort(data)
# Quantiles lý thuyết từ phân phối chuẩn
theoretical_q = stats.norm.ppf((np.arange(1, n+1) - 0.5) / n)
# Bootstrap để tính dải CI
B = 2000 # số lần bootstrap
simulated = np.random.normal(size=(B, n))
simulated.sort(axis=1)
alpha = 0.05
lower_band = np.percentile(simulated, 100*alpha/2, axis=0)
upper_band = np.percentile(simulated, 100*(1-alpha/2), axis=0)
# Vẽ Q-Q plot
plt.scatter(theoretical_q, data_sorted, color="black", s=20)
plt.plot(theoretical_q, theoretical_q, 'r-') # đường chuẩn
plt.plot(theoretical_q, lower_band, 'r--') # band dưới
plt.plot(theoretical_q, upper_band, 'r--') # band trên
plt.title("Normal Quantile Plot with Bootstrap CI")
plt.xlabel("Theoretical Quantiles")
plt.ylabel("Sample Quantiles")
plt.show() Các nhà nghiên cứu Đại học Tokyo công bố phương pháp tổng hợp kim cương…
Công cụ tìm DNA đã tạo ra một làn sóng đột phá. Giúp giải mã…
Các nhà khoa học đã tạo ra dạng bán dẫn siêu dẫn. Một bước đột…
Kiểm định nhị thức, hay binomial test, là một trong những phép kiểm định xác…
Những người duy trì thói quen đi bộ liên tục từ 10 đến 15 phút…
Trên toàn cầu và trong suốt lịch sử, phụ nữ thường sống thọ hơn đàn…
This website uses cookies.