Cơ bản về kiểm định, hay kiểm định giả thuyết thống kê, là nhà thống kê đặt ra giả thuyết rồi từ dữ liệu thực tế, kiểm tra xem giả thuyết có mâu thuẫn với dữ liệu thực tế đó không.
Mục lục bài viết
Kiểm định là gì?
Trong thống kê cho khoa học dữ liệu, đơn giản mà nói thì kiểm định chính là đặt ra giả thuyết. Rồi sau đó dùng số liệu thực tế kiểm tra xem giả thuyết đó là đúng hay sai, có mâu thuẫn gì không.
Ví dụ: ta có một đàn bò 10,000 (mười ngàn) con và ta nói rằng cân nặng trung bình của đàn bò nhà mình là 100kg/con. Tuy nhiên, vì ta chưa bao giờ cân hết cả 10,000 con bò để lấy giá trị trung bình. Do đó, đây chỉ là 1 giả thuyết (hay giả thiết – hai từ này trong kiểm định thống kê đều được dùng với ý nghĩa như nhau).
Việc của kiểm định là kiểm tra xem giả thuyết của ta là đúng hay sai. Việc làm như vậy gọi là kiểm định giả thuyết thống kê (statistical hypothesis test).
Các bước cơ bản về kiểm định trong thống kê
Đơn giản thì kiểm định thống kê gồm 3 bước chính:
- Đưa ra giả thuyết (gọi là giả thuyết thống kê)
- Quan sát mẫu dựa trên giả thuyết đã đưa ra
- Kiểm tra xem giả thuyết trên có mẫu thuẫn gì không
Giả thuyết ban đầu, hay còn gọi là giả thuyết không (null hypothesis), ký hiệu là [math]H_0[/math]. Nếu giả thuyết này sai thì ta sẽ có giả thuyết thay thế (hay giả thuyết đối lập – alternative hypothesis), ký hiệu là [math]H_1[/math].
Cần chú ý ở đây là giả thuyết ban đầu [math]H_0[/math] bị phủ định. Khi đó, chúng ta sẽ chấp nhận giả thuyết [math]H_1[/math]. Đây chính là thứ chúng ta muốn khi làm thống kê.
Nói cách khác, giả thuyết [math]H_1[/math] chính là giả thuyết mà trong đầu ta tin là nó sẽ đúng! 😉😏😌
Cách bác bỏ giả thuyết [math]H_0[/math]
Miền bác bỏ và miền chấp nhận
Nói một cách khó hiểu thì, khi [math]H_0[/math] được thành lập, chúng ta sẽ tiến hành làm thống kê với mẫu số liệu của mình.
Khi số liệu thống kê rơi khoảng mà ở đó khó-có-thể-nói-rằng [math]H_0[/math] là đúng. Khi đó, khoảng này được gọi là miền bác bỏ [math]H_0[/math] (rejection region hay critical region).
Ngược lại, nếu giá trị thống kê lại rơi và khoảng khó có thể nói là [math]H_0[/math] sai, thì khoảng này được gọi là miền chấp nhận [math]H_0[/math] (acceptance region).
Nghe rất khó hiểu phải không? Đừng lo, chỉ cần qua vài ví dụ thì bạn sẽ hiểu ngay thôi! 😝😝
>>>> Xem thêm: Cách ước lượng giá trị trung bình của quần thể
Cách bác bỏ [math]H_0[/math]
Như vậy, làm thế nào để phân chia ranh giới giữa miền bác bỏ và miền chấp nhận trong thống kê cho khoa học dữ liệu?
Khi làm thống kê với mẫu, người ta thường xem xét khả năng xảy ra giả thuyết [math]H_0[/math] tồn tại là bao nhiêu phần trăm. Thường thì xác suất xuất hiện [math]H_0[/math] dưới 5% thì giả thuyết [math]H_0[/math] sẽ bị bác bỏ.
Nói cách khác, khi xác suất xảy ra việc giả thuyết [math]H_0[/math] nằm trong miền loại bỏ mà không phải do tình cờ hay ngẫu nhiên thì ta sẽ bác bỏ giả thuyết [math]H_0[/math]. Sự loại bỏ này là có ý nghĩa (thường gọi là có ý nghĩa thống kê).
Đường ranh giới giữa miền bác bỏ và miền chấp nhận [math]H_0[/math] được gọi là [math]\alpha[/math].
cơ bản về kiểm định – Những thứ được kiểm định
Rất rất nhiều thứ được đưa vào kiểm định trong thống kê, hãy xét vài thứ quan trong bên dưới nhé.
Kiểm định tỷ suất
Trong thực tế, có rất nhiều trường hợp sử dụng kiểm định tỷ suất này. Chẳng hạn như:
- Có sự khác biệt nào giữa tỷ lệ kết hôn và ly hôn của đàn ông trên 30 ở Việt Nam và Đông Nam Á không?
- Tỷ lệ mua một sản phẩm có tăng lên khi thay đổi chiến dịch marketing hay không?
Kiểm định liên quan trong thống kê cho khoa học dữ liệu
Mối tương quan trong các biến được gọi là sự liên quan (association).
Chẳng hạn như những người học Python thì có đang học một ngôn ngữ lập trình khác không?
Kiểm định giá trị trung bình
Kiểm định giá trị trung bình là một kiểm định rất thường gặp trong thống kê cho khoa học dữ liệu, chẳng hạn như:
- Độ tuổi trung bình của người dân Hà Nội so với cả nước có khác nhau không?
- Độ tuổi kết hôn trung bình của Việt Nam có bằng với thế giới không?
Kiểm định phương sai trong thống kê cho khoa học dữ liệu
Kiểm định phương sai chính là xét độ phân tán của hai quần thể có bằng nhau không. Trong nhiều trường hợp và phương pháp thống kê, nếu độ phân tán của quần thể là khác nhau thì sẽ không thể làm kiểm định được, như t-test.
Do đó, kiểm định phương sai là một kiểm định quan trọng cần được xem xét.