Thống kê cho khoa học dữ liệu | Bài 11: cơ bản về kiểm định

Kiểm định là gì?

Trong thống kê cho khoa học dữ liệu, đơn giản mà nói thì kiểm định chính là đặt ra giả thuyết. Rồi sau đó dùng số liệu thực tế kiểm tra xem giả thuyết đó là đúng hay sai, có mâu thuẫn gì không.

Ví dụ: ta có một đàn bò 10,000 (mười ngàn) con và ta nói rằng cân nặng trung bình của đàn bò nhà mình là 100kg/con. Tuy nhiên, vì ta chưa bao giờ cân hết cả 10,000 con bò để lấy giá trị trung bình. Do đó, đây chỉ là 1 giả thuyết (hay giả thiết – hai từ này trong kiểm định thống kê đều được dùng với ý nghĩa như nhau).

Việc của kiểm định là kiểm tra xem giả thuyết của ta là đúng hay sai. Việc làm như vậy gọi là kiểm định giả thuyết thống kê (statistical hypothesis test).

Kiểm định là việc quan trọng trong thống kê cho khoa học dữ liệu

>>>> Xem thêm: phân bố T là gì và ứng dụng như thế nào?

Các bước cơ bản về kiểm định trong thống kê

Đơn giản thì kiểm định thống kê gồm 3 bước chính:

  1. Đưa ra giả thuyết (gọi là giả thuyết thống kê)
  2. Quan sát mẫu dựa trên giả thuyết đã đưa ra
  3. Kiểm tra xem giả thuyết trên có mẫu thuẫn gì không

Giả thuyết ban đầu, hay còn gọi là giả thuyết không (null hypothesis), ký hiệu là [math]H_0[/math]. Nếu giả thuyết này sai thì ta sẽ có giả thuyết thay thế (hay giả thuyết đối lập – alternative hypothesis), ký hiệu là [math]H_1[/math].

Cần chú ý ở đây là giả thuyết ban đầu [math]H_0[/math] bị phủ định. Khi đó, chúng ta sẽ chấp nhận giả thuyết [math]H_1[/math]. Đây chính là thứ chúng ta muốn khi làm thống kê.

Nói cách khác, giả thuyết [math]H_1[/math] chính là giả thuyết mà trong đầu ta tin là nó sẽ đúng! 😉😏😌

Cách bác bỏ giả thuyết [math]H_0[/math]

Miền bác bỏ và miền chấp nhận

Nói một cách khó hiểu thì, khi [math]H_0[/math] được thành lập, chúng ta sẽ tiến hành làm thống kê với mẫu số liệu của mình.

Khi số liệu thống kê rơi khoảng mà ở đó khó-có-thể-nói-rằng [math]H_0[/math] là đúng. Khi đó, khoảng này được gọi là miền bác bỏ [math]H_0[/math] (rejection region hay critical region).

Ngược lại, nếu giá trị thống kê lại rơi và khoảng khó có thể nói là [math]H_0[/math] sai, thì khoảng này được gọi là miền chấp nhận [math]H_0[/math] (acceptance region).

Nghe rất khó hiểu phải không? Đừng lo, chỉ cần qua vài ví dụ thì bạn sẽ hiểu ngay thôi! 😝😝

>>>> Xem thêm: Cách ước lượng giá trị trung bình của quần thể

Cách bác bỏ [math]H_0[/math]

Như vậy, làm thế nào để phân chia ranh giới giữa miền bác bỏ và miền chấp nhận trong thống kê cho khoa học dữ liệu?

Khi làm thống kê với mẫu, người ta thường xem xét khả năng xảy ra giả thuyết [math]H_0[/math] tồn tại là bao nhiêu phần trăm. Thường thì xác suất xuất hiện [math]H_0[/math] dưới 5% thì giả thuyết [math]H_0[/math] sẽ bị bác bỏ.

Nói cách khác, khi xác suất xảy ra việc giả thuyết [math]H_0[/math] nằm trong miền loại bỏ mà không phải do tình cờ hay ngẫu nhiên thì ta sẽ bác bỏ giả thuyết [math]H_0[/math]. Sự loại bỏ này là có ý nghĩa (thường gọi là có ý nghĩa thống kê).

Đường ranh giới giữa miền bác bỏ và miền chấp nhận [math]H_0[/math] được gọi là [math]\alpha[/math].

cách xác định miền bác bỏ H0 trong thống kê cho khoa học dữ liệu

cơ bản về kiểm định – Những thứ được kiểm định

Rất rất nhiều thứ được đưa vào kiểm định trong thống kê, hãy xét vài thứ quan trong bên dưới nhé.

Kiểm định tỷ suất

Trong thực tế, có rất nhiều trường hợp sử dụng kiểm định tỷ suất này. Chẳng hạn như:

  • Có sự khác biệt nào giữa tỷ lệ kết hôn và ly hôn của đàn ông trên 30 ở Việt Nam và Đông Nam Á không?
  • Tỷ lệ mua một sản phẩm có tăng lên khi thay đổi chiến dịch marketing hay không?

Kiểm định liên quan trong thống kê cho khoa học dữ liệu

Mối tương quan trong các biến được gọi là sự liên quan (association).

Chẳng hạn như những người học Python thì có đang học một ngôn ngữ lập trình khác không?

Kiểm định giá trị trung bình

Kiểm định giá trị trung bình là một kiểm định rất thường gặp trong thống kê cho khoa học dữ liệu, chẳng hạn như:

  • Độ tuổi trung bình của người dân Hà Nội so với cả nước có khác nhau không?
  • Độ tuổi kết hôn trung bình của Việt Nam có bằng với thế giới không?

Kiểm định phương sai trong thống kê cho khoa học dữ liệu

Kiểm định phương sai chính là xét độ phân tán của hai quần thể có bằng nhau không. Trong nhiều trường hợp và phương pháp thống kê, nếu độ phân tán của quần thể là khác nhau thì sẽ không thể làm kiểm định được, như t-test.

Do đó, kiểm định phương sai là một kiểm định quan trọng cần được xem xét.

>>>> Xem thêm: Tại sao thế hệ gen Y không thấy hạnh phúc?

Related posts

Từ hư không | Sự sống nhân tạo nay đã không còn là viễn tưởng

Liên kết đơn electron đầu tiên được tìm thấy

Thống kê cho khoa học dữ liệu | Bài 10: phân bố t