Trong thống kê cho khoa học dữ liệu, thống kê suy diễn là một phần hết sức quan trọng, giúp chúng ta sử dụng những thông tin giới hạn của dữ liệu mẫu (sample) để suy ra những đặc điểm của quần thể (population). Vì một lý do hết sức đơn giản, chúng ta không thể nào có thể thu thập toàn bộ dữ liệu của dữ liệu cha được.
Mục lục bài viết
Thống kê suy diễn (inferential statistics) giúp chúng ta biết được những đặc tính của quần thể (population) từ những thông tin ít ỏi của dữ liệu mẫu (sample).
Chẳng hạn như, khi tính chiều cao trung bình của tất cả học sinh cấp 1 trên toàn Việt Nam (quần thể), chúng ta không thể nào đo được toàn bộ chiều cao của tất cả học sinh được.
Chúng ta chỉ có thể thu thập một dữ liệu mẫu nhất định và từ đó suy ra cho toàn bộ quần thể. Đó chính là thế mạnh của thống kê suy diễn trong thống kê cho khoa học dữ liệu!
>>> Xem thêm: phương pháp thu thập mẫu số liệu trong thống kê
Như chúng ta đã tìm hiểu ở 7 bài trước (phần 1) thống kê mô tả giúp chúng ta mô tả dữ liệu và có cái nhìn sâu hơn về mẫu dữ liệu của mình.
Sử dụng thống kê mô tả giúp chúng ta xác định được:
Trong khi đó, thống kê suy diễn giúp chúng ta xác định:
Như đã nói ở trên, trong thống kê cho khoa học dữ liệu, thống kê suy diễn có thể dùng để ước lượng và kiểm định một giả thuyết thống kê. Chúng ta sẽ đi sâu vào những phần này trong những bài học sau.
Trong bài này, chúng ta chỉ giới thiệu các khái niệm cơ bản nhất làm nền tảng cho những bài học sau.
Khi trích xuất dữ liệu mẫu từ dữ liệu cha (hay quần thể) và dùng chúng để ước lượng các thông số của dữ liệu cha này, thì chắc chắn sẽ có một sự sai khác giữa những thông số, đó chính là sai số thống kê (sampling error).
Khi thực hiện thống kê suy diễn, chúng ta sẽ ước lượng những thông số này sao cho sai số thống kê nằm trong khoảng chấp nhận được (bằng cách nào, từ từ chúng ta sẽ bàn tới 🙃🙃🙃).
Có hai phương pháp ước lượng phổ biến là ước lượng điểm (point estimate) và ước lượng khoảng (interval estimate).
Ước lượng điểm, như cái tên của nó, là ước lượng tham số của quần thể bằng một thông số của mẫu. Chẳng hạn, chúng ta ước lượng giá trị trung bình của mẫu chính là giá trị trung bình của quần thể đó.
Vì tính chất này mà ước lượng điểm thường không chắc chắn và ít được sử dụng trong thống kê cho khoa học dữ liệu hay trong thực tế.
Ước lượng khoảng giúp bạn đưa ra một khoảng giá trị có thể chứa thông số của quần thể. Thường dùng nhất là khoảng tin cậy (confidence interval).
Khoảng tin cậy (CI) là phạm vi các giá trị có thể chứa đựng một tham số của quần thể. Như đã nói ở trên, khi ước lượng sẽ có sai số thống kê, CI giúp chúng ta làm cho sai số thống kê này nằm trong khoảng chấp nhận được. Mỗi CI sẽ có một độ tin cậy (confidence level).
Độ tin cậy cho bạn biết xác suất (theo phần trăm) mà thông số của quần thể sẽ lại nằm trong khoảng tin cậy khi bạn lặp lại nghiên cứu lần nữa.
Chẳng hạn, khi nói khoảng tin cậy 95% nghĩa là khi bạn lặp lại cùng một thí nghiệm với một mẫu mới 100 lần, thì có 95 lần thông số của quần thể sẽ nằm trong khoảng mà bạn chọn.
Tuy nhiên, khoảng tin cậy không cho biết chính xác thông số của quần thể (vì nó là một khoảng).
Mục đích của việc kiểm định giả thuyết thống kê trong khoa học dữ liệu là để so sánh các quần thể cũng như đánh giá mối quan hệ giữa các biến của quần thể thông qua việc lấy mẫu.
Như đã nói ở trên, việc biết được chính xác thông số của một quần thể là điều không thể thực hiện.
Chính vì thế, để có thể làm được điều này cần dựa vào các mẫu dữ liệu thu thập được từ quần thể trên.
Kiểm định các giả thuyết thống kê được thực hiện thông qua kiểm định thống kê (statistical tests). Các kiểm định này cũng giúp ta đánh giá sai số thống kê và đưa ra những nhận định thích hợp.
Có 2 loại kiểm định, đó là kiểm định có tham số (parametric tests) và kiểm định phi tham số (non-parametric tests). Thông thường thì kiểm định có tham số có hiệu quả hơn vì chúng cho chúng ta đánh giá những ảnh hưởng nếu có.
Kiểm định có tham số cần tuân theo các giả định sau:
Nếu không tuân theo được bất kỳ một trong các giả định trên, ta phải thực hiện kiểm định phi tham số.
Kiểm định phi tham số còn được gọi là “kiểm định không phân phối” (distribution-free tests). Không cần có bất kỳ giả định nào cho loại này.
Kiểm định thống kê có thể được thực hiện dưới một trong ba hình thức:
Trong thống kê cho khoa học dữ liệu, kiểm định so sánh cho biết có hay không sự khác biệt của mean, median, điểm xếp hạng (ranking score) giữa hai hay nhiều nhóm.
Các kiểm định so sánh có thể dùng như bảng sau:
| Kiểm định so sánh | Có thông số hay không? | So sánh cái gì? | Số lượng mẫu |
| t-test | có | mean | 2 |
| ANOVA | có | mean | 3+ |
| Mood’s median | không | median | 2+ |
| Wilcoxon signed-rank | không | phân bố | 2 |
| Wilcoxon rank-sum (Mann-Whitney U) | không | tổng xếp hạng (sums of rankings) | 2 |
| Kruskal-Wallis H | không | xếp hạng mean | 3+ |
Để quyết định nên sử dụng loại kiểm định nào, bạn cần cân nhắc xem dữ liệu của mình có thõa mản yêu cầu như có tham số hay không, số lượng mẫu, thang đo của bạn. (nominal, ordinal, interval, ratio).
Như tên gọi, kiểm định tương quan cho biết mức độ tương quan của hai thông số.
Các loại tương quan bao gồm:
| Tương quan | Có thông số không? | Biến |
| Pearson’s r | có | Nominal/ordinal |
| Spearman’s r | không | Ordinal/interval/ratio |
| Kendell’s r | không | Ordinal/interval/ratio |
| Chi square test of independence | không | Nominal/ordinal |
Hồi quy dùng để kiểm định liệu sự thay đổi của biến dự đoán có ảnh hưởng đến sự thay đổi của biến đầu ra hay không. Tùy vào số lượng biến, loại biến mà ta sử dụng hồi quy cho phù hợp.
Kiểm định hồi quy là một trong những kiểm định thường dùng nhất trong thống kê cho khoa học dữ liệu, đặc biệt là máy học – machine learning – giúp ta dự đoán một kết quả mong muốn.
Kiểm định hồi quy thường dùng gồm có:
| Kiểm định hồi quy | Số lượng biến dự đoán | Số lượng kết quả |
| Hồi quy tuyến tính đơn (simple linear regression) | 1 (interval/ratio) | 1 (interval/ratio) |
| Hồi quy tuyến tính đa biến (multiple linear regression) | 2+ (interval/ratio) | 1 (interval/ratio) |
| Hồi quy logarit (logistic regression) | 1+ (bất cứ loại nào) | 1 (nhị phân: yes/no, nam/nữ,…) |
| Hồi quy nominal | 1+ (bất cứ loại nào) | 1 (nominal) |
| Hồi quy ordinal | 1+ (bất cứ loại nào) | 1 (ordinal) |
Thống kê suy diễn là một khía cạnh quan trong trong thống kê cho khoa học dữ liệu. Nó cho phép chúng ta phân tích những đặc tính của cả quần thể thông qua những mẫu số liệu nhỏ hơn.
Thống kê suy diễn có thể chia ra thành ước lượng và kiểm định. Mỗi loại lại được phân chia thành những loại nhỏ hơn tùy vào mục đích làm thống kê.
Tóm lại, hãy thật giỏi thống kê suy diễn bạn nhé!
Các nhà nghiên cứu Đại học Tokyo công bố phương pháp tổng hợp kim cương…
Công cụ tìm DNA đã tạo ra một làn sóng đột phá. Giúp giải mã…
Các nhà khoa học đã tạo ra dạng bán dẫn siêu dẫn. Một bước đột…
Kiểm định nhị thức, hay binomial test, là một trong những phép kiểm định xác…
Những người duy trì thói quen đi bộ liên tục từ 10 đến 15 phút…
Trên toàn cầu và trong suốt lịch sử, phụ nữ thường sống thọ hơn đàn…
This website uses cookies.