Thống kê cho khoa học dữ liệu | Phần 2: thống kê suy diễn | Bài 8: Những khái niệm cơ bản

Thống kê suy diễn trong thống kê cho khoa học dữ liệu

Thống kê suy diễn (inferential statistics) giúp chúng ta biết được những đặc tính của quần thể (population) từ những thông tin ít ỏi của dữ liệu mẫu (sample).

Chẳng hạn như, khi tính chiều cao trung bình của tất cả học sinh cấp 1 trên toàn Việt Nam (quần thể), chúng ta không thể nào đo được toàn bộ chiều cao của tất cả học sinh được.

Chúng ta chỉ có thể thu thập một dữ liệu mẫu nhất định và từ đó suy ra cho toàn bộ quần thể. Đó chính là thế mạnh của thống kê suy diễn trong thống kê cho khoa học dữ liệu!

thống kê suy diễn trong thống kê cho khoa học dữ liệu

>>> Xem thêm: phương pháp thu thập mẫu số liệu trong thống kê

Thống kê mô tả V.S. thống kê suy diễn

Như chúng ta đã tìm hiểu ở 7 bài trước (phần 1) thống kê mô tả giúp chúng ta mô tả dữ liệu và có cái nhìn sâu hơn về mẫu dữ liệu của mình.

Sử dụng thống kê mô tả giúp chúng ta xác định được:

Trong khi đó, thống kê suy diễn giúp chúng ta xác định:

  • đặc tính của quần thể thông qua giá trị tính toán của mẫu số liệu – Ước lượng (estimation)
  • So sánh các quần thể với nhau thông qua các mẫu số liệu của chúng – Kiểm định (statistical test)

Ứng dụng của thống kê suy diễn

Như đã nói ở trên, trong thống kê cho khoa học dữ liệu, thống kê suy diễn có thể dùng để ước lượng và kiểm định một giả thuyết thống kê. Chúng ta sẽ đi sâu vào những phần này trong những bài học sau.

Trong bài này, chúng ta chỉ giới thiệu các khái niệm cơ bản nhất làm nền tảng cho những bài học sau.

Ước lượng thông số của quần thể từ một mẫu

Khi trích xuất dữ liệu mẫu từ dữ liệu cha (hay quần thể) và dùng chúng để ước lượng các thông số của dữ liệu cha này, thì chắc chắn sẽ có một sự sai khác giữa những thông số, đó chính là sai số thống kê (sampling error).

Khi thực hiện thống kê suy diễn, chúng ta sẽ ước lượng những thông số này sao cho sai số thống kê nằm trong khoảng chấp nhận được (bằng cách nào, từ từ chúng ta sẽ bàn tới 🙃🙃🙃).

Có hai phương pháp ước lượng phổ biến là ước lượng điểm (point estimate)ước lượng khoảng (interval estimate).

Ước lượng điểm

Ước lượng điểm, như cái tên của nó, là ước lượng tham số của quần thể bằng một thông số của mẫu. Chẳng hạn, chúng ta ước lượng giá trị trung bình của mẫu chính là giá trị trung bình của quần thể đó.

Vì tính chất này mà ước lượng điểm thường không chắc chắn và ít được sử dụng trong thống kê cho khoa học dữ liệu hay trong thực tế.

Ước lượng khoảng

Ước lượng khoảng giúp bạn đưa ra một khoảng giá trị có thể chứa thông số của quần thể. Thường dùng nhất là khoảng tin cậy (confidence interval).

Khoảng tin cậy (CI) là phạm vi các giá trị có thể chứa đựng một tham số của quần thể. Như đã nói ở trên, khi ước lượng sẽ có sai số thống kê, CI giúp chúng ta làm cho sai số thống kê này nằm trong khoảng chấp nhận được. Mỗi CI sẽ có một độ tin cậy (confidence level).

Độ tin cậy cho bạn biết xác suất (theo phần trăm) mà thông số của quần thể sẽ lại nằm trong khoảng tin cậy khi bạn lặp lại nghiên cứu lần nữa.

ước lượng mean của quần thể dựa vào mẫu số liệu

Chẳng hạn, khi nói khoảng tin cậy 95% nghĩa là khi bạn lặp lại cùng một thí nghiệm với một mẫu mới 100 lần, thì có 95 lần thông số của quần thể sẽ nằm trong khoảng mà bạn chọn.

Tuy nhiên, khoảng tin cậy không cho biết chính xác thông số của quần thể (vì nó là một khoảng).

>>>> Xem thêm: Cá vàng giờ còn tập trung hơn bạn nhiều!!

Kiểm định giả thuyết thống kê

Mục đích của việc kiểm định giả thuyết thống kê trong khoa học dữ liệu là để so sánh các quần thể cũng như đánh giá mối quan hệ giữa các biến của quần thể thông qua việc lấy mẫu.

Như đã nói ở trên, việc biết được chính xác thông số của một quần thể là điều không thể thực hiện.

Chính vì thế, để có thể làm được điều này cần dựa vào các mẫu dữ liệu thu thập được từ quần thể trên.

mô tả cơ bản về thống kê suy diễn trong khoa học dữ liệu

Kiểm định các giả thuyết thống kê được thực hiện thông qua kiểm định thống kê (statistical tests). Các kiểm định này cũng giúp ta đánh giá sai số thống kê và đưa ra những nhận định thích hợp.

Có 2 loại kiểm định, đó là kiểm định có tham số (parametric tests)kiểm định phi tham số (non-parametric tests). Thông thường thì kiểm định có tham số có hiệu quả hơn vì chúng cho chúng ta đánh giá những ảnh hưởng nếu có.

Kiểm định có tham số cần tuân theo các giả định sau:

  • Mẫu được từ quần thể tuân theo phân phối chuẩn
  • Mẫu phải đủ lớn để phản ánh đúng tính chất của quần thể
  • Các nhóm được so sánh phải có phương sai tương tự nhau.

Nếu không tuân theo được bất kỳ một trong các giả định trên, ta phải thực hiện kiểm định phi tham số.

Kiểm định phi tham số còn được gọi là “kiểm định không phân phối” (distribution-free tests). Không cần có bất kỳ giả định nào cho loại này.

>>>> Xem thêm: Bí quyết trở thành bất kỳ ai bạn muốn

Các loại kiểm định phổ biến trong thống kê cho khoa học dữ liệu

Kiểm định thống kê có thể được thực hiện dưới một trong ba hình thức:

  1. Kiểm định so sánh (comparison tests)
  2. Kiểm định tương quan (Correlation tests)
  3. Kiểm định hồi quy (Regression tests)

Kiểm định so sánh

Trong thống kê cho khoa học dữ liệu, kiểm định so sánh cho biết có hay không sự khác biệt của mean, median, điểm xếp hạng (ranking score) giữa hai hay nhiều nhóm.

Các kiểm định so sánh có thể dùng như bảng sau:

Kiểm định so sánhCó thông số hay không?So sánh cái gì?Số lượng mẫu
t-testmean2
ANOVAmean3+
Mood’s mediankhôngmedian2+
Wilcoxon signed-rankkhôngphân bố2
Wilcoxon rank-sum (Mann-Whitney U)khôngtổng xếp hạng (sums of rankings)2
Kruskal-Wallis Hkhôngxếp hạng mean3+
Bảng lựa chọn test dùng cho kiểm định so sánh

Để quyết định nên sử dụng loại kiểm định nào, bạn cần cân nhắc xem dữ liệu của mình có thõa mản yêu cầu như có tham số hay không, số lượng mẫu, thang đo của bạn. (nominal, ordinal, interval, ratio).

Kiểm định tương quan trong thống kê cho khoa học dữ liệu

Như tên gọi, kiểm định tương quan cho biết mức độ tương quan của hai thông số.

Các loại tương quan bao gồm:

Tương quanCó thông số không?Biến
Pearson’s rNominal/ordinal
Spearman’s rkhôngOrdinal/interval/ratio
Kendell’s rkhôngOrdinal/interval/ratio
Chi square test of independencekhôngNominal/ordinal
Các loại kiểm định tương quan thường sử dụng

Kiểm định hồi quy

Hồi quy dùng để kiểm định liệu sự thay đổi của biến dự đoán có ảnh hưởng đến sự thay đổi của biến đầu ra hay không. Tùy vào số lượng biến, loại biến mà ta sử dụng hồi quy cho phù hợp.

Kiểm định hồi quy là một trong những kiểm định thường dùng nhất trong thống kê cho khoa học dữ liệu, đặc biệt là máy học – machine learning – giúp ta dự đoán một kết quả mong muốn.

Kiểm định hồi quy thường dùng gồm có:

Kiểm định hồi quySố lượng biến dự đoánSố lượng kết quả
Hồi quy tuyến tính đơn (simple linear regression)1 (interval/ratio)1 (interval/ratio)
Hồi quy tuyến tính đa biến (multiple linear regression)2+ (interval/ratio)1 (interval/ratio)
Hồi quy logarit (logistic regression)1+ (bất cứ loại nào)1 (nhị phân: yes/no, nam/nữ,…)
Hồi quy nominal1+ (bất cứ loại nào)1 (nominal)
Hồi quy ordinal1+ (bất cứ loại nào)1 (ordinal)
Những loại kiểm định hồi quy thường dùng

Tổng kết

Thống kê suy diễn là một khía cạnh quan trong trong thống kê cho khoa học dữ liệu. Nó cho phép chúng ta phân tích những đặc tính của cả quần thể thông qua những mẫu số liệu nhỏ hơn.

Thống kê suy diễn có thể chia ra thành ước lượng và kiểm định. Mỗi loại lại được phân chia thành những loại nhỏ hơn tùy vào mục đích làm thống kê.

Tóm lại, hãy thật giỏi thống kê suy diễn bạn nhé!

>>>> Xem thêm: các bài viết về thống kê khác

Related posts

Từ hư không | Sự sống nhân tạo nay đã không còn là viễn tưởng

Thống kê cho khoa học dữ liệu | Bài 11: cơ bản về kiểm định

Liên kết đơn electron đầu tiên được tìm thấy