Trong phần 2 của bài 3 của series thống kê cho khoa học dữ liệu, chúng ta đã nói về phân phối chuẩn và điểm Z. Trong bài nay, chúng ta sẽ ôn tập một chút về xác suất, công cụ vô cùng mạnh mẽ trong machine learning (máy học) và data science.
Mục lục bài viết
Xác suất thống kê là gì?
Nói đơn giản thì xác suất là khả năng xảy ra một sự kiên khi thực hiện một phép thử. Ở đây có một vài khái niệm cần được làm rõ trước.
Phép thử là khi ta thực hiện một thí nghiệm xác suất. Ví dụ: tung một con xúc xắc là một phép thử.
Sự kiện hay biến cố (event) chính là kết quả của phép thử đó. Ví dụ tung một con xúc xắc được mặt 6. Đây chính là một sự kiện của phép thử tung xúc xắc.
Không gian mẫu (sample space) chính là tập hợp của tất cả các sự kiện có khả năng xảy ra. Ví dụ: trong phép thử tung xúc xác, không gian mẫu sẽ là S = {1, 2, 3, 4, 5, 6} (tất cả các mặt của một con xúc xắc).
Xác suất của sự kiện A, có tần suất xuất hiện là [math]f[/math] lần trong không gian mẫu [math]n[/math] có thể được tính bằng công thức:
[math]Pr(A) = \frac{f}{n}[/math]
Các loại sự kiện xác suất thống kê
Một sự kiện cơ bản có thể được phân thành ba loại như sau:
- Sự kiện chắc chắn: sự kiện luôn luôn xảy ra. Ví dụ: tung đồng xu, sự kiện chắc chắn là đồng xu sẽ hoặc ra mặt sấp, hoặc ra mặt ngửa.
- Sự kiện bất khả: là sự kiện không thể xảy ra. Ví dụ: tung đồng xu, sự kiện bất khả là đồng xu sẽ vừa ra mặt sấp, đồng thời vừa ra mặt ngửa.
- Sự kiện ngẫu nhiên: là sự kiện có thể xảy ra hoặc không. Ví dụ: tung đồng xu ở trên, mặt sấp là một sự kiện ngẫu nhiên vì kết quả có thể ra mặt sấp hoặc không.
Trong cùng một phép thử, các sự kiện cơ bản có thể có những nhân quả như sau:
- Sự kiện xung khắc (mutual exclusive – loại trừ lẫn nhau): Khi một sự kiện xuất hiện thì những sự kiện khác sẽ không thể xuất hiện. Ví dụ: tung một con xúc xắc có không gian mẫu S = {1, 2, 3, 4, 5, 6} thì nếu kết quả là 1 thì những sự kiện khác (kết quả 2, 3, 4, 5, 6) sẽ không thể xuất hiện.
- Sự kiện không xung khắc (non-mutual exclusive – không loại trừ lẫn nhau): Sự xuất hiện của sự kiện này không ảnh hưởng đến sự xuất hiện của sự kiện khác. Ví dụ: một bộ bài tây có 52 lá, bạn có thể rút được vừa lá già và vừa là lá cơ không? chắc chắn, xác suất của nó là 1/52 phải không? Do đó, sự kiện không đối lập là sự kiện có thể đồng thời cùng xuất hiện trong một phép thử.
- Sự kiện hợp (hoặc): sự kiện xảy ra khi có ít nhất một trong các sự kiện con xảy ra. ví dụ: rút 1 lá bài, xác suất để rút được con già hoặc lá cơ là bao nhiêu? Nó sẽ là tổng của xác suất rút được con già là 4/52 = 1/13 (4 lá già trong bộ bài) + xác suất rút được lá cơ là 13/52 = 1/4. Do đó, xác suất sẽ là: 17/52.
- Sự kiện giao (và): sự kiện xảy ra khi các sự kiện con đồng thời xảy ra. ví dụ: rút được lá già cơ sẽ là 1/52 (phải rút được lá già (1/13) x lá cơ (1/4) = 1/52).
- Sự kiện đối: 2 sự kiện không đồng thời xảy ra. kí hiệu của sự kiện đối là của sự kiện [math]A[/math] là [math]\bar{A}[/math] hoặc gọi là sự kiện bù [math]A^C[/math]. Do đó [math]A giao \bar{A}=0[/math]
- Sự kiện độc lập: sự kiện này xảy ra không ảnh hưởng gì đến xác suất xảy ra của sự kiện khác.
>>>> Xem thêm: Thống kê cơ bản cho khoa học dữ liệu, bài 3.2: phân phối chuẩn
Sắp xếp các phần tử trong một tập hợp
Giả sử bạn đi chơi thảo cầm viên và được giao nhiệm vụ thống kê danh sách những loài thú mà bạn nhìn thấy. Sau khi dạo chơi một vòng và bạn tìm thấy được 10 con, đưa vào danh sách sau:
DS = {gà, hà mã, ngựa, voi, cọp, sư tử, khỉ, công, tê giác, heo}
Sau đó, giáo viên yêu cầu bạn từ danh sách DS trên, chọn ra 4 con vật để cho vào một danh sách nhỏ (DSN). Vậy thì có bao nhiêu cách có thể để sắp xếp 4 con vật từ 10 con vật đó? Có hai trường hợp:
Hoán vị (permuation) trong xác suất thống kê
Trường hợp 1: Bạn cứ chọn đại 4 con và cho vào danh sách, để ý đến thứ tự sắp xếp. Như vậy gọi là hoán vị (permuation). Ví dụ:
- DSN1 = {gà, ngựa, voi, cọp}
- DSN2 = (cọp, ngựa, gà, voi}
- …
Ở đây, do có để ý đến thứ tự sắp xếp nên DSN1 khác DNS2. Do đó, số khả năng có thể có sẽ được tính là:
[math]^nP_k=\frac{n!}{(n-k)!}[/math]
Trong đó:
- [math]n[/math] chính là tổng số thú mà bạn có trong DS ban đầu
- [math]k[/math] chính là số thú bạn lấy ra để sắp xếp
Từ đó có thể tính được số cách sắp xếp vào DSN của bạn sẽ là:
[math]^nP_k=\frac{n!}{(n-k)!} = \frac{10!}{(10-4)!} = 5040[/math]
Có tới 5040 cách chọn ra 4 con thú từ 10 con thú bằng cách hoán vị trên.
>>>> Giải ngố: Ánh sáng xanh từ máy tính có thật sự làm bạn mất ngủ?
Tổ hợp (Combination) trong xác suất thống kê
Trường hợp 2: bạn chọn ra 4 con từ danh sách trên, nhưng ở đây KHÔNG phân biệt thứ tự sắp xếp. Do đó:
- DSN1 = {gà, ngựa, voi, cọp}
- DSN2 = (cọp, ngựa, gà, voi}
DSN1 sẽ GIỐNG như DSN2. Và vì thế, số cách sắp xếp của bạn sẽ giảm xuống. Bạn có thể tính được số cách sắp xếp 4 con vật từ 10 con trong trường hợp này bằng phép tổ hợp (combination):
[math]^nC_k=\frac{n!}{k!(n-k)!}[/math]
Trong đó:
- [math]n[/math] chính là tổng số thú mà bạn có trong DS ban đầu
- [math]k[/math] chính là số thú bạn lấy ra để sắp xếp
Từ đó có thể tính được số cách sắp xếp vào DSN của bạn sẽ là:
[math]^nC_k=\frac{n!}{k!(n-k)!} = \frac{10!}{4!(10-4)!} = 210[/math]
Rõ ràng bạn thấy, khi không phân biệt thứ tự sắp xếp thì số cách ta có thể xếp vào giảm đi rất nhiều so với lúc phân biệt. 210 cách so với 5040 cách ở trên.
Video bài giảng số 4 về thống kê cho khoa học dữ liệu
Bonous: đổi hay không đổi – bài toán con dê và xe Mercedes
bài toán này còn có tên gọi là bài toán Monty Hall. Ở Việt Nam, nếu các bạn ngày xưa có xem chương trình Đi tìm ẩn số thì hẳn sẽ quen với bài toán này. Đây là một bài toán thú vị mà mà dân thống kê cho khoa học dữ liệu nên biết.
Trong game show, giả sử bạn là người chơi đến vòng cuối cùng, và có 3 cánh cửa để cho bạn lựa chọn. Trong một cánh cửa sẽ có một chiếc xe Mercedes, trong 2 cánh cửa còn lại sẽ có 2 con dê. Bạn lựa chọn 1 cánh cửa, chẳng hạn, cửa số 1. Sau đó, MC, người biết chắc chắn chiếc xe nằm trong cánh cửa nào sẽ mở ra một cánh cửa. Chẳng hạn, cửa số 3, đó là một con dê. Bây giờ, bạn có một cơ hội để đổi từ cửa số 1 (bạn đã chọn) sang cửa số 2. Liệu bạn sẽ đổi hay vẫn giữ nguyên ở cửa số 1?
Bài toán Monty Hall
Nếu bạn nghĩ cứ giữ nguyên hay đổi thì xác suất vẫn là 50/50 thì bạn đã lầm, và sai lầm này đa số mọi người đều mắc phải (trong đó có cả tui 🤣🤣🤣). Theo thống kê thì nếu bạn lựa chọn đổi cánh cửa thì xác suất để bạn có thể thắng được chiếc xe Mercedes là 2/3 ~ 66.66666%.
Tuy nhiên, để có được xác suất như vậy, chúng ta cần một số giả định sau:
- MC biết chính xác cánh cửa nào sẽ mang lại chiếc xe cho bạn (nếu không biết sao ổng mở được cánh cửa có con dê, phải không?)
- MC phải luôn mở cánh cửa có con dê mà không phải cánh cửa có xe (nếu không thì còn gì là game nữa)
- MC phải cho phép bạn đổi sau khi đã mở ra được một cửa có con dê.
>>>> Xem thêm: hướng dẫn chạy file swf để chơi game flash xưa cũ
Giải thích đơn giản sẽ như thế này:
Trong ba cánh cửa, thì cơ hội cửa 1 (bạn chọn) có xe sẽ là 1/3, trong hai cửa còn lại là 2/3 (1/3 + 1/3). Tiếp theo, MC giúp bạn loại đi một cánh cửa (mở cửa 3) thì bây giờ, nếu bạn giữ cửa 1 thì xác suất vẫn là 1/3, còn chuyển sang cửa 2 thì bạn sẽ có được 2/3 xác suất chiến thắng (vì một cánh cửa đã được MC giúp bạn loại ra).
Cửa 1 | Cửa 2 | Cửa 3 | Kết quả khi không đổi | Kết quả khi đổi cửa |
Dê | Xe | Dê | Dê | Xe |
Dê | Dê | Xe | Dê | Xe |
Xe | Dê | Dê | Xe | Dê |
Bạn thấy đấy, nếu không đổi cửa thì bạn chỉ có 1/3 cơ hội chiến thắng mà thôi. Còn khi thay đổi thì cơ hội chiến thắng của bạn sẽ nhiều gấp đôi. Vậy nên hãy đổi cửa nhé!
Còn nếu trong trường hợp MC mở ra 1 cửa trước rồi bạn mới chọn thì sao? Lúc này xác suất là 50/50 nên chọn cửa nào cũng như nhau cả!