Trong phần 2 của bài 3 của series thống kê cho khoa học dữ liệu, chúng ta đã nói về phân phối chuẩn và điểm Z. Trong bài nay, chúng ta sẽ ôn tập một chút về xác suất, công cụ vô cùng mạnh mẽ trong machine learning (máy học) và data science.
Mục lục bài viết
Nói đơn giản thì xác suất là khả năng xảy ra một sự kiên khi thực hiện một phép thử. Ở đây có một vài khái niệm cần được làm rõ trước.
Phép thử là khi ta thực hiện một thí nghiệm xác suất. Ví dụ: tung một con xúc xắc là một phép thử.
Sự kiện hay biến cố (event) chính là kết quả của phép thử đó. Ví dụ tung một con xúc xắc được mặt 6. Đây chính là một sự kiện của phép thử tung xúc xắc.
Không gian mẫu (sample space) chính là tập hợp của tất cả các sự kiện có khả năng xảy ra. Ví dụ: trong phép thử tung xúc xác, không gian mẫu sẽ là S = {1, 2, 3, 4, 5, 6} (tất cả các mặt của một con xúc xắc).
Xác suất của sự kiện A, có tần suất xuất hiện là [math]f[/math] lần trong không gian mẫu [math]n[/math] có thể được tính bằng công thức:
[math]Pr(A) = \frac{f}{n}[/math]
Một sự kiện cơ bản có thể được phân thành ba loại như sau:
Trong cùng một phép thử, các sự kiện cơ bản có thể có những nhân quả như sau:
>>>> Xem thêm: Thống kê cơ bản cho khoa học dữ liệu, bài 3.2: phân phối chuẩn
Giả sử bạn đi chơi thảo cầm viên và được giao nhiệm vụ thống kê danh sách những loài thú mà bạn nhìn thấy. Sau khi dạo chơi một vòng và bạn tìm thấy được 10 con, đưa vào danh sách sau:
DS = {gà, hà mã, ngựa, voi, cọp, sư tử, khỉ, công, tê giác, heo}
Sau đó, giáo viên yêu cầu bạn từ danh sách DS trên, chọn ra 4 con vật để cho vào một danh sách nhỏ (DSN). Vậy thì có bao nhiêu cách có thể để sắp xếp 4 con vật từ 10 con vật đó? Có hai trường hợp:
Trường hợp 1: Bạn cứ chọn đại 4 con và cho vào danh sách, để ý đến thứ tự sắp xếp. Như vậy gọi là hoán vị (permuation). Ví dụ:
Ở đây, do có để ý đến thứ tự sắp xếp nên DSN1 khác DNS2. Do đó, số khả năng có thể có sẽ được tính là:
[math]^nP_k=\frac{n!}{(n-k)!}[/math]
Trong đó:
Từ đó có thể tính được số cách sắp xếp vào DSN của bạn sẽ là:
[math]^nP_k=\frac{n!}{(n-k)!} = \frac{10!}{(10-4)!} = 5040[/math]
Có tới 5040 cách chọn ra 4 con thú từ 10 con thú bằng cách hoán vị trên.
>>>> Giải ngố: Ánh sáng xanh từ máy tính có thật sự làm bạn mất ngủ?
Trường hợp 2: bạn chọn ra 4 con từ danh sách trên, nhưng ở đây KHÔNG phân biệt thứ tự sắp xếp. Do đó:
DSN1 sẽ GIỐNG như DSN2. Và vì thế, số cách sắp xếp của bạn sẽ giảm xuống. Bạn có thể tính được số cách sắp xếp 4 con vật từ 10 con trong trường hợp này bằng phép tổ hợp (combination):
[math]^nC_k=\frac{n!}{k!(n-k)!}[/math]
Trong đó:
Từ đó có thể tính được số cách sắp xếp vào DSN của bạn sẽ là:
[math]^nC_k=\frac{n!}{k!(n-k)!} = \frac{10!}{4!(10-4)!} = 210[/math]
Rõ ràng bạn thấy, khi không phân biệt thứ tự sắp xếp thì số cách ta có thể xếp vào giảm đi rất nhiều so với lúc phân biệt. 210 cách so với 5040 cách ở trên.
bài toán này còn có tên gọi là bài toán Monty Hall. Ở Việt Nam, nếu các bạn ngày xưa có xem chương trình Đi tìm ẩn số thì hẳn sẽ quen với bài toán này. Đây là một bài toán thú vị mà mà dân thống kê cho khoa học dữ liệu nên biết.
Trong game show, giả sử bạn là người chơi đến vòng cuối cùng, và có 3 cánh cửa để cho bạn lựa chọn. Trong một cánh cửa sẽ có một chiếc xe Mercedes, trong 2 cánh cửa còn lại sẽ có 2 con dê. Bạn lựa chọn 1 cánh cửa, chẳng hạn, cửa số 1. Sau đó, MC, người biết chắc chắn chiếc xe nằm trong cánh cửa nào sẽ mở ra một cánh cửa. Chẳng hạn, cửa số 3, đó là một con dê. Bây giờ, bạn có một cơ hội để đổi từ cửa số 1 (bạn đã chọn) sang cửa số 2. Liệu bạn sẽ đổi hay vẫn giữ nguyên ở cửa số 1?
Bài toán Monty Hall
Nếu bạn nghĩ cứ giữ nguyên hay đổi thì xác suất vẫn là 50/50 thì bạn đã lầm, và sai lầm này đa số mọi người đều mắc phải (trong đó có cả tui 🤣🤣🤣). Theo thống kê thì nếu bạn lựa chọn đổi cánh cửa thì xác suất để bạn có thể thắng được chiếc xe Mercedes là 2/3 ~ 66.66666%.
Tuy nhiên, để có được xác suất như vậy, chúng ta cần một số giả định sau:
>>>> Xem thêm: hướng dẫn chạy file swf để chơi game flash xưa cũ
Giải thích đơn giản sẽ như thế này:
Trong ba cánh cửa, thì cơ hội cửa 1 (bạn chọn) có xe sẽ là 1/3, trong hai cửa còn lại là 2/3 (1/3 + 1/3). Tiếp theo, MC giúp bạn loại đi một cánh cửa (mở cửa 3) thì bây giờ, nếu bạn giữ cửa 1 thì xác suất vẫn là 1/3, còn chuyển sang cửa 2 thì bạn sẽ có được 2/3 xác suất chiến thắng (vì một cánh cửa đã được MC giúp bạn loại ra).
| Cửa 1 | Cửa 2 | Cửa 3 | Kết quả khi không đổi | Kết quả khi đổi cửa |
| Dê | Xe | Dê | Dê | Xe |
| Dê | Dê | Xe | Dê | Xe |
| Xe | Dê | Dê | Xe | Dê |
Bạn thấy đấy, nếu không đổi cửa thì bạn chỉ có 1/3 cơ hội chiến thắng mà thôi. Còn khi thay đổi thì cơ hội chiến thắng của bạn sẽ nhiều gấp đôi. Vậy nên hãy đổi cửa nhé!
Còn nếu trong trường hợp MC mở ra 1 cửa trước rồi bạn mới chọn thì sao? Lúc này xác suất là 50/50 nên chọn cửa nào cũng như nhau cả!
Các nhà nghiên cứu Đại học Tokyo công bố phương pháp tổng hợp kim cương…
Công cụ tìm DNA đã tạo ra một làn sóng đột phá. Giúp giải mã…
Các nhà khoa học đã tạo ra dạng bán dẫn siêu dẫn. Một bước đột…
Kiểm định nhị thức, hay binomial test, là một trong những phép kiểm định xác…
Những người duy trì thói quen đi bộ liên tục từ 10 đến 15 phút…
Trên toàn cầu và trong suốt lịch sử, phụ nữ thường sống thọ hơn đàn…
This website uses cookies.