Hệ số biến thiên hay coefficient of variation. Chào các bạn, định là sẽ bổ sung vào bài cũ những kiến thức còn thiếu sót của phần thống kê cho khoa học dữ liệu mà mình đã viết trước. Nhưng vì những bài viết đó đã quá dài nên mình lập ra phần SI này (SI = supporting information) nhằm bổ sung lại những phần thiếu sót cũng nhưng cung cấp thêm thông tin giúp chúng ta hiểu sâu hơn về phần thống kê này.
Và vì là SI nên đây sẽ là những bài rất ngắn, cung cấp thông tin về một khái niệm thống kê cụ thể nào đó, giúp chúng ta hiểu sâu hơn về thống kê cho khoa học dữ liệu.
Khái niệm cơ bản trong thống kê cho khoa học dữ liệu
Hệ số biến thiên, tiếng anh là coefficient of variation, cho biết mức độ phân tán của tập dữ liệu xung quanh giá trị mean. Và có thể dùng để so sánh hai tập dữ liệu khác nhau về độ phân tán của các phần tử của những tập dữ liệu này.
Hệ số biến thiên (CV) được tính theo công thức:
[math]CV = \frac{\sigma}{\mu}[/math]
vì chúng ta chia cho mean của dữ liệu, nên giá trị này giúp chuẩn hóa trong việc so sánh các tập dữ liệu với nhau.
>>> Xem thêm: series về thống kê cho khoa học dữ liệu cơ bản
Ứng dụng của Coefficient of variation
Để biết được ứng dụng của hệ số biến thiên trong thống kê cho khoa học dữ liệu, hãy xét ví dụ sau:
Có hai nhà hàng bán cơ tấm sườn bì chả, nhà hàng A có độ ngon trung bình là 80% với độ lệch chuẩn là 10%. Nhà hàng B có độ ngon trung bình là 70% và độ lệch chuẩn là 20%.
Ở đây, khi nói đến độ ngon trung bình tức là cứ 100 thực khách đến nhà hàng A sẽ có 80 người khen nhà hàng A nấu ăn ngon. Tương tự vậy sẽ có 70 thực khách khen nhà hàng B nấu ăn ngon.
Như vậy chúng ta có thể dễ dàng tính hệ số biến thiên của 2 nhà hàng như sau:
Nhà hàng A:
[math]CV_A=\frac{10\%}{80\%}=12.5[/math]
Nhà hàng B:
[math]CV_B=\frac{20\%}{70\%}=28.57[/math]
Do đó, khi so sánh, ta thấy độ biến động về độ ngon của nhà hàng A ít hơn nhà hàng B. Nghĩa là nếu muốn lúc nào cũng ăn ngon thì đến nhà hàng A. Còn khi đến nhà hàng B, có lúc bạn sẽ được ăn ngon hơn, có lúc thức ăn lại tệ hơn (có thể là do tâm trạng của đầu bếp chăng 🤣🤣🤣)
Và đó chính là hệ số biến thiên trong thống kê cho khoa học dữ liệu.
Cảm ơn các bạn đã quan tâm!