Trong bài 2 của series thống kê cho khoa học dữ liệu, chúng ta đã tìm hiểu về 2 loại biến định tính, đó là biến nominal và ordinal. Bài này, chúng ta sẽ mở rộng về biến và tìm hiểu kỹ thêm một chút. Đó là cấp độ đo lường (level of measurement) trong thống kê.
Mục lục bài viết
Cấp độ đo lường trong thống kê cho khoa học dữ liệu
Cấp độ đo lường (tiếng anh: level of measurement hay scale of measurement) cho mức độ chính xác của một biến được ghi nhận.
Có 4 cấp độ đo lường được sử dụng trong thống kê cho khoa học dữ liệu, đó là:
- Nominal: Dữ liệu chỉ có thể được phân loại (vd: nam, nữ; đỏ, cam, vàng, lục; bàn, ghế)
- Ordinal: Dữ liệu được phân loại và xếp hạng (vd: trung bình, khá, giỏi; phân loại đánh giá sản phẩm)
- Interval: Dữ liệu được phân loại, xếp hạng, và chia khoảng cách đều nhau (evently spaced) (vd: điểm kiểm tra)
- Ratio: Dữ liệu được phân loại, xếp hạng, chia khoảng cách đều nhau, và có điểm zero (vd: nhóm tuổi, cân nặng)
Mở rộng về biến – Cụ thể hơn về các cấp độ trong thống kê cho khoa học dữ liệu
Từ trên xuống dưới, các cấp độ sau sẽ được phân loại dựa trên cấp được trước và được bổ sung thêm một tính chất nào đó. Việc này giúp cho việc phân loại được cụ thể hơn.
>>>> Xem thêm: Hệ số biến thiên quan trọng như thế nào trong thống kê?
Nominal
Bạn chỉ có thể sắp xếp các dữ liệu vào những nhóm cụ thể, không thể xếp hạng được nhóm nào có hạng cao hơn, nhóm nào tốt hơn nhóm nào.
Thuộc loại này gồm có: màu sắc, giới tính, các hãng xe, tín ngưỡng, các mùa trong năm, v.v.
Ordinal
Trong thống kê cho khoa học dữ liệu, loại này ngoài có thể sắp xếp vào các nhóm khác nhau như nominal, chúng ta còn có thể xếp hạng các nhóm.
Chẳng hạn như: khả năng ngôn ngữ (trung bình, khá, tốt), top 10 của một cái gì đó, cảm nhận về một sản phẩm (rất tệ đến rất tốt)
Mặc dù có thể xếp hạng, nhưng bạn lại không biết được khoảng cách của dữ liệu trong các nhóm với nhau. chẳng hạn, bạn không thể biết được khoảng cách từ tệ đến tốt là bao xa (!?)
>>>> Xem thêm: Để trở thành bất kỳ ai bạn muốn không hề khó khăn
Interval
Giải quyết vấn đề của ordinal, interval giúp cho chia các khoảng cách đều nhau giữa các nhóm.
Ví dụ như điểm kiểm tra, nhiệt độ.
Ở đây, ta biết khoảng cách của mỗi dữ liệu. Chẳng hạn như mỗi nhiệt độ cách nhau 1 độ C.
Tuy nhiên, ta không thể có điểm zero. Điểm zero ở đây nghĩa là không có sự xuất hiện của một nhóm dữ liệu nào đó.
Để hiểu kỹ hơn, hãy xét phần ratio.
Ratio
Khi bảo bạn kiểm tra được 0 điểm. số 0 ở đây vẫn được xem là một dữ liệu. Tuy nhiên, trong thống kê cho khoa học dữ liệu, có những lúc ta hoàn toàn bỏ qua một nhóm dữ liệu nào đó.
Đó chính là lúc ta cần dùng đến cấp độ ratio. Ratio ngoài đặc tính của interval, còn có một đặc tính nổi trội, đó là điểm zero.
Chẳng hạn khi xét nhóm tuổi, Chúng ta có thể chỉ xét nhóm tuổi 0-9, 10-19, 20-29. Chúng ta bỏ qua những nhóm tuổi cao hơn 29 hoặc thấp
Mở rộng về biến – Tại sao cấp độ đo lường lại quan trọng?
Cấp độ bạn sử dụng sẽ quyết định khả năng phân tích dữ liệu của bạn. Cấp độ khác nhau sẽ giúp bạn làm thống kê mô tả với sự chi tiết của dữ liệu khác nhau.
Từ đó bạn sẽ có cái nhìn tổng quát về dữ liệu khác nhau và ảnh hưởng đến phương pháp làm thống kê suy diễn của bạn.
Trong nhiều trường hợp, các biết có thể được đo lường ở các cấp độ khác nhau. Vì thế, khi làm thống kê cho khoa học dữ liệu, bạn nên chọn cấp độ đo lường ngay từ đầu.
>>>> Xem thêm: những thứ cơ bản nhất trong thống kê bạn nên biết
Khi làm thống kê cho khoa học dữ liệu thì bạn có thể sử dụng cấp độ đo lường nào?
Thống kê mô tả cho phép bạn nhìn thấy được trung tâm và sự phân tán của số liệu. Cấp độ đo lường sẽ quyết định phương pháp và công thức toán học nào bạn có khả năng sử dụng.
Hãy xem vào bảng ở dưới để có cái nhìn cụ thể hơn nhé.
Loại dữ liệu | Công thức toán học | Giá trị đại diện | Độ phân tán |
Nominal | đẳng thức (=, ≠) | mode | không |
Ordinal | đẳng thức (=, ≠) so sánh (>, <) | mode median | khoảng giá trị khoảng phần tư |
Interval | đẳng thức (=, ≠) so sánh (>, <) cộng, trừ (+,−) | mode median trung bình số học | khoảng giá trị khoảng phần tư độ lệch chuẩn phương sai |
Ratio | đẳng thức (=, ≠) so sánh (>, <) cộng, trừ (+,−) nhân, chia (×, ÷) | mode median trung bình số học tỷ suất trung bình | khoảng giá trị khoảng phần tư độ lệch chuẩn phương sai hệ số biến thiên |
Tổng kết
Có 4 loại cấp độ đo lường thường hay sử dụng trong thống kê cho khoa học dữ liệu: nominal, ordinal, interval, và ratio.
Cấp độ đo lường sẽ quyết định đến loại giá trị đại diện mà bạn có thể sử dụng cũng như thống kê suy diễn mà bạn có thể dùng.
Vì thế, trước khi làm thống kê, hãy quyết định xem mình nên sử dụng cấp độ đo lường nào cho mẫu dữ liệu của mình nhé.