Thống kê cho khoa học dữ liệu | Bài SI-2: Mở rộng về biến trong thống kê

Cấp độ đo lường trong thống kê cho khoa học dữ liệu

Cấp độ đo lường (tiếng anh: level of measurement hay scale of measurement) cho mức độ chính xác của một biến được ghi nhận.

Có 4 cấp độ đo lường được sử dụng trong thống kê cho khoa học dữ liệu, đó là:

  • Nominal: Dữ liệu chỉ có thể được phân loại (vd: nam, nữ; đỏ, cam, vàng, lục; bàn, ghế)
  • Ordinal: Dữ liệu được phân loại và xếp hạng (vd: trung bình, khá, giỏi; phân loại đánh giá sản phẩm)
  • Interval: Dữ liệu được phân loại, xếp hạng, và chia khoảng cách đều nhau (evently spaced) (vd: điểm kiểm tra)
  • Ratio: Dữ liệu được phân loại, xếp hạng, chia khoảng cách đều nhau, và có điểm zero (vd: nhóm tuổi, cân nặng)

Mở rộng về biến – Cụ thể hơn về các cấp độ trong thống kê cho khoa học dữ liệu

Từ trên xuống dưới, các cấp độ sau sẽ được phân loại dựa trên cấp được trước và được bổ sung thêm một tính chất nào đó. Việc này giúp cho việc phân loại được cụ thể hơn.

>>>> Xem thêm: Hệ số biến thiên quan trọng như thế nào trong thống kê?

Nominal

Bạn chỉ có thể sắp xếp các dữ liệu vào những nhóm cụ thể, không thể xếp hạng được nhóm nào có hạng cao hơn, nhóm nào tốt hơn nhóm nào.

Thuộc loại này gồm có: màu sắc, giới tính, các hãng xe, tín ngưỡng, các mùa trong năm, v.v.

biến nominal trong thống kê cho khoa học dữ liệu

Ordinal

Trong thống kê cho khoa học dữ liệu, loại này ngoài có thể sắp xếp vào các nhóm khác nhau như nominal, chúng ta còn có thể xếp hạng các nhóm.

Chẳng hạn như: khả năng ngôn ngữ (trung bình, khá, tốt), top 10 của một cái gì đó, cảm nhận về một sản phẩm (rất tệ đến rất tốt)

biến ordinal trong thống kê cho khoa học dữ liệu

Mặc dù có thể xếp hạng, nhưng bạn lại không biết được khoảng cách của dữ liệu trong các nhóm với nhau. chẳng hạn, bạn không thể biết được khoảng cách từ tệ đến tốt là bao xa (!?)

>>>> Xem thêm: Để trở thành bất kỳ ai bạn muốn không hề khó khăn

Interval

Giải quyết vấn đề của ordinal, interval giúp cho chia các khoảng cách đều nhau giữa các nhóm.

Ví dụ như điểm kiểm tra, nhiệt độ.

Ở đây, ta biết khoảng cách của mỗi dữ liệu. Chẳng hạn như mỗi nhiệt độ cách nhau 1 độ C.

biến interval trong thống kê cho khoa học dữ liệu

Tuy nhiên, ta không thể có điểm zero. Điểm zero ở đây nghĩa là không có sự xuất hiện của một nhóm dữ liệu nào đó.

Để hiểu kỹ hơn, hãy xét phần ratio.

Ratio

Khi bảo bạn kiểm tra được 0 điểm. số 0 ở đây vẫn được xem là một dữ liệu. Tuy nhiên, trong thống kê cho khoa học dữ liệu, có những lúc ta hoàn toàn bỏ qua một nhóm dữ liệu nào đó.

Đó chính là lúc ta cần dùng đến cấp độ ratio. Ratio ngoài đặc tính của interval, còn có một đặc tính nổi trội, đó là điểm zero.

Chẳng hạn khi xét nhóm tuổi, Chúng ta có thể chỉ xét nhóm tuổi 0-9, 10-19, 20-29. Chúng ta bỏ qua những nhóm tuổi cao hơn 29 hoặc thấp

Mở rộng về biến – Tại sao cấp độ đo lường lại quan trọng?

Cấp độ bạn sử dụng sẽ quyết định khả năng phân tích dữ liệu của bạn. Cấp độ khác nhau sẽ giúp bạn làm thống kê mô tả với sự chi tiết của dữ liệu khác nhau.

Từ đó bạn sẽ có cái nhìn tổng quát về dữ liệu khác nhau và ảnh hưởng đến phương pháp làm thống kê suy diễn của bạn.

Trong nhiều trường hợp, các biết có thể được đo lường ở các cấp độ khác nhau. Vì thế, khi làm thống kê cho khoa học dữ liệu, bạn nên chọn cấp độ đo lường ngay từ đầu.

>>>> Xem thêm: những thứ cơ bản nhất trong thống kê bạn nên biết

Khi làm thống kê cho khoa học dữ liệu thì bạn có thể sử dụng cấp độ đo lường nào?

Thống kê mô tả cho phép bạn nhìn thấy được trung tâm và sự phân tán của số liệu. Cấp độ đo lường sẽ quyết định phương pháp và công thức toán học nào bạn có khả năng sử dụng.

Hãy xem vào bảng ở dưới để có cái nhìn cụ thể hơn nhé.

Loại dữ liệuCông thức toán họcGiá trị đại diệnĐộ phân tán
Nominalđẳng thức (=, ≠)modekhông
Ordinalđẳng thức (=, ≠)
so sánh (>, <)
mode
median
khoảng giá trị
khoảng phần tư
Intervalđẳng thức (=, ≠)
so sánh (>, <)
cộng, trừ (+,−)
mode
median
trung bình số học
khoảng giá trị
khoảng phần tư
độ lệch chuẩn
phương sai
Ratiođẳng thức (=, ≠)
so sánh (>, <)
cộng, trừ (+,−)
nhân, chia (×, ÷)
mode
median
trung bình số học
tỷ suất trung bình
khoảng giá trị
khoảng phần tư
độ lệch chuẩn
phương sai
hệ số biến thiên
Cấp độ đo lương và các giá trị đại diện có thể có của dữ liệu

Tổng kết

Có 4 loại cấp độ đo lường thường hay sử dụng trong thống kê cho khoa học dữ liệu: nominal, ordinal, interval, và ratio.

Cấp độ đo lường sẽ quyết định đến loại giá trị đại diện mà bạn có thể sử dụng cũng như thống kê suy diễn mà bạn có thể dùng.

Vì thế, trước khi làm thống kê, hãy quyết định xem mình nên sử dụng cấp độ đo lường nào cho mẫu dữ liệu của mình nhé.

Related posts

Từ hư không | Sự sống nhân tạo nay đã không còn là viễn tưởng

Thống kê cho khoa học dữ liệu | Bài 11: cơ bản về kiểm định

Liên kết đơn electron đầu tiên được tìm thấy