Dùng mode tần số để so sánh năm 2024

Khi có bảng số liệu, chúng ta thường thấy giá trị một số biến phổ khá rộng, ví dụ doanh số bán hàng theo ngày, cân nặng, chiều cao…. Câu hỏi đặt ra là: đâu là giá trị tiêu biểu nhất và có thể dùng làm đại diện cho dataset đó?. Tiếp theo, liệu có sự biến thiên/dao động (variation) lớn hay nhỏ giữa các giá trị?. Để trả lời cho hai câu hỏi trên, thống kê mô tả cần phải đo lường giá trị trung tâm (measures of center) và giá trị biến thiên (measures of variation).

3.1. Giá trị trung tâm (Measures of Center/Central Tendency/Average)

Có ba dạng là mean, median, mode: trung bình (mean), trung vị (vị trí chính giữa) (median), và nhất suất (tần suất xuất hiện cao nhất) (mode). Trong đó, mean thường được sử dụng nhất.

Nếu so sánh giữa mean và median, thì mean thường sẽ bị ảnh hưởng bởi các extreme observation (rất lớn hoặc rất nhỏ), còn median thì không. Vì vậy, nếu dataset có xuất hiện extreme observations, thì median thường được sử dụng thay cho mean.

Dùng mode tần số để so sánh năm 2024

3.2. Giá trị biến thiên (Measures of Variation)

Hai dataset có thể có cùng mean, median và mode, tuy nhiên vẫn có thể khác nhau ở các khía cạnh khác, một trong số đó là độ biến thiên variation. Ví dụ, xem xét chiều cao của các cầu thủ hai đội bóng, đều có cùng mean, median, mode, tuy nhiên, độ biến thiên về chiều cao giữa các cầu thủ là khác nhau; đội một có sự đồng đều hơn (độ biến thiên thấp), còn đội hai không đồng đều (độ biến thiên cao). Có hai phương thức đo độ biến thiên phổ biến nhất là “range” và “standard deviation”.

Dùng mode tần số để so sánh năm 2024

  • Range = max – min = giá trị lớn nhất – giá trị thấp nhất = (chiều cao của cầu thủ cao nhất – chiều cao của cầu thủ thấp nhất). Kết quả range của hai team sẽ khác nhau. Range cao hơn thể hiện mức độ biến thiên lớn hơn.
  • Standard deviation (STD): Khác với range, STD đo lường độ biến thiên của tất cả observation. Và thường được dùng để đo độ biến thiên khi mean được sử dụng. STD đo lường độ biến thiên của các observations so với giá trị trung bình (mean). STD càng lớn càng thể hiện độ biến thiên cao, STD càng nhỏ thể hiện giá trị các observations rất gần với mean, độ biến thiên thấp.

Dùng mode tần số để so sánh năm 2024

Variance: phương sai

Standard Deviation: độ lệch chuẩn

Đối với mẫu sample, ta gọi là phương sai mẫu và độ lệch chuẩn mẫu. Sở dĩ khi tính phương sai cần phải bình phương trước khi tính tổng là vì nếu không bình phương lên thì tổng sẽ bằng không.

Dùng mode tần số để so sánh năm 2024

Cách tính Variance và STD có chút khác nhau giữa sample và population. Ở trên là của sample, còn đối với population, công thức tính và ký hiệu sẽ khác.

  • The Interquartile Range

Phương thức này thường dùng khi median được sử dụng làm giá trị trung tâm, và có dấu hiệu của extreme observation (hay outliers).

Dùng mode tần số để so sánh năm 2024

Q1 là median của nửa đầu tiên của dataset

Q2 là median của toàn bộ dataset

Q3 là median của nửa sau của dataset

Interquartile range IQR = Q3 – Q1

Outliers: Để xác định outliers, có thể dựa trên lower limit và upper limit. Giá trị thấp hơn lower limit hoặc cao hơn upper limit thường có khả năng cao là outlier. Ngoài ra, còn cần dựa trên các biểu đồ historgram, stem-and-leaf diagram để có thể nhận định rõ hơn.

lower limit = Q1 – 1.5.IQR

upper limit = Q3 + 1.5.IQR

The five-number summary: Min, Q1, Q2, Q3, Max

Dùng mode tần số để so sánh năm 2024
Dùng mode tần số để so sánh năm 2024

Boxplots

Dùng boxplots có thể so sánh median và độ biến thiên IQR giữa các nhóm/experiment… IQR càng ngắn/nhỏ thể hiện độ biến thiên thấp.

Trong phần 1, chúng ta đã tìm hiểu về Frequcency Distribution và Graphic Displays of Distributions (Biểu đồ). Bài viết này chúng ta sẽ tìm hiểu Measures of Central Tendency và Measures of Spread.

1. Measures of Center

Các chỉ số thể hiện giá trị trung tâm , giá trị tiêu biểu hay bạn có thể gọi là giá trị đại diện cho phần đông dữ liệu, có nhiều cách chọn giá trị đại diện ví dụ như: Mean - Trung bình, Median - Trung vị, Mode. Các chỉ số này được gọi là Mesuares of Central Tendency hay Measures of Center với mục đích chọn ra giá trị tiêu biểu, đủ điều kiện đại diện cho phần lớn các giá trị có trong tập dữ liệu của bạn. Theo kinh nghiệm của mình thì với mỗi trường hợp khác nhau sử dụng chỉ số này sẽ tốt hơn chỉ số khác, mình sẽ hướng dẫn các tip sử dụng ở phần bên dưới.

1.1 Mean - Trung bình

Chắc các bạn không xa lạ với chỉ số Mean này như chiều cao trung bình của Nam, Nữ ở Việt Nam lần lượt là 168cm và 156cm. Cách tính rất đơn giảm bạn sum tất cả các giá trị lại và chia cho số lượng giá trị ( thường kí hiệu là n), lưu ý nhỏ là trung bình không phải là giá trị nằm ở trung tâm các bạn nhé. Mean chỉ sử dụng được với dữ liệu định lượng

Dùng mode tần số để so sánh năm 2024
Mean

1.2 Median - Trung vị

Trung vị là giá trị nằm ở trung tâm thật sự, khác với trung bình ở phía trên, đầu tiên bạn sẽ sắp xếp dữ liệu theo thứ tự tăng dần sau đó chọn ra giá trị trung tâm bằng công thức (n+1)/2 với n là tổng số lượng dữ liệu bạn có.

Như hình bên dưới bạn sẽ thấy n = 11 nên suy ra vị trí của median sẽ là (11+1)/2 =6, vị trí thứ 6 lại trùng hợp có giá trị bằng 6, chúng ta nói median của tập dữ liệu là 6. Vậy nếu trong trường hợp vị trí chia ra bị lẻ thì sao ví dụ bạn có n = 10 thì vị trí của median sẽ là (10+1)/2 = 5.5 lúc này bạn sẽ có median bằng giá trị tại vị trí số 5 và số 6 cộng lại chia đôi.

Median chính là giá trị ở vị trí trung tâm nên nó cũng sẽ chia dữ liệu của bạn thành 2 phần bằng nhau về số lượng, bên trái median (giá trị từ 3 đến 5 như hình dưới) là 50% số lượng dữ liệu (tức là 5 số) và bên phải cũng tương tự như vậy 50% số lượng dữ liệu (tức là 5 số), lưu ý là số lượng nha các bạn. Median chỉ sử dụng được với dữ liệu định lượng

Dùng mode tần số để so sánh năm 2024
Median

1.3 Mode - Yếu vị

Phần trước các bạn đã tìm hiểu Frequency Table rồi đúng ko ạ, để tính được mode đầu tiên bạn sẽ tính tần suất xuất hiện của mỗi giá trị, Mode chính là giá trị có tần suất xuất hiện nhiều nhất, nếu 2 giá trị có cùng tần suất và cùng lớn nhất thì chúng ta có 2 Mode, nếu như không có giá trị nào xuất hiện hơn 1 lần thì tập dữ liệu ấy không có Mode. Mode sử dụng được với cả dữ liệu định tính và định lượng.

Dùng mode tần số để so sánh năm 2024
Mode

1.4 Mean vs Median vs Mode

Chúng ta sẽ cùng xem xét trường hợp nào thì sử dụng giá trị nào để đạt được hiệu quả biểu đạt tốt nhất nhé.

  • Bạn dễ dàng nhận thấy Mean sẽ bị ảnh hưởng nếu dữ liệu chứa nhiều giá trị quá lớn hoặc quá bé (outliers) trong khi Median thì không. Ví dụ như dãy số 1,1,1,2,100 dãy số này có Mean = 21 và median = 1, 1 chắc hẳn sẽ đại diện cho dữ liệu tốt hơn con số 21 rất nhiều, mình khuyên bạn hãy sử dụng Median khi dữ liệu của bạn có nhiều giá trị outliers quá lớn hoặc quá bé ở hai đầu các trường hợp còn lại hãy sử dụng Mean.
  • Trong các thống kê dân số trung bình ở mỗi tiểu bang ở Mỹ người ta đã dùng con số Median thay vì Mean, mặc dù họ vẫn dùng từ "trung bình" để người khác dễ hiểu nhưng thật sự nó được tính từ Median để hạn chế sự ảnh hưởng của các tiểu bang có dân số quá đông như California, Texas hay quá ít như Alaska, Vermont, tương tự với số người trên một km2.
  • Mode lại hoàn toàn mang một ý nghĩa ... không giống với Median và Mean khi chúng cố gắng tìm ra giá trị ở vị trí trung tâm. Thì giá trị xuất hiện nhiều nhất Mode lại không chắc chắn phải nằm ở trung tâm. Mình đã từng dùng Mode trong bài toán xác định khung thời gian một user online nhiều nhất trong ngày, và sau đó phân loại họ.

2. Measures of Variation

Chúng ta đã đi qua khái niệm giá trị trung tâm và xuất hiện nhiều nhất, tuy nhiên sẽ có trường hợp 2 tập dữ liệu có chung Mean, Median, Mode nhưng vẫn có sự khác biệt, như trường hợp chiều cao của 10 cầu thủ bóng rổ dưới đây.

Dùng mode tần số để so sánh năm 2024
Five starting players on two basketball teams

Hai team cho chung chỉ số chiều cao trung bình là 75 inches, Median là 76 inches và mode là 76 inches. Sự khác biệt khá rõ ràng ở đây là Team 1 có chiều cao đồng đều hơn team 2, để mô tả sự khác biệt này người ta sử dụng các chỉ số đo sự thay đổi, biến thiên của dữ liệu được biết đến với tên gọi là measures of variation hay measures of spread. Các chỉ số Measure of Variation phổ biến nhất là : range, quartiles, deciles, percentiles, the five number summary, standard deviation

2.1 Range

Range là hiệu số giữa giá trị lớn nhất và nhỏ nhất (range = max-min)

Dùng mode tần số để so sánh năm 2024
Range

Team I: Range = 78 - 72 = 6 inches Team II: Range = 84 - 67 = 17 inches

Dùng mode tần số để so sánh năm 2024

2.2 Standard Deviation

Standard Deviation (Độ lệch chuẩn - Std) cho ta biết được khoảng cách trung bình (độ phân tán) của các điểm dữ liệu so với giá trị trung bình (Mean). Nếu độ lệch chuẩn thấp tức là dữ liệu có tính biến động thấp và ngược lại, ví dụ mã cổ phiếu mà bạn đang xem xét mua vào có độ lệch chuẩn lớn (Std), cho thấy biên độ giao động xung quanh mức giá trung bình rất lớn, nếu mua bạn mua thì có khả năng sẽ lời rất nhiều hoặc lỗ rất nhiều so với các mã cổ phiểu có Std thấp.

Độ lêch chuẩn được tính bằng căn bậc hai của Phương sai - Variance. Cách tướng phương sai như sau:

  • Tìm giá trị trung bình - Mean
  • Với mỗi điểm dữ liệu bạn lấy giá trị đó trừ đi Mean và bình phương chúng lên
  • Cộng tất cả kết quả từ bước trước chia cho số lượng dữ liệu khảo sát (n)
    Dùng mode tần số để so sánh năm 2024

Bên dưới là tính toán chi tiết Độ lệch chuẩn của nhiệt độ trong ngày

Dùng mode tần số để so sánh năm 2024
Standard Deviation

Bạn có thắc mắc giống như mình lý do tại sao Variance lại phải bình phương lên không, thay vì cứ lấy trị tuyệt đối của mỗi điểm dữ liệu trừ đi Mean rồi lấy trung bình ra Độ lệch chuẩn là xong ? Câu trả lời là phép tính bình phương sẽ "nhấn mạnh" các giá trị cách xa điểm Mean, nếu giá trị đang xét cách Mean 2 đơn vị thì phương sai là 4 tuy nhiên nếu cách 5 đơn vị thì phương sai lại tăng lên đến 25, một con số rất lớn, hiểu một cách đơn giản nếu dữ liệu của bạn chứa rất nhiều oulier - cách xa điểm mean về cả 2 phía quá bé hoặc quá lớn thì phương sai của bạn sẽ cực lớn, dẫn đến Std củng sẽ lớn nốt, bình phương làm nổi bật các giá trị oulier. Và vì phương sai đã bình phương rồi nên để trở về đơn vị cũ buộc bạn phải căn bậc hai phương sai ra Độ lệch chuẩn để dễ so sánh với dữ liệu gốc ban đầu.

2.3 Quartiles, Deciles, Percentiles

Bạn đã cùng mình tìm hiểu qua Median, là điểm nằm ở trung tâm chia dữ liệu ra làm 2 phân có số lượng bằng nhau, Quartiles, Deciles, Percentiles cũng tương tự như vậy, lưu ý cần phải sắp xếp dữ liệu tăng dần trước khi tính toán:

  • Quartiles: chia dữ liệu ra 4 phần bằng nhau
  • Deciles: chia dữ liệu thành 10 phần bằng nhau
  • Percentiles: chia dữa liệu thành 100 phần bằng nhau, Median chính là Percentitle(0.5) hay đọc là Percentitle 50%
    Dùng mode tần số để so sánh năm 2024

Lý do tại sao phải chia dữ liệu ra như vậy ? Mình sẽ đưa ra một ví dụ cho bạn dễ hiểu khi sếp bạn yêu cầu tính toán thời gian tối đa để giao một đơn hàng là bao nhiêu để sếp biết mà trao đổi với đối tác. Bạn không thể dùng thời gian giao hàng lớn nhất của tháng trước theo đúng ý sếp được vì lý do các đơn hàng ấy thường là có vấn đề: hàng thất lạc, nhà cung cấp giao thiếu phải giao thêm cho đủ, .... hay nói chính xác chúng là ouliers.

Bạn nảy ra một ý kiến sao mình không sắp xếp thời gian giao hàng của tất cả đơn hàng theo thứ tự tăng dần từ dưới lên trên,và lấy con số ở mức 90% số lượng dữ liêu, 10% còn lại bạn cho chúng là outliers, lưu ý ở đây giúp mình là 90% số lượng nha, nếu dữ liệu bạn có 100 dòng thì mức 90% dữ liệu là ở dòng thứ 90 từ dưới đếm lên, con số đó chính là Percentile(0.9). Ví dụ mình có P(0.9) = 3.5 ngày thì mình sẽ nói với sếp, 90% đơn hàng của chúng ta được giao sớm hơn hoặc bằng 3.5 ngày, sếp cứ yên tâm dùng số này.

Với Quartile bạn sẽ có 4 phần nên Q(1) = Percentile(0.25) ->(25%), ... Decile 10 phần nên D1 = Percentile(0.1). Vì thế mình hay dùng Percentile hơn vì nó chi tiết nhất và 2 cái trên thì đều có thể quy ra Percentitle được.

Tham khảo:

  • Introductory Statistics - Pearson (2017)
  • floridaschoolleaders
  • Standard Deviation

Bạn có thể nhấn vào link này để tham gia vào nhóm và nhận thêm nhiều tài liệu hữu ích khác về Data nhé!