Quan sát ngoại lai là gì


Các phần tử ngoại lai [ Outliers hay anomalies ] có tác động ảnh hưởng lớn đến độ đúng chuẩn của những quy mô Dự kiến. Phát hiện và giải quyết và xử lý những điểm ngoại lai là một bước quan trọng trong quy trình sẵn sàng chuẩn bị tài liệu cho quy mô Dự kiến. Trong bài viết này, ta sẽ tìm hiểu và khám phá thế nào là điểm ngoại lai trong thống kê cũng như liệt kê một số ít giải pháp để giải quyết và xử lý những điểm tài liệu này .

Các điểm ngoại lai là gì?

Hình ảnh ví dụ bên dưới cho ta thấy chỉ cần sống sót một điểm ngoại lai cũng đã tác động ảnh hưởng đến quy trình khớp [ fitting ] tài liệu của quy mô linear regression như thế nào .

Ta thường xem các giá trị ngoại lai như các mẫu dữ liệu đặc biệt, cách xa khỏi phần lớn dữ liệu khác trong tập dữ liệu. Chưa có một định nghĩa toán học cụ thể nào để xác định một điểm ngoại lai. Việc này dẫn đến một bài toán liên quan đến xác định thế nào là một điểm ngoại lai trong quá trình xử lý dữ liệu. Có nhiều phương pháp khác nhau để phát hiện outlier. Một số áp dụng phương pháp đồ thị ví dụ như normal probability plots, một số phương pháp khác dựa trên các mô hình thống kê [model-based].

Bạn đang đọc: Lấy và làm sạch dữ liệu: Xử lý dữ liệu ngoại lai [Outliers]

Ta có những khái niệm sau khi thao tác với outlier

Left outlier


Là điểm ngoại lai có giá trị cực tiểu [ extreamly low ] trong mẫu quan sát .

Right outlier


Là điểm ngoại lai có giá trị cực lớn [ extreamly large ] trong mẫu quan sát .

Representative outlier


Là một outlier trong tập dữ liệu. Trong đó, điểm tài liệu này giả định rằng đã được quan sát đúng [ tích lũy và ghi chép số liệu đúng chuẩn ] và những thành phần tựa như nó hoàn toàn có thể tìm thấy trong quần thể. Nghĩa là, đây là một đại diện thay mặt [ representative ] cho những outlier cùng thể loại khác và thường được giữ lại để nghiên cứu và phân tích. Ví dụ khi so sánh kích cỡ những loài động vật hoang dã trong vạn vật thiên nhiên, cá voi đại diện thay mặt cho động vật hoang dã có size lớn, con chuột đại diện thay mặt cho động vật hoang dã có kích cỡ nhỏ .

Nonrepresentative outlier


Là một outlier trong tập dữ liệu. Trong đó, nó chưa được quan sát một cách đúng mực [ sai sót trong quy trình tích lũy và ghi chép tài liệu ] và được xem là duy nhất trong quần thể vì không sống sót một giá trị nào tương tự như như điểm tài liệu này .

Alpha-trimmed mean

Xem thêm: PTU là gì


Alpha là giá trị trung bình của tập dữ liệu. Trong đó, 50% alpha trên và dưới của của tập dữ liệu sẽ bị vô hiệu .

Alpha-winsorized mean


Alpha là giá trị trung bình của tập dữ liệu. Trong đó, 50% alpha trên và dưới của tập dữ liệu sẽ được thay thế sửa chữa hoặc quy đổi sao cho tương thích với tập dữ liệu hiện tại. Ví dụ ta có giá trị x1 [ nhỏ nhất ] đến x10 [ lớn nhất ]. Hai giá trị này sẽ được sửa chữa thay thế bởi hai giá trị gần nó nhất là x2 và x9 .

Làm thế nào để phát hiện các điểm ngoại lai?

Có một vài hướng tiếp cận để phát hiện những điểm ngoại lai. Trong cuốn sách Outlier Analysis của Charu Aggarwal, tác giả phân loại những quy mô phát hiện những điểm ngoại lai thành những nhóm như sau :

  • Extreme Value Analysis: đây là dạng cơ bản nhất để phát hiện các điểm ngoại lai và chỉ tốt cho dữ liệu 1 chiều. Trong mô hình phân tích này, ta giả định các giá trị nào quá lớn hay quá nhỏ đều là ngoại lai. Các phương pháp Z-test và Students t-test là ví dụ cho các mô hình thống kê này. Tuy nhiên, mô hình này không thật sự mạnh khi phân tích trên các điểm dữ liệu nhiều chiều [multivariate]. Mô hình này thường được sử dụng ở bước cuối trong quá trình diễn giải kết quả nghiên cứu và phân tích.
  • Probabilistic and Statistical Models: ta áp đặt một phân bố cụ thể cho tập dữ liệu [normal distribution, Bernoulli distribution, poisson distribution, ..]. Sau đó, ta sử dụng phương pháp expectation-maximization[EM] để ước lượng tham số cho các mô hình thống kê này. Cuối cùng, ta tính xác suất cho các phần tử thuộc tập dữ liệu ban đầu. Các phần tử nào có xác suất thấp sẽ được cho là điểm ngoại lai.
  • Linear Models: phương pháp này chuyển đổi tập dữ liệu ban đầu sang không gian ít chiều hơn [sub-space] bằng cách sử dụng tương quan tuyến tính [linear correlation]. Sau đó, khoảng cách của từng điểm dữ liệu đến mặt phẳng ở không gian mới sẽ định tính toán. Khoảng cách tính được này được dùng để tìm ra các điểm ngoại lai. PCA [Principal Component Analysis] là ví dụ của linear models để xác định các điểm ngoại lai.
  • Proximity-based Models: ý tưởng của phương pháp này là mô hình hóa các điểm ngoại lai sao cho chúng hoàn toàn tách biệt [isolated] khỏi toàn bộ các điểm dữ liệu còn lại. Cluster analysis, density based analysis và nearest neighborhood là các hướng tiếp cận chính của phương pháp này.
  • Information Theoretic Models: ý tưởng của phương pháp này là dựa trên nguyên lý các điểm ngoại lai sẽ làm tăng giá trị minimum code length khi mô tả tập dữ liệu.
  • High-Dimensional Outlier Detection: phương pháp đặc biệt để xử lý các tập dữ liệu nhiều chiều và rời rạc [high dimensional sparse data]. Ví dụ, ta có phương pháp High Contrast Subspaces for Density-Based Outlier Ranking [HiCS].
  • Facebook
  • LinkedIn

Thích bài này:

Thích

Xem thêm: PubMed là gì? Cách tìm tài liệu trên PubMed

Đang tải

Có liên quan

Source: //chickgolden.com
Category: Hỏi đáp

Video liên quan

Chủ Đề