Sử dụng ma trận phân loại python

Có thể dịch là [ma trận nhầm lẫn], là một bảng hiển thị trực tiếp hiệu quả quan trọng của mô hình, đặc biệt là trên bài toán phân lớp nhiều nhãn

Bạn muốn trích dẫn bài viết này.
-----

"ma trận nhầm lẫn," Trí tuệ nhân tạo, Ngày xuất bản. 23/01/2020, URL. https. //trituenhantao. io/tu-dien-thuat-ngu/confusion-matrix/, Ngày truy cập. 12/11/2022.

Copy

Bài viết có liên quan

Phản hồi hoàn thiện nội dung

  • Sự cố. *
  • Tên của bạn. *
  • Email của bạn. *

  • Chi tiết. *

Gửi

Những bài viết liên quan

  • TenorFlow. js – Nhận diện chữ số viết tay [Phần 2]
  • Hiểu về IoU đo lường trong nhận diện thực tế

« Quay lại Mục lục Thuật ngữ

Machine Learning giải quyết vấn đề hai dạng. Bài toán hồi quy và bài toán phân lớp. Kỹ thuật hoặc mô hình Các kỹ thuật hồi quy được sử dụng khi các biến phụ thuộc của chúng ta có bản chất liên tục trong khi kỹ thuật Các kỹ thuật phân loại được sử dụng khi các biến phụ thuộc có tính chất Kỹ thuật phân loại

Khi một mô hình Machine Learning được xây dựng, các chỉ số đánh giá khác nhau được sử dụng để kiểm tra chất lượng hoặc hiệu suất của một mô hình. Sử dụng đối với các kỹ thuật phân loại mô hình, các số chỉ như Độ chính xác, Ma trận nhầm lẫn, Báo cáo phân loại [tức là Độ chính xác, thu hồi, điểm F1] và đường cong AUC-ROC được sử dụng

Các bài viết liên quan

  • Thu thập dữ liệu trong nghiên cứu
  • Khoa học dữ liệu
  • Phân loại máy học trong Khoa học dữ liệu
  • Thống kê Cohen's Kappa
  • Xử lý dữ liệu không cân bằng
  • Traceability Matrix là gì?
  • Đường cong ROC[Receiver Operator Characteristic]
  • Resampling[Lấy lại mẫu] dữ liệu không cân bằng
  • Hồi quy logistic trong R

Trong bài viết này, chúng ta sẽ đi sâu vào số liệu đánh giá biến phổ biến và nổi tiếng nhất đó là Confusion Matrix và sẽ tìm hiểu chi tiết tất cả các yếu tố của nó

Tóm tắt nội dung

  • Confusion Matrix là gì?
  • Các yếu tố của Ma trận nhầm lẫn
  • Ví dụ về ma trận nhầm lẫn
    • Sự chính xác
    • Thu hồi / Độ nhạy
    • Độ chính xác
    • Điểm F-beta
  • Khi nào thì chỉ sử dụng các số nào để đánh giá

Confusion Matrix là gì?

Ma trận nhầm lẫn là Đồ thị trực quan của 2 yếu tố Thực tế và Dự đoán. Nó đo lường hiệu suất của mô hình Các kỹ thuật phân loại Machine Learning và trông giống như một cấu trúc giống như bảng

Đây là cách Ma trận nhầm lẫn của một vấn đề phân loại nhị phân trông như thế nào

Các yếu tố của Ma trận nhầm lẫn

Nó đại diện cho điểm trên ma trận 2 chiều bao gồm. Thực tế và dự đoán

TP. Tích cực thực sự. Các giá trị thực sự Tích cực và được dự đoán là Tích cực

FP. dương tính giả. Các giá trị thực sự là Tiêu cực nhưng được dự đoán sai là Tích cực. Còn được gọi là Error type I

FN. Âm tính giả. Các giá trị thực sự là Tích cực nhưng được dự đoán sai là Tiêu cực. Còn được gọi là Error type II

TN. Tiêu cực thực sự. Các giá trị thực sự là Tiêu cực và được dự đoán là Tiêu cực

Các bài viết liên quan khác

  • Thư viện ma trận NumPy
  • Traceability Matrix là gì?
  • Quản trị người dùng trên WordPress với UsersInsight
  • All-pairs Testing trong kiểm thử phần mềm
  • Quy trình xem xét trường hợp thử nghiệm trong quá trình kiểm tra phần mềm

Ví dụ về ma trận nhầm lẫn

Lấy một ví dụ về dự án dự kiến ​​Thị trường Chứng khoán. Đây là một vấn đề phân loại nhị phân trong đó 1 có nghĩa là thị trường chứng khoán sẽ sụp đổ và 0 có nghĩa là thị trường chứng khoán sẽ không sụp đổ và giả sử chúng ta có 1000 bản ghi trong tệp dữ liệu của mình

Please view Confusion Matrix of the following things

Trong ma trận, chúng ta có thể phân tích mô hình như sau

Tích cực thực sự [TP]. 540 bản ghi về sự sụp đổ của thị trường chứng khoán đã được mô hình dự đoán chính xác

Dương tính giả [FP]. 150 bản ghi không phải là sự sụp đổ của chứng khoán thị trường chứng khoán đã được dự đoán sai như một sự sụp đổ của thị trường

Âm tính giả [FN]. 110 bản ghi về sự sụp đổ của thị trường đã được dự đoán sai mà không phải là sự sụp đổ của thị trường

Tiêu cực thực sự [TN]. Bản ghi 200 không phải là sự sụp đổ của thị trường đã được dự đoán chính xác bởi mô hình

Các chỉ số đánh giá liên quan đến ma trận nhầm lẫn

Sự chính xác

Nó được tính bằng cách chia tổng số dự đoán đúng cho tất cả các dự đoán

Thu hồi / Độ nhạy

Việc thu hồi là biện pháp để kiểm tra các kết quả dự đoán tích cực chính xác trong tổng số kết quả tích cực

Độ chính xác

Kiểm tra chính xác xem có bao nhiêu kết quả thực tế là kết quả tích cực trong tổng số kết quả được dự đoán tích cực

Điểm F-beta

Điểm beta F là trung bình hài hòa của Độ chính xác và thu hồi và nó có thể thể hiện sự đóng góp của cả hai điểm. Sự đóng góp phụ thuộc vào giá trị beta trong công thức dưới đây

Giá trị beta mặc định là 1 cung cấp cho chúng ta công thức của Điểm F1, trong đó đóng góp của Độ chính xác và Gọi lại là như nhau. Điểm F1 càng cao thì mô hình càng tốt

Giá trị beta 1 mang lại nhiều trọng số hơn cho recall.

Bạn có thể tính toán giá trị của tất cả các số liệu được đề cập ở trên bằng cách sử dụng ví dụ về sự cố thị trường chứng khoán được cung cấp ở trên

Xem thêm Khai phá dữ liệu với học máy

Khi nào thì chỉ sử dụng các số nào để đánh giá

Đây là phần quan trọng nhất của tất cả các cuộc thảo luận ở trên, tức là khi sử dụng bất kỳ số liệu nào

Qua câu nói này, tôi muốn nói rằng chúng ta nên sử dụng thước đo nào để đánh giá mô hình của mình, với Độ chính xác hoặc thu hồi hoặc độ chính xác hoặc cả hai

registration ????

Không phải vậy, tôi sẽ giải thích điều này bằng cách lấy một số ví dụ sẽ làm rõ hơn các khái niệm của bạn. Vì vậy, hãy bắt đầu

Độ chính xác là số liệu tiêu chuẩn để đánh giá các kỹ thuật phân loại mô hình Machine Learning

Nhưng chúng ta không thể lúc nào cũng dựa vào Độ chính xác vì trong một số trường hợp, Độ chính xác khiến chúng ta hiểu sai về chất lượng của mô hình, ví dụ như trong trường hợp dữ liệu của chúng ta không cân bằng

Một trường hợp khác của công việc không sử dụng Độ chính xác là khi chúng tôi đang quản lý một công cụ miền dự án có thể hoặc khi công ty của chúng tôi muốn một kết quả công cụ có thể xử lý từ mô hình. Hãy đi vào chi tiết hơn với một số ví dụ

Ví dụ 1. Trường hợp domain cụ thể

Lấy ví dụ trước đây của họ về Dự đoán sự sụp đổ của thị trường chứng khoán, mục đích chính của họ là làm giảm kết quả mà mô hình dự đoán không phải là sự sụp đổ của thị trường trong khi đó là sự sụp đổ

Hãy tưởng tượng một vấn đề giải quyết trong đó mô hình của chúng ta có dự đoán rằng thị trường sẽ không sụp đổ và thay vào đó nó sẽ sụp đổ, mọi người đều phải trải qua rất nhiều mất mát trong trường hợp này

Biện pháp tính toán cho vấn đề này là FN và do đó là thu hồi. Vì vậy chúng ta cần tập trung vào việc giảm giá trị của FN và tăng giá trị của Thu hồi

Trong hầu hết các trường hợp y tế, chẳng hạn như dự đoán ung thư hoặc bất kỳ dự đoán nào về bệnh tật, chúng tôi cố gắng giảm giá trị của FN

Xem thêm Phát hiện lỗi thẻ tín dụng với machine learning

Ví dụ 2. Phát hiện thư rác

Trong trường hợp phát hiện Email Spam, nếu một email được dự đoán là lừa đảo nhưng không thực sự là lừa đảo thì nó có thể gây ra vấn đề cho người dùng

Trong trường hợp này, chúng tôi cần tập trung vào việc giảm giá trị của FP [tức là khi thư được dự đoán sai là thư rác] và do đó, làm tăng giá trị của Precision

Trong một số trường hợp xảy ra sự cố dữ liệu không cân bằng, cả Độ chính xác và thu hồi đều quan trọng, vì vậy chúng ta coi điểm F1 như một thước đo đánh giá

Có một khái niệm khác về đường cong AUC ROC để đánh giá các kỹ thuật phân loại mô hình, đây là một trong những thước đo quan trọng nhất cần tìm hiểu. chúng ta sẽ thảo luận về điều đó trong một số blog khác của tôi

Chủ Đề