Bias trong Machine learning là gì

Giải thích về AI / ML Bias với các ví dụ

Tạ Hòa Thái · Tạ Hòa Thái 02:00 11/10/2018
4 giờ trước

Trong trí tuệ nhân tạo [AI] và học máy [ML]thế giới đầy sức mạnh nơi các mô hình dự đoán đã bắt đầu được sử dụng thường xuyên hơn trong các khu vực ra quyết định, mối quan tâm chính của các nhà hoạch định chính sách, kiểm toán viên và người dùng cuối đã đảm bảo rằng các mô hình này không đưa ra quyết định sai lệch / không công bằng dựa trên dự đoán mô hình [ phân biệt đối xử có chủ ý hay vô ý]. Hãy tưởng tượng các ngành công nghiệp như ngân hàng, bảo hiểm và việc làm trong đó các mô hình được sử dụng làm giải pháp cho các vấn đề ra quyết định như đưa ra danh sách ứng cử viên để phỏng vấn, phê duyệt khoản vay / tín dụng, quyết định phí bảo hiểm, v.v. các quyết định có thể ảnh hưởng đến sinh kế của họ dựa trên các dự đoán thiên vị được đưa ra bởi mô hình, do đó, dẫn đến các quyết định không công bằng / sai lệch. Do đó, điều quan trọng đối với các nhà quản lý sản phẩm / nhà phân tích kinh doanh và nhà khoa học dữ liệu làm việc trên các vấn đề ML để hiểu các sắc thái khác nhau của xu hướng dự đoán mô hình, chẳng hạn như một số điều sau đây sẽ được thảo luận trong bài viết này:

  • ML Model Fairness / Bias là gì?
  • Cách kiểm tra tính công bằng / xu hướng của người mẫu
  • Các tính năng / thuộc tính liên quan đến thiên vị
  • Các ngành công nghiệp bị ảnh hưởng bởi AI Bias

ML Model Fairness / Bias là gì?

Sự sai lệch trong mô hình Machine Learning có thể được gây ra do thiếu các tính năng và bộ dữ liệu liên quan được sử dụng để đào tạo các mô hình. Cho rằng các tính năng và dữ liệu liên quan được sử dụng để đào tạo các mô hình được thiết kế và thu thập bởi con người, cá nhân [nhà khoa học dữ liệu hoặc người quản lý sản phẩm] có thể đi vào cách chuẩn bị dữ liệu để đào tạo mô hình. Điều này có nghĩa là một hoặc nhiều tính năng có thể bị bỏ qua hoặc phạm vi bảo hiểm của các bộ dữ liệu được sử dụng cho đào tạo là không đủ. Nói cách khác, mô hình có thể không nắm bắt được các quy tắc thiết yếu có trong tập dữ liệu. Do đó, các mô hình Machine Learning kết quả sẽ phản ánh sự thiên vị [độ lệch cao].

Xu hướng mô hình Machine Learning có thể được hiểu theo một số điều sau đây:

  • Thiếu một bộ tính năng thích hợp có thể dẫn đến sai lệch. Trong một kịch bản như vậy, mô hình có thể được cho là bị thiếu. Nói cách khác, các mô hình như vậy có thể được tìm thấy để thể hiện độ lệch cao và phương sai thấp.
  • Thiếu bộ dữ liệu phù hợp: Mặc dù các tính năng là phù hợp, việc thiếu dữ liệu phù hợp có thể dẫn đến sai lệch. Đối với một khối lượng lớn dữ liệu có tính chất khác nhau [bao gồm các kịch bản khác nhau], vấn đề sai lệch có thể được giải quyết. Tuy nhiên, cần thận trọng để tránh vấn đề quá mức [phương sai cao] có thể ảnh hưởng đến hiệu suất mô hình theo nghĩa mô hình sẽ không thể khái quát hóa cho tất cả các loại bộ dữ liệu.

Trong trường hợp mô hình được phát hiện có độ lệch cao, mô hình sẽ được gọi là không công bằng và ngược lại. Cần lưu ý rằng nỗ lực giảm sai lệch dẫn đến các mô hình phức tạp cao có phương sai cao. Sơ đồ đưa ra dưới đây đại diện cho độ phức tạp của mô hình về độ lệch và phương sai. Lưu ý thực tế là với sự giảm độ lệch, mô hình có xu hướng trở nên phức tạp và đồng thời, có thể được tìm thấy có phương sai cao.

Cách kiểm tra tính công bằng / mô hình ML

Điều quan trọng là phải hiểu làm thế nào người ta có thể đi về việc xác định mức độ mà mô hình bị thiên vị, và, do đó không công bằng. Một trong những cách tiếp cận phổ biến nhất là xác định tầm quan trọng hoặc tầm quan trọng tương đối của các giá trị đầu vào [liên quan đến các tính năng] trên dự đoán / đầu ra của mô hình. Xác định tầm quan trọng tương đối của các giá trị đầu vào sẽ giúp xác định thực tế rằng các mô hình không phụ thuộc quá nhiều vào các thuộc tính được bảo vệ [tuổi, giới tính, màu sắc, giáo dục, v.v.] sẽ được thảo luận trong một trong các phần sau. Các kỹ thuật khác bao gồm phân tích dữ liệu kiểm toán, đường ống mô hình ML, v.v. Theo đó, người ta có thể đánh giá liệu mô hình có công bằng [không thiên vị] hay không.

Để xác định độ lệch của mô hình và tính công bằng có liên quan, một số khung sau có thể được sử dụng:

  • Vôi
  • Công bằng
  • CHIA SẺ
  • Google là gì nếu
  • Bộ công cụ đánh giá thiên vị của IBM

Các tính năng / thuộc tính liên quan đến thiên vị

Sau đây là một số thuộc tính / tính năng có thể dẫn đến sai lệch:

  • Cuộc đua
  • Giới tính
  • Màu
  • Tôn giáo
  • Nguồn gốc quốc gia
  • Tình trạng hôn nhân
  • Xu hướng tính dục
  • Nền giáo dục
  • Nguồn thu nhập
  • Tuổi tác

Người ta muốn áp dụng các chiến lược phù hợp để đào tạo và kiểm tra mô hình và hiệu suất liên quan với sự thiên vị được đưa ra do dữ liệu liên quan đến các tính năng trên.

Ví dụ: Các ngành bị tác động bởi AI Bias

Sự thiên vị [phân biệt đối xử có chủ ý hoặc không chủ ý] có thể phát sinh trong các trường hợp sử dụng khác nhau trong các ngành như một số điều sau đây:

  • Ngân hàng : Hãy tưởng tượng một kịch bản khi yêu cầu cho vay ứng viên hợp lệ không được chấp thuận. Điều này cũng có thể xảy ra do sự sai lệch trong hệ thống được giới thiệu với các tính năng và dữ liệu liên quan được sử dụng cho đào tạo người mẫu như giới tính, giáo dục, chủng tộc, địa điểm, v.v. Trong một ví dụ khác, hãy tưởng tượng một người nộp đơn được cho vay mặc dù anh ta không đủ phù hợp. Trong một ví dụ khác, hãy tưởng tượng một ứng dụng thẻ tín dụng của ứng viên bị từ chối mặc dù người nộp đơn là một người nộp đơn hợp lệ, đáp ứng tất cả các yêu cầu để có được thẻ tín dụng. Điều đó có thể xảy ra khi mô hình được sử dụng để phân loại ứng dụng thẻ tín dụng được chấp thuận hoặc từ chối có sự thiên vị cơ bản do trình độ học vấn của người nộp đơn.
  • Bảo hiểm : Hãy tưởng tượng một người được yêu cầu trả phí bảo hiểm cao hơn dựa trên các dự đoán được đưa ra bởi mô hình có tính đến một số thuộc tính như giới tính, cuộc đua để đưa ra dự đoán.
  • Việc làm : Tưởng tượng một mô hình Machine Learning lọc không đúng cách các ứng viên tiếp tục dựa trên các thuộc tính như chủng tộc, màu sắc, v.v. của các ứng viên. Điều này không chỉ có thể ảnh hưởng đến việc làm của các ứng viên phù hợp mà còn dẫn đến cơ hội bị bỏ lỡ của công ty để thuê một ứng viên tuyệt vời.
  • Nhà ở : Hãy tưởng tượng một mô hình có độ lệch cao đưa ra dự đoán không chính xác về giá nhà. Điều này có thể dẫn đến cả hai, chủ sở hữu nhà và người dùng cuối [người mua] bỏ lỡ cơ hội liên quan đến mua-bán. Sự thiên vị có thể được giới thiệu do dữ liệu liên quan đến vị trí, cộng đồng, địa lý, v.v.
  • Gian lận [Tội phạm / Khủng bố] : Tưởng tượng người mẫu phân loại không chính xác một người là kẻ phạm tội tiềm năng và khiến anh ta / cô ta bị thẩm vấn về hành vi phạm tội mà anh ta / cô ta không làm. Đó có thể là kết quả có thể dự đoán của một mô hình có thể thiên về chủng tộc, tôn giáo, nguồn gốc quốc gia, v.v. Ví dụ, ở một số quốc gia hoặc khu vực địa lý, một người thuộc tôn giáo hoặc nguồn gốc quốc gia bị nghi ngờ thực hiện một loại tội phạm nhất định như vậy như khủng bố. Bây giờ, điều này trở thành một phần của sự thiên vị cá nhân. Sự thiên vị này được phản ánh trong dự đoán mô hình.
  • Chính phủ : Hãy tưởng tượng các chương trình của chính phủ sẽ được cung cấp cho một bộ phận người nhất định và các mô hình Machine Learning đang được sử dụng để phân loại những người này sẽ nhận được lợi ích từ các chương trình này. Một sự thiên vị sẽ dẫn đến một số người đủ điều kiện không nhận được lợi ích [dương tính giả] hoặc một số người không đủ điều kiện nhận được lợi ích [phủ định sai].
  • Giáo dục : Hãy tưởng tượng một ứng dụng nhập học ứng viên bị từ chối do sai lệch mô hình Machine Learning cơ bản. Sự thiên vị có thể có kết quả do dữ liệu sử dụng mô hình nào đã được đào tạo.
  • Tài chính : Trong ngành tài chính, mô hình được xây dựng với dữ liệu sai lệch có thể dẫn đến dự đoán có thể vi phạm Đạo luật cơ hội tín dụng công bằng [cho vay công bằng] bằng cách không chấp thuận yêu cầu tín dụng của người nộp đơn đúng. Và, người dùng cuối có thể thách thức điều tương tự yêu cầu công ty đưa ra lời giải thích cho việc không chấp thuận yêu cầu tín dụng. Luật ban hành năm 1974, nghiêm cấm phân biệt tín dụng dựa trên các thuộc tính như chủng tộc, màu da, tôn giáo, giới tính, v.v. Trong khi xây dựng mô hình, các nhà quản lý sản phẩm [nhà phân tích kinh doanh] và các nhà khoa học dữ liệu thực hiện các bước để đảm bảo dữ liệu chính xác / chung chung các khía cạnh] liên quan đến một số tính năng nêu trên đã được sử dụng để xây dựng [đào tạo / kiểm tra] mô hình, việc loại trừ không chủ ý một số tính năng hoặc bộ dữ liệu quan trọng có thể dẫn đến sai lệch.

Tài liệu tham khảo

  • Bias-Variance Trade-off
  • Xu hướng khác nhau trong học máy
  • Nguy cơ của Xu hướng học máy và cách phòng ngừa

Tóm lược

Trong bài đăng này, bạn đã tìm hiểu về các khái niệm liên quan đến xu hướng mô hình Machine Learning, các thuộc tính / tính năng liên quan đến thiên vị cùng với các ví dụ từ các ngành khác nhau. Ngoài ra, bạn cũng đã tìm hiểu về một số khung có thể được sử dụng để kiểm tra sai lệch. Chủ yếu, sự thiên vị trong các mô hình ML dẫn đến sự thiên vị hiện diện trong suy nghĩ của các nhà quản lý sản phẩm / nhà khoa học dữ liệu làm việc về vấn đề Machine Learning. Họ không nắm bắt được các tính năng quan trọng và bao gồm tất cả các loại dữ liệu để huấn luyện các mô hình dẫn đến sai lệch mô hình. Và một mô hình Machine Learning với độ thiên vị cao có thể dẫn đến các bên liên quan đưa ra các quyết định không công bằng / thiên vị, điều này sẽ ảnh hưởng đến sinh kế và phúc lợi của khách hàng cuối cùng được đưa ra các ví dụ được thảo luận trong bài đăng này. Vì vậy, điều quan trọng là các bên liên quan phải coi trọng việc kiểm tra các mô hình cho sự hiện diện của sai lệch.

  • ai
  • thiên vị máy học thiên vị
  • trí tuệ nhân tạo
  • nhà khoa học dữ liệu
  • các tính năng liên quan đến thiên vị
4 hữu ích 0 bình luận 12k xem chia sẻ

Video liên quan

Chủ Đề