Đa cộng tuyến trong hồi quy logistic python
Đa cộng tuyến có thể khó phát âm nhưng đó là một chủ đề bạn nên biết trong lĩnh vực máy học. Tôi quen thuộc với nó vì nền tảng thống kê của tôi nhưng tôi đã thấy rất nhiều chuyên gia không biết rằng đa cộng tuyến tồn tại Show
Điều này đặc biệt phổ biến ở những người học máy không có nền tảng toán học. Và mặc dù đúng vậy, đa cộng tuyến có thể không phải là chủ đề quan trọng nhất cần nắm bắt trong hành trình của bạn, nhưng nó vẫn đủ quan trọng để tìm hiểu. Đặc biệt nếu bạn đang ngồi phỏng vấn nhà khoa học dữ liệu Vì vậy, trong bài viết này, chúng ta sẽ hiểu đa cộng tuyến là gì, tại sao lại là vấn đề, nguyên nhân gây ra đa cộng tuyến, từ đó tìm hiểu cách phát hiện và khắc phục đa cộng tuyến Trước khi đi sâu hơn, bắt buộc phải có hiểu biết cơ bản về hồi quy và một số thuật ngữ thống kê. Đối với điều này, tôi thực sự khuyên bạn nên xem qua các tài nguyên bên dưới Mục lục
Đa cộng tuyến là gì?
Điều này có nghĩa là một biến độc lập có thể được dự đoán từ một biến độc lập khác trong mô hình hồi quy. Ví dụ: chiều cao và cân nặng, thu nhập hộ gia đình và mức tiêu thụ nước, quãng đường đã đi và giá xe, thời gian học tập và giải trí, v.v. Hãy để tôi lấy một ví dụ đơn giản từ cuộc sống hàng ngày của chúng ta để giải thích điều này. Colin thích vừa xem tivi vừa nhai khoai tây chiên. Anh ấy càng xem nhiều TV, anh ấy càng ăn nhiều khoai tây chiên và càng hạnh phúc Bây giờ, nếu chúng ta có thể định lượng hạnh phúc và đo lường mức độ hạnh phúc của Colin khi anh ấy đang bận rộn thực hiện hoạt động yêu thích của mình, bạn nghĩ điều gì sẽ có tác động lớn hơn đến hạnh phúc của anh ấy? . Và khoảnh khắc chúng tôi thử đo mức độ hạnh phúc của anh ấy khi xem tivi, anh ấy bắt đầu ăn khoai tây chiên Ăn khoai tây chiên và xem tivi có mối tương quan cao trong trường hợp của Colin và chúng ta không thể xác định riêng lẻ tác động của các hoạt động cá nhân đối với hạnh phúc của anh ấy. Đây là vấn đề đa cộng tuyến Vậy tại sao bạn phải lo lắng về đa cộng tuyến trong bối cảnh máy học? Vấn đề có đa cộng tuyếnĐa cộng tuyến có thể là một vấn đề trong mô hình hồi quy vì chúng ta sẽ không thể phân biệt giữa các tác động riêng lẻ của các biến độc lập lên biến phụ thuộc. Ví dụ: giả sử rằng trong phương trình tuyến tính sau Y = W0+W1*X1+W2*X2 Hệ số W1 là mức tăng của Y khi X1 tăng một đơn vị trong khi giữ X2 không đổi. Nhưng vì X1 và X2 có mối tương quan cao, những thay đổi trong X1 cũng sẽ gây ra những thay đổi trong X2 và chúng ta sẽ không thể thấy tác động riêng lẻ của chúng đối với Y
Đa cộng tuyến có thể không ảnh hưởng nhiều đến độ chính xác của mô hình. Nhưng chúng tôi có thể mất độ tin cậy trong việc xác định tác động của các tính năng riêng lẻ trong mô hình của bạn – và đó có thể là một vấn đề khi nói đến khả năng diễn giải Điều gì gây ra đa cộng tuyến?Đa cộng tuyến có thể xảy ra do các vấn đề sau
Phát hiện đa cộng tuyến bằng VIFHãy thử phát hiện đa cộng tuyến trong một tập dữ liệu để giúp bạn biết điều gì có thể xảy ra sai sót Tôi đã tạo một bộ dữ liệu xác định mức lương của một người trong công ty dựa trên các tính năng sau
Đa cộng tuyến có thể được phát hiện thông qua các phương pháp khác nhau. Trong bài viết này, chúng tôi sẽ tập trung vào một vấn đề phổ biến nhất – VIF (Các yếu tố lạm phát có thể thay đổi)
Giá trị R^2 được xác định để tìm hiểu xem một biến độc lập được mô tả tốt như thế nào bởi các biến độc lập khác. Giá trị R^2 cao có nghĩa là biến này có tương quan cao với các biến khác. Điều này được ghi lại bởi VIF được ký hiệu bên dưới Vì vậy, giá trị R^2 càng gần 1, giá trị của VIF càng cao và tính đa cộng tuyến với biến độc lập cụ thể càng cao
Ở đây chúng ta có thể thấy rằng ‘Tuổi tác’ và ‘Số năm phục vụ’ có giá trị VIF cao, nghĩa là chúng có thể được dự đoán bởi các biến độc lập khác trong bộ dữ liệu
Khắc phục đa cộng tuyếnLoại bỏ một trong các tính năng tương quan sẽ giúp giảm tính đa cộng tuyến giữa các tính năng tương quan Hình bên trái chứa giá trị VIF ban đầu cho các biến và hình bên phải là sau khi loại bỏ biến 'Tuổi' Chúng tôi có thể loại bỏ biến 'Tuổi' khỏi tập dữ liệu vì thông tin của nó đang được biến 'Số năm phục vụ' nắm bắt. Điều này đã làm giảm sự dư thừa trong tập dữ liệu của chúng tôi Việc loại bỏ các biến phải là một quá trình lặp đi lặp lại bắt đầu với biến có giá trị VIF lớn nhất vì xu hướng của nó bị các biến khác nắm bắt cao. Nếu bạn làm điều này, bạn sẽ nhận thấy rằng các giá trị VIF cho các biến khác cũng sẽ giảm, mặc dù ở một mức độ khác nhau. Trong ví dụ của chúng tôi, sau khi loại bỏ biến 'Tuổi', các giá trị VIF cho tất cả các biến đã giảm ở một mức độ khác nhau Tiếp theo, kết hợp các biến tương quan thành một và loại bỏ các biến khác. Điều này sẽ làm giảm đa cộng tuyến Hình bên trái chứa giá trị VIF ban đầu cho các biến và hình bên phải là sau khi kết hợp biến 'Tuổi' và 'Số năm phục vụ'. Việc kết hợp 'Tuổi' và 'Số năm kinh nghiệm' thành một biến duy nhất 'Tuổi_tại_gia' cho phép chúng tôi thu thập thông tin trong cả hai biến Tuy nhiên, đa cộng tuyến không phải lúc nào cũng là vấn đề. Việc khắc phục đa cộng tuyến phụ thuộc chủ yếu vào các nguyên nhân sau
Ghi chú kết thúcKiến thức về đa cộng tuyến có thể khá hữu ích khi bạn đang xây dựng các mô hình học máy có thể hiểu được Tôi hy vọng bạn thấy bài viết này hữu ích trong việc hiểu vấn đề về đa cộng tuyến và cách giải quyết nó. Nếu bạn muốn hiểu các mô hình hồi quy khác hoặc muốn hiểu diễn giải mô hình, tôi thực sự khuyên bạn nên xem qua các bài viết tuyệt vời sau đây Làm cách nào để kiểm tra đa cộng tuyến trong hồi quy logistic bằng Python?Để kiểm tra tính đa cộng tuyến trong các biến độc lập, kỹ thuật Hệ số lạm phát phương sai (VIF) được sử dụng . Các biến có điểm VIF >10 nghĩa là tương quan rất chặt. Do đó, chúng bị loại bỏ và loại trừ trong mô hình hồi quy logistic.
Có thể có đa cộng tuyến trong hồi quy logistic không?Đa cộng tuyến là một hiện tượng thống kê trong đó các biến dự đoán trong mô hình hồi quy logistic có mối tương quan cao . Không có gì lạ khi có một số lượng lớn các đồng biến trong mô hình.
VIF trong hồi quy logistic là gì?Hệ số lạm phát phương sai (VIF) là thước đo mức độ đa cộng tuyến trong phân tích hồi quy . Đa cộng tuyến tồn tại khi có mối tương quan giữa nhiều biến độc lập trong mô hình hồi quy bội. Điều này có thể ảnh hưởng xấu đến kết quả hồi quy. |