Đánh giá sự phù hợp của mô hình hồi quy năm 2024

Một công việc quan trọng của bất kỳ thủ tục thống kê xây dựng mô hình từ dữ liệu nào cũng đều là chứng minh sự phù hợp của mô hình. Để biết mô hình hồi quy tuyến tính đã xây dựng trên dữ liệu mẫu phù hợp đến mức độ nào với dữ liệu, chúng ta cần dùng một thước đo nào đó về độ phù hợp của nó.

1. R bình phương là gì?

Một thước đo sự phù hợp của mô hình tuyến tính thường dùng là hệ số xác định R bình phương [Coefficient of Determination]. Công thức tính R bình phương [R square] xuất phát từ ý tưởng xem toàn bộ biến thiên quan sát được của biến phụ thuộc được chia thành 2 phần: phần biến thiên do Hồi quy [Regression] và phần biến thiên do Phần dư [Residual]. Nếu phần biến thiên do Phần dư càng nhỏ, nghĩa là khoảng cách từ các điểm quan sát đến đường ước lượng hồi quy càng nhỏ thì phần biến thiên do Hồi quy sẽ càng cao, khi đó giá trị R bình phương sẽ càng cao.

Hệ số R bình phương là hàm không giảm theo số biến độc lập được đưa vào mô hình, nếu chúng ta càng đưa thêm biến độc lập vào mô hình thì R bình phương càng tăng. Tuy nhiên, điều này cũng được chứng minh rằng không phải phương trình càng có nhiều biến thì càng tốt hơn.

2. R bình phương hiệu chỉnh là gì?

Ý nghĩa của R bình phương hiệu chỉnh cũng giống như R bình phương là phản ánh mức độ phù hợp của mô hình. R bình phương hiệu chỉnh được tính từ R bình phương thường được sử dụng hơn vì giá trị này phản ánh sát hơn mức độ phù hợp của mô hình hồi quy tuyến tính đa biến. R bình phương hiệu chỉnh không nhất thiết tăng lên khi chúng ta đưa thêm các biến độc lập vào mô hình.

So sánh 2 giá trị như ở hình trên, giá trị R bình phương hiệu chỉnh [Adjusted R Square] nhỏ hơn giá trị R bình phương [R Square], dùng nó để đánh giá độ phù hợp của mô hình sẽ an toàn hơn vì nó không thổi phồng mức độ phù hợp của mô hình.

3. Ý nghĩa của R bình phương hiệu chỉnh

Mức dao động của R bình phương hiệu chỉnh là từ 0 đến 1, tuy nhiên việc đạt được mức giá trị bằng 1 là gần như không tưởng dù mô hình đó tốt đến nhường nào.

Về ý nghĩa của R bình phương hiệu chỉnh, như đã đề cập ở trên. Chỉ số này phản ánh mức độ giải thích của các biến độc lập đối với biến phụ thuộc trong mô hình hồi quy.

Trong ví dụ đọc kết quả hồi quy trên SPSS ở trên, giá trị R bình phương hiệu chỉnh là 0.725. Như vậy, các biến độc lập giải thích được 72.5% sự biến thiên của biến phụ thuộc. Phần còn lại 27.5% được giải thích bởi các biến ngoài mô hình và sai số ngẫu nhiên.

4. R bình phương hiệu chỉnh dưới 0.5 [50%]

Không có tiêu chuẩn chính xác R bình phương hiệu chỉnh ở mức bao nhiêu thì mô hình mới đạt yêu cầu, chỉ số này nếu càng tiến về 1 thì mô hình càng có ý nghĩa, càng tiến về 0 thì ý nghĩa mô hình càng yếu. Mức R bình phương này phụ thuộc vào số lượng biến độc lập tác động vào biến phụ thuộc của phép hồi quy đó. Nhiều biến độc lập tác động vào biến phụ thuộc Y chúng ta thường sẽ kỳ vọng mức R2 cao hơn so với chỉ có 1 biến độc lập tác động vào Y bởi Y sẽ được giải thích bởi nhiều yếu tố hơn.

Thường với hồi quy SPSS ở mô hình đơn giản nhiều độc lập tác động vào 1 phụ thuộc, chúng ta chọn mức trung gian là 0.5 để phân ra 2 nhánh ý nghĩa mạnh/ý nghĩa yếu, từ 0.5 đến 1 thì mô hình là tốt, bé hơn 0.5 là mô hình chưa tốt. Tuy nhiên, điều này chỉ phù hợp trong một số ít tình huống, việc yêu cầu giá trị R2 phải lớn hơn 0.5 là đi ngược với lý thuyết thống kê.

Như vậy, nếu kết quả hồi quy bạn phân tích được có R bình phương hiệu chỉnh dưới 50% [0.5] thì kết quả vẫn được chấp nhận.

Nếu bạn gặp khó khăn khi thực hiện phân tích hồi quy vì số liệu khảo sát không tốt, vi phạm các tiêu chí kiểm định. Bạn có thể tham khảo dịch vụ chạy SPSS của Phạm Lộc Blog hoặc liên hệ trực tiếp email xulydinhluong@gmail.com để tối ưu thời gian làm bài và đạt kết quả tốt.

Trong hồi quy tuyến tính, toàn bộ biến thiên quan sát được của biến phụ thuộc được chia làm hai phần: phần biến thiên do hồi quy [gây ra bởi các biến độc lập] được biểu thị bằng R2 và phần biến thiên do phần dư [residual] gây ra. Chúng ta sẽ tìm hiểu chi tiết hai khái niệm này.

1. Độ phù hợp của mô hình

Các điểm dữ liệu luôn phân tán và có xu hướng tạo thành dạng một đường thẳng chứ không phải là một đường thẳng hoàn toàn. Do đó, hầu như không có đường thẳng nào có thể đi qua toàn bộ tất cả các điểm dữ liệu, luôn có sự sai lệch giữa các giá trị ước tính và các giá trị thực tế. Chúng ta sẽ cần tính toán được mức độ sai lệch đó cũng như mức độ phù hợp của mô hình hồi quy tuyến tính với tập dữ liệu. Một thước đo sự phù hợp của mô hình hồi quy tuyến tính thường dùng là hệ số xác định R2 [R square]. Khi phần lớn các điểm dữ liệu tập trung sát vào đường hồi quy, giá trị R2 sẽ cao, ngược lại, nếu các điểm dữ liệu phân bố rải rác cách xa đường hồi quy, R2 sẽ thấp.

Khi chúng ta đưa thêm biến độc lập vào phân tích hồi quy, R2 có xu hướng tăng lên. Điều này dẫn đến một số trường hợp mức độ phù hợp của mô hình hồi quy bị thổi phồng khi chúng ta đưa vào các biến độc lập giải thích rất yếu hoặc không giải thích cho biến phụ thuộc. Trong SPSS, bên cạnh chỉ số R2, chúng ta còn có thêm chỉ số R2 Adjusted [R2 hiệu chỉnh]. Chỉ số R2 hiệu chỉnh không nhất thiết tăng lên khi nhiều biến độc lập được thêm vào hồi quy, do đó R2 hiệu chỉnh phản ánh độ phù hợp của mô hình chính xác hơn hệ số R2.

R2 hay R2 hiệu chỉnh đều có mức dao động trong đoạn từ 0 đến 1. Nếu R2 càng tiến về 1, các biến độc lập giải thích càng nhiều cho biến phụ thuộc, và ngược lại, R2 càng tiến về 0, các biến độc lập giải thích càng ít cho biến phụ thuộc. Ví dụ, một mô hình hồi quy với biến phụ thuộc Y và hai biến độc lập: X1, X2 cho ra giá trị R2 hiệu chỉnh là 0.40. Điều này có nghĩa, hai biến độc lập đưa vào phân tích hồi quy giải thích được 40% sự biến thiên của biến phụ thuộc, 60% còn lại được giải thích bởi phần dư gồm các biến độc lập ngoài mô hình và sai số ngẫu nhiên.

Không có tiêu chuẩn chính xác R2 ở mức bao nhiêu thì mô hình mới đạt yêu cầu. Cần lưu ý rằng, không phải luôn luôn một mô hình hồi quy có R2 cao thì nghiên cứu có giá trị cao, mô hình có R2 thấp thì nghiên cứu đó có giá trị thấp, độ phù hợp mô hình hồi quy không có mối quan hệ nhân quả với giá trị của bài nghiên cứu. Trong nghiên cứu lặp lại, chúng ta thường chọn mức trung gian là 0.5 để phân ra 2 nhánh ý nghĩa mạnh/ý nghĩa yếu và kỳ vọng từ 0.5 đến 1 thì mô hình là tốt, bé hơn 0.5 là mô hình chưa tốt. Tuy nhiên, điều này không thực sự chính xác bởi việc đánh giá giá trị R2 sẽ phụ thuộc rất nhiều vào các yếu tố như lĩnh vực nghiên cứu, tính chất nghiên cứu, cỡ mẫu, số lượng biến tham gia hồi quy, kết quả các chỉ số khác của phép hồi quy,…

Chúng ta cần đánh giá độ phù hợp mô hình một cách chính xác qua kiểm định giả thuyết. Để kiểm định độ phù hợp mô hình hồi quy, chúng ta đặt giả thuyết H0: R2 = 0. Phép kiểm định F được sử dụng để kiểm định giả thuyết này. Kết quả kiểm định:

Sig < 0.05: Bác bỏ giả thuyết H0, nghĩa là R2 ≠ 0 một cách có ý nghĩa thống kê, mô hình hồi quy là phù hợp.
Sig > 0.05: Chấp nhận giả thuyết H0, nghĩa là R2 = 0 một cách có ý nghĩa thống kê, mô hình hồi quy không phù hợp.

Trong SPSS, các số liệu của kiểm định F được lấy từ bảng phân tích phương sai ANOVA.

Nếu bạn gặp vấn đề với kiểm định độ phù hợp mô hình hồi quy như sig kiểm định F lớn hơn 0.05, R bình phương mang giá trị âm hoặc quá thấp đến mức mô hình không có ý nghĩa, có thể tham khảo dịch vụ chạy SPSS thuê từ Xử Lý Định Lượng nhé.

2. Phần dư

Như đã đề cập ở trên, đường hồi quy không thể đi qua toàn bộ các điểm dữ liệu, sẽ có những điểm nằm ngoài đường hồi quy. Khoảng cách từ mỗi điểm dữ liệu đến đường hồi quy được coi là phần dư ε trong hồi quy [nếu trên dữ liệu tổng thể gọi là sai số]. Khoảng cách này càng lớn thì phần dư càng cao. Phần dư lớn đồng nghĩa R2 sẽ nhỏ, mô hình hồi quy càng ít có ý nghĩa.

Hầu hết các dữ liệu không phù hợp tuyệt đối với đường hồi quy mà sẽ luôn tồn tại phần dư đi đôi. Điều này là hoàn toàn dễ hiểu trên thực tế, bởi việc chúng ta tìm được các biến độc lập giải thích được toàn bộ biến thiên của biến phụ thuộc là điều không thể xảy ra. Tuy nhiên, phần dư không nên quá lớn, bởi phần dư càng lớn các biến độc lập đưa vào phân tích hồi quy càng mang ít ý nghĩa, chúng ta sẽ không tìm được thông tin hữu ích từ kết quả phân tích hồi quy.

Mô hình hồi quy tuyến tính bởi là gì?

Hồi quy tuyến tính bội là một phần mở rộng của hồi quy tuyến tính đơn. Nó được sử dụng khi chúng ta muốn dự đoán giá trị của một biến phản hồi dựa trên giá trị của hai hoặc nhiều biến giải thích khác. Biến chúng ta muốn dự đoán được gọi là biến phản hồi [hoặc đôi khi là biến phụ thuộc].

Phần dư trọng mô hình hồi quy là gì?

Phần dư là chênh lệch giữa dữ liệu quan sát được và giá trị dự đoán. Phần dư không được có một mô hình nhận dạng được giữa chúng. Ví dụ: bạn không muốn phần dư tăng lên theo thời gian. Bạn có thể sử dụng các bài kiểm tra toán học khác nhau, như kiểm tra Durbin-Watson, để xác định phần dư độc lập.

Các biến độc lập giải thích được bao nhiêu phần trăm sự thay đổi của biến Phủ thuộc?

Như vậy, các biến độc lập giải thích được 72.5% sự biến thiên của biến phụ thuộc. Phần còn lại 27.5% được giải thích bởi các biến ngoài mô hình và sai số ngẫu nhiên.

Phần dự EI là gì?

Các phần dư ei phản ánh chênh lệch giữa giá trị cá biệt Y i trong mẫu W với giá trị ước lượng được Ŷi . Bản chất của các phần dư ei giống như các sai số ngẫu nhiên ui.