Đa cộng tuyến (Multicollinearity) là gì? Nguyên nhân, phát hiện và cách khắc phục

5/5 – ( 5 bầu chọn )

Hiện tượng Đa cộng tuyến (Multicollinearity) đơn giản là hiện tượng tạo nên từ mối quan hệ tương quan mạnh giữa các biến độc lập với nhau trong mô hình hồi quy tuyến tính. Hiện tượng này được thể hiện dưới dạng hàm số sau khi vi phạm giả thuyết của mô hình hồi quy tuyến tính cổ điện (Giả thuyết: Các biến độc lập không có quan hệ tuyến tính với nhau)

 Đa cộng tuyến (Multicollinearity) là gì?  Đa cộng tuyến (Multicollinearity) là gì?

1. Đa cộng tuyến ( Multicollinearity ) là gì?

Khái niệm: (Đa cộng tuyến trong tiếng Anh gọi là Multicollinearity)

Đa cộng tuyến là hiện tượng tạo nên từ mối quan hệ tương quan mạnh giữa các biến độc lập với nhau trong mô hình hồi quy tuyến tính.

Mosl.vn

 Đa cộng tuyến (Multicollineartity) Đa cộng tuyến (Multicollineartity) Hiện tượng này được biểu lộ dưới dạng hàm số sau khi vi phạm giả thuyết của quy mô hồi quy tuyến tính cổ xưa
( Giả thuyết vi phạm : Các biến độc lập không có quan hệ tuyến tính với nhau )

2. Nguyên nhân xảy ra hiện tượng đa cộng tuyến ( Multicollinearity )

2.1. Nguyên nhân chính

Hiện tượng đa cộng tuyến xảy ra khi nào ?

Có nhiều nguyên nhân khác nhau nhưng nhìn chung sẽ có 2 nguyên nhân chính như sau:

  1. Dữ liệu thu thập không sát với thực tế hay chất lượng dữ liệu kém.
  2. Khi xét khía cạnh thực tế các biến trong mô hình có mối tương quan thật với nhau

2.2. Nguyên nhân phụ kèm theo

Trong 2 nguyên do chính trên sẽ có nguyên do phụ kèm theo tuỳ vào giải pháp thu thập dữ liệu .

Các nguyên nhân bao gồm:

  • Đối với phương pháp thu thập dữ liệu thông qua bảng khảo sát thì nguyên nhân chính là do cách xây dựng các nhân tố có rất ít sự khác biệt với nhau.

(Ví dụ về đa cộng tuyến: Hai nhân tố tài chínhthu nhập chẳng hạn)

  • Đối với phương pháp thu thập dữ liệu thứ cấp như dữ liệu về tài chính, vĩ mô, biến động giá… thì nguyên nhân là do bạn thu thập sai dữ liệu cụ thể là bị nhầm lẫn các biến cần thu thập và nguyên nhân còn lại là do cách chọn biến của bạn có sự tương đồng cao trong thực tế.
  • Dữ liệu của một trong số các biến trong tập bị thiếu hay còn gọi là giá trị missing value.
  • Biến giả sai do chọn biến giả chung hoặc 1 số các danh mục biến đã có trong mô hình.
  • Chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao.
  • Chọn nhầm biến là sự kết hợp giữa 2 biến khác cùng nằm trong mô hình.

3. Cách phát hiện hiện tượng đa cộng tuyến ( Multicollinearity )

Có hai cách phát hiện ra hiện tượng kỳ lạ đa cộng tuyến trong ứng dụng hồi quy .
Ở đây Mosl. vn sử dụng ứng dụng Stata để diễn đạt cho 2 cách phát hiện này .

Tham khảo thêm cách chạy ứng dụng Stata : Phần mềm Stata

Cách 1: Căn cứ phát hiện từ quy mô ma trận thông số đối sánh tương quan

Mô hình hệ số tương quanMô hình ma trận hệ số tương quanMô hình ma trận thông số đối sánh tương quan được sử dụng để xác lập mối quan hệ giữa biến độc lập với những biến nhờ vào và giữa những biến phụ thuộc vào với nhau .

  • Trong hình có thể thấy hai biến SIZE

    LIQ

    có giá trị p-value dưới hệ số tương quan là 0.0000 điều này cho thấy giữa hai biến này có mối quan hệ tuyến tính với nhau nên khả năng cao hai biến này sẽ bị đa cộng tuyến.

  • Tương tự, biến INFbiến GROWTH có giá trị p-value = 0.0002 cho thấy giữa hai biến này có mối quan hệ tuyến tính nên khả năng cũng sẽ bị đa cộng tuyến trong hai biến.

Cách này nhìn chung sẽ cho những bạn 1 cái nhìn tổng quan về mối đối sánh tương quan giữa những biến và cho bạn Dự kiến trước được biến nào sẽ bị đa cộng tuyến trong quy mô .

Cách 2: Căn cứ kiểm định đa cộng tuyến bằng chỉ số VIF (Variance Inflation Factor)

Cách này bạn sẽ sử dụng hệ số phóng đại phương sai VIF (Variance inflation factor) để xác định rõ ràng được mối quan hệ giữa các biến độc lập và sức mạnh của mối quan hệ này.

Tiêu chuẩn so sánh hệ số VIF như sau:

  • Đối với các dạng bài thuộc về ngành Công nghệ; Kỹ thuật; Vật Lý; Hoá học… : thì lấy mức so sánh cho hệ số VIF với 10. Cụ thể: Nếu VIF < 10 thì không có hiện tượng đa cộng tuyến và nếu VIF > 10 thì xảy ra hiện tượng đa cộng tuyến.
  • Đối với các dạng bài thuộc về ngành tài chính; nhân sự; kinh tế; khoa học; xã hội… : thì sẽ lấy mức so sánh cho hệ số VIF với 2. Cụ thể: Nếu VIF < 2 thì không có hiện tượng đa cộng tuyến và nếu VIF > 2 thì xảy ra hiện tượng đa cộng tuyến.

kiểm định đa cộng tuyến VIFKiểm định đa cộng tuyến VIF

  • Từ hình trên có thể thấy biến DAhệ số VIF là 2.37 và bộ dữ liệu mà mosl.vn sử dụng thuộc chuyên ngành tài chính nên theo đó hệ số so sánh sẽ là 2. Vậy kết luận biến DA bị đa cộng tuyến.
  • Tiếp theo, tại buối bảng là chỉ số Mean VIF (Giá trị trung bình VIF) = 1.43 < 2 nên kết luận mô hình không xảy ra hiện tượng đa cộng tuyến. (Mặc dù biến DA bị đa cộng tuyến nhưng khi xem xét tổng quan thì có thể lượt bỏ đi lỗi nhỏ tại biến này)

4. Cách khắc phục hậu quả của đa cộng tuyến ( Multicollinearity ) gây ra

Khi mô hình của bạn xảy ra hiện tượng đa cộng tuyến, hãy nhớ cân nhắc sử dụng các giải pháp khắc phục như sau nhé:

  • Cân nhắc loại bỏ các biến mà có chỉ số VIF thể hiện rằng biến đã bị đa cộng tuyến.
  • Gia tăng cỡ mẫu thu thập thêm cho nghiên cứu

Ví dụ như ngày càng tăng số lượng phiếu khảo sát hay ngày càng tăng số lượng năm, số thành viên tích lũy .

  • Thay đổi, tái cấu trúc dạng mô hình có thể là từ mô hình tuyến tính sang mô hình phi tuyến, hoặc chuyển sang các mô hình đặt biệt khác….
  • Giải pháp cuối cùng hết sức quan trọng là trước khi thực hiện một mô hình nghiên cứu bạn cần phải tham khảo từ một số paper nghiên cứu trước đó rồi hãy kết luận xem các biến nào nên hoặc không nên đưa vào mô hình; test trước bộ dữ liệu sơ cấp trên phần mềm để giúp đưa ra nhận định và hướng giải quyết sớm cho mô hình.

5. Kết luận về đa cộng tuyến

Đa cộng tuyến là một trong các khuyết tật mà bạn sẽ gặp trong quá trình làm nghiên cứu.

Hãy tìm hiểu thêm cách mosl.vn đã giải đáp để sớm khắc phục được hiện tượng kỳ lạ này nhé !
Cuối bài MOSL xin chúc những bạn học tập và thao tác hiệu suất cao .

Tag :