Tổng quan về Logistic regression (hồi quy Logistic) (Phần 1) – Big Data Uni

Bigdatauni. com

Follow Fanpage

Contact

Ở các bài viết trước chúng ta đã tìm hiểu về ứng dụng hồi quy tuyến tính trong lĩnh vực bán lẻ, từ lý thuyết đến triển khai các ví dụ cụ thể cũng như bàn luận về những vấn đề liên quan như đa cộng tuyến, và phương pháp đánh giá độ hiệu quả của mô hình hồi quy tuyến tính. Trong bài viết tuần này và các bài viết sắp tới chúng ta sẽ đi vào tìm hiểu một dạng hồi quy khác, cũng rất phổ biến không chỉ trong lĩnh vực thống kê mà còn ở lĩnh vực khai phá dữ liệu – Data mining, có nhiều ứng dụng trong kinh tế, khoa học và xã hội. Bài viết phần 1 chúng ta sẽ tìm hiểu về hồi quy logistic regression là gì, điểm khác biệt với các loại hồi quy khác, mục đích sử dụng, phương trình và đồ thị tổng quát, và đi vào ví dụ đơn giản đầu tiên.

Hồi quy từ lâu đã trở thành một phần không hề thiếu trong Data analysis tương quan đến việc tìm hiểu và khám phá và nghiên cứu và phân tích mối quan hệ giữa những đối tượng người dùng điều tra và nghiên cứu bộc lộ qua biến tiềm năng ( biến y ) và những biến độc lập ( biến lý giải – những biến x ). Vì những đối tượng người tiêu dùng điều tra và nghiên cứu thường phong phú và khác nhau về thực chất khiến cho loại biến, hay loại tài liệu sẽ khác nhau. Cụ thể tất cả chúng ta có những dạng biến sau. Các bạn hoàn toàn có thể xem lại bài viết về Statistics của BigDataUni để hiểu chi tiết cụ thể hơn :

Tổng quan về Statistics: Descriptive statistics (thống kê mô tả)

Biến (hay dữ liệu) thường có 2 dạng chính là định tính (qualitative/categorical variable), định lượng (quantitative/numerical variable), và biến nhị phân (binary variable).

Biến định tính hay biến phân loại là biến phản ánh tính chất, hay loại hình, không có biểu hiện trực tiếp bằng con số ví dụ giới tính, nghề nghiệp, tình trạng hôn nhân. Có hai dạng Nominal (định danh) ví dụ nghề nghiệp, và Ordinal (thứ bậc) ví dụ thứ hạng (Nhất, nhì,…)

Biến định lượng là biến biểu hiện trực tiếp bằng con số ví dụ tuổi, chiều cao, trọng lượng. Biến định lượng được chia làm 2 loại Discrete (biến định lượng rời rạc) ví dụ số học sinh 1 lớp và Continuous (biến định lượng liên tục) ví dụ nhiệt độ.

Biến nhị phân (binary variable) loại biến chỉ có 2 giá trị, 2 biểu hiện không trùng nhau của một đơn vị, nếu đơn vị không có giá trị này, thì phải chứa giá trị còn lại của biến thay phiên. Ví dụ có hoặc không, sống hoặc chết, rời dịch vụ hoặc còn tiếp tục sử dụng dịch vụ. Biến nhị phân có 2 dạng: Symmetric (đối xứng) và Asymmetric (không đối xứng)

Lưu ý ở 1 số ít tài liệu khác hoàn toàn có thể cho rằng biến rời rạc Discrete là biến định tính, lúc này những biến định danh, biến thứ bậc và biến thay phiên hoàn toàn có thể thuộc biến rời rạc ( do hoàn toàn có thể những giá trị đếm được và khoảng chừng giữa 2 giá trị không mang ý nghĩa ) .

Các loại biến hay loại dữ liệu của biến mục tiêu chính là cơ sở chọn lựa phương pháp hồi quy tương ứng.

  • Với biến mục tiêu là biến định lượng liên tục thì phương pháp hồi quy đầu tiên mà chúng ta đã tìm hiểu qua chính là hồi quy tuyến tính – Linear regression gồm simple linear (tuyến tính đơn biến) và multiple linear (tuyến tính đa biến). Các phương pháp phân tích hồi quy chuyên sâu khác như Rigde regression (ngăn chặn vấn đề đa cộng tuyến và overfitting); Lasso regression (tăng độ chính xác của mô hình khi dự báo bằng cách đơn giản mô hình thông qua lựa chọn biến (variable selection process)); Partial least squares (PLS) regression, Principal component regression (PCA regression),…ngoài ra còn có các mô hình hồi quy phi tuyến khác.
  • Với biến mục tiêu là biến định tính, hay biến thay phiên (hoặc biến rời rạc) thì phương pháp hồi quy chủ yếu, và thường là duy nhất chính là Logistic regression. Với biến định danh (Nominal) chúng ta có phương pháp Nominal Logistic regression, với biến thứ bậc (Ordinal) chúng ta có phương pháp Ordinal Logistic regression hay gọi tắt Ordinal regression, với biến thay phiên chúng ta có phương pháp Binary Logistic regression.

Logistic regression là gì? Mục đích ứng dụng?

Như vậy Logistic regression là giải pháp hồi quy thông dụng nhất, vận dụng cho những biến tiềm năng không phải là biến định lượng liên tục. Ở bài viết lần này và những bài viết sắp tới chúng tối sẽ đa phần trình diễn chi tiết cụ thể về Logistic regression vận dụng cho biến thay phiên hay còn gọi là Binary logistic regression, vì đây là dạng phổ cập nhất trong hồi quy logistic, là dạng tiên phong, và được giảng dạy hầu hết trong những bộ môn tương quan đến thống kê. Các dạng còn lại Ordinal và Nominal, chúng tôi sẽ chỉ trình làng sơ trong một bài viết khác và gửi đến những bạn .

Sự khác biệt của biến mục tiêu chính là cơ sở phân biệt Logistic regression với các phương pháp hồi quy khác điển hình như Linear regression nên các bạn vui lòng lưu ý lại điểm này. Ngoài ra, chính sự khác biệt của biến mục tiêu nên cách thức lập phương trình, dạng phương trình, các giả định xung quanh đều sẽ khác nhau giữa 2 dạng hồi quy này. Tuy nhiên vẫn có điểm chung ở tất cả các phương pháp đó chính là mục tiêu phân tích.

Trước khi mở màn một nghiên cứu và điều tra chi tiết cụ thể về quy mô hồi quy logistic, điều quan trọng là phải hiểu rằng tiềm năng sử dụng quy mô này cũng giống như bất kể quy mô hồi quy nào khác trong thống kê, đó là, tìm ra quy mô phù hợp nhất và tối ưu nhất để diễn đạt mối quan hệ giữa biến tiềm năng y và một tập hợp những biến độc lập x ( biến Dự kiến hoặc lý giải ) qua đó đưa ra những hiệu quả dự báo hay phân loại trong tương lai .
Ví dụ một ngân hàng nhà nước muốn kiến thiết xây dựng một quy mô hồi quy dùng để ước đạt hay dự báo được hay không được cấp phép thẻ tín dụng thanh toán cho một người mua bất kể. Biến tiềm năng y là biến thay phiên chỉ mang 2 giá trị. Giá trị y = 0 nghĩa là không được cấp phép thẻ tín dụng thanh toán, và giá trị y = 1 nghĩa là được cấp phép thẻ tín dụng thanh toán. Với một tập hợp những biến độc lập x ví dụ như tuổi, nghề nghiệp, thu nhập, gia tài, …, ngân hàng nhà nước hoàn toàn có thể sử dụng Logistic regression để dự báo năng lực hay Phần Trăm cấp phép thẻ tín dụng thanh toán cho một người mua bất kể .
Một ví dụ khác của logistic regression trong việc dự báo năng lực xảy ra của một sự kiện, trường hợp trong tương lai. Ví dụ một công ty muốn biết năng lực người mua truy vấn website và chọn những khuyễn mãi thêm trên đó – hoặc không chọn ( đây là 2 giá trị của biến tiềm năng ). Các đặc thù đã biết của người mua truy vấn, ví dụ điển hình như những website khác họ đã truy vấn trước khi vào website công ty, tần suất truy vấn lại vào website công ty, hành vi trên website công ty ( đây là những biến độc lập x ). Các quy mô hồi quy logistic lúc này được sử dụng để xác lập Tỷ Lệ loại khách truy vấn nào có năng lực gật đầu chọn tặng thêm – hay không chọn tặng thêm. Do đó, công ty sẽ hoàn toàn có thể đưa ra quyết định hành động tốt hơn về chiến dịch quảng cáo khuyễn mãi thêm của mình hoặc đưa ra chủ trương tốt hơn về chính khuyến mại đó .

Điểm khác biệt thứ 2 giữa logistic regression và hồi quy tuyến tính, chính là kết quả của biến mục tiêu y trong hồi quy tuyến tính (hay các dạng hồi quy áp dụng cho biến mục tiêu là biến định lượng liên tục) là giá trị số (numerical value) còn kết quả dự báo của biến mục tiêu y trong logistic regression sẽ mang giá trị xác suất (probability) để phân loại đối tượng nghiên cứu hay quyết định giá trị cuối cùng của biến y trong danh mục các giá trị định tính.

Qua đó chúng ta thấy được điểm khác biệt thứ 3 là đối với các dạng hồi quy áp dụng cho biến mục tiêu là biến định lượng thì nhiệm vụ phân tích sau cùng sẽ là đưa ra kết quả dự báo chính xác (value prediction) còn hồi quy logistic sau cùng có cả kết quả phân loại chính xác (category classification). Ví dụ sau khi tính toán, phân loại được khách hàng A sẽ được cấp phát thẻ tín dụng khi giá trị y được dự báo = 1.

Các bạn còn nhớ ở đầu bài viết chúng tôi có nói “…phổ biến không chỉ trong lĩnh vực thống kê mà còn ở lĩnh vực khai phá dữ liệu – Data mining.”. Nguyên nhân là logistic regression có khả năng phân loại đối tượng nghiên cứu dựa trên các yếu tố đầu vào, tức góp phần thực hiện một trong các task quan trọng nhất trong Data mining đó là Classification. Cũng vì thế mà logistic regression ngày nay có khi được ứng dụng phổ biến hơn cả linear regression.

Để biết Classification là gì trong Data mining, bạn nào chưa biết hoàn toàn có thể tìm hiểu thêm bài viết sau của chúng tôi :
Tổng quan về Data mining ( P. 3 ) : quy trình và chiêu thức
Thuật toán KNN và ví dụ đơn thuần trong ngành ngân hàng nhà nước
Theo IBM, Logistic regression hay logit Model được ứng dụng trong nghiên cứu và phân tích dự báo, đã được ứng dụng rộng hơn trong nghành học máy – Machine learning. Logistic regression Open trong những ứng dụng thống kê và khám phá tài liệu, giúp người dùng tìm hiểu và khám phá mối quan hệ giữa biến tiềm năng là biến định tính và một hay nhiều biến độc lập trải qua thiết lập phương trình hồi quy logit .
Ứng dụng logistic regression trong việc kiến thiết xây dựng quy mô dự báo so với những công ty ngày này như thể một giải pháp tạo nên sự độc lạ và lợi thế cạnh tranh đối đầu. Vì đơn thuần những quy mô dự báo sẽ giúp họ khám phá những mối quan hệ, những yếu tố sẽ tác động ảnh hưởng lên lệch giá, doanh thu trong tương lai, trải qua khám phá hành vi của người mua, từ đó ra quyết định hành động, kế hoạch hiệu suất cao hơn. Một nhóm nghiên cứu và phân tích tài liệu của một nhà máy sản xuất sản xuất hoàn toàn có thể sử dụng logistic regression để dự báo năng lực hư hỏng của những thành phần máy móc thiết bị dựa trên khoảng chừng thời hạn chúng được tàng trữ trong kho. Với hiệu quả có được từ quy trình nghiên cứu và phân tích, xí nghiệp sản xuất hoàn toàn có thể đưa ra kế hoạch bảo trì, lắp ráp hài hòa và hợp lý. Còn rất nhiều ứng dụng khác của logistic regression trong kinh doanh thương mại khác mà điển hình như công ty hoàn toàn có thể sử dụng để dự báo năng lực người mua rời dịch vụ, phân khúc người mua theo nhóm mẫu sản phẩm tiềm năng dựa trên đặc thù mua hàng, thông tin cá thể. Trong nghành nghề dịch vụ y tế logistic regression hoàn toàn có thể được sử dụng để Dự kiến năng lực mắc bệnh của một nhóm dân số nhất định để vận dụng những giải pháp phòng ngừa .
Trong nghành ngân hàng nhà nước, logistic regression được dùng để nhìn nhận rủi ro đáng tiếc tín dụng thanh toán. Hãy tưởng tượng rằng bạn là nhân viên cấp dưới cho vay tại ngân hàng nhà nước và bạn muốn xác lập những đặc thù của những người có năng lực nợ xấu ( không hề thanh toán giao dịch nợ ) sau khi vay. Sau đó, bạn muốn sử dụng những đặc thù đó để xác lập rủi ro đáng tiếc tín dụng thanh toán là tốt và xấu cho từng người mua. Bạn có tài liệu trên 1000 người mua trong đó 800 người mua đã nhận được khoản vay. Lúc này logistic regression là giải pháp hữu hiệu nhất. Bạn hoàn toàn có thể sử dụng một mẫu ngẫu nhiên trong số 800 người mua này để tạo quy mô hồi quy logistic và phân loại 200 người mua còn lại có rủi ro tiềm ẩn nợ xấu hay không, trên cơ sở trong 800 người mua ấy có người đã thanh toán giao dịch hàng loạt khoản vay, và người chưa thể thanh toán giao dịch. Ngoài ra trong nghành nghề dịch vụ ngân hàng nhà nước, bên cạnh ngăn ngừa rủi ro đáng tiếc, logistic regression hoàn toàn có thể giúp ngày càng tăng doanh thu bằng cách giúp ngân hàng nhà nước tiếp cận đúng người mua đúng loại sản phẩm, dịch vụ .

Tóm lại vậy khi nào là thích hợp nhất để áp dụng hồi quy logistic vào quy trình phân tích dữ liệu? Thứ nhất, khi chúng ta cần phân loại đối tượng nghiên cứu vào các nhóm, các loại và tên các nhóm, các loại nằm trong dãy giá trị của biến mục tiêu ví dụ phân loại khách hàng mục tiêu vào nhóm A, B, C, D, giá trị sau cùng của biến mục tiêu y = {A, B, C, D} (dạng nomial, ordinal logistic regression). Thứ hai, khi chúng ta dự báo một sự kiện xảy ra trong tương lai chỉ với 2 khả năng có hoặc không, biến mục tiêu y sẽ chỉ có 2 giá trị 0 = không, 1 = có (dạng binary logistic regression – thông dụng nhất.)

Phương trình tổng quát của Logistic regression (binary)

Nếu bạn nào chưa tiếp cận những kỹ năng và kiến thức về hồi quy mà khởi đầu là hồi quy tuyến tính thì có lẽ rằng khi nhìn vào công thức tổng quát của hồi quy logistic chúng tôi sắp nói sau đây sẽ cảm thấy phức tạp. Nhưng thực ra phương trình hồi quy logistic cũng giống như phương trình hồi quy đơn thuần thường thì như ở những dạng khác đơn cử :

Tuy nhiên như đã nói, kết quả của phương trình hồi quy logistic là xác suất và dựa vào xác suất để quyết định giá trị sau cùng của biến y. Đối với hồi quy logistic, biến y chỉ có 2 giá trị ví dụ như có và không, thành công và thất bại, sống sót và chết, còn sử dụng dịch vụ và không còn sử dụng dịch vụ thông thường theo thông lệ các chuyên gia phân tích sẽ gán y = 0 cho các kết quả “không”, “thất bại”, “chết”, “rời dịch vụ”, còn gán y = 1 cho giá trị còn lại. Nói chung là y = 1 thường hướng đến kết quả tích cực, kết quả mong đợi của người phân tích. Các bạn vẫn có thể đặt ngược lại, điều này không sao, nhưng nhớ note lại để tránh bị nhầm lẫn.

Như vậy đúng mực hơn, phương trình tổng quát của hồi quy logistic regression sẽ có dạng tổng quát với p là Tỷ Lệ cần tìm .

Xác suất chỉ có giá trị từ 0 đến 1, trong bài viết này chúng tôi lao lý khi Phần Trăm có giá trị lớn tiến đến 1 thì tương ứng năng lực y = 1 càng cao, và khi Xác Suất có giá trị tiến đến 0 thì tương ứng năng lực y = 0 càng cao. Lưu ý giá trị 0 và 1 của y không phải giá trị số thực, mà là hiệu quả mã hóa ( coding ) của những giá trị định tính của biến y, ví dụ y = 0 nghĩa là đối tượng người tiêu dùng nghiên cứu và điều tra trong tương lai hoàn toàn có thể “ không mua hàng ”, “ đã rời dịch vụ ”, “ nợ xấu ”, y = 1 thì suy ngược lại .
Với p là biến nhờ vào, Tỷ Lệ năng lực y xảy ra 0 hoặc 1 ( chịu ảnh hưởng tác động của biến x ), là biến tất cả chúng ta sẽ dự báo giá trị, x là biến độc lập ( biến tác động ảnh hưởng lên biến phụ thuộc vào ), β0 là giá trị ước đạt của p khi x đạt giá trị 0, β1 dùng để xác lập giá trị trung bình của p tăng hay giảm khi x tăng, ε là sai số, bộc lộ giá trị của những yếu tố khác không hề nghiên cứu và điều tra hết và những yếu tố này vẫn tác động ảnh hưởng lên giá trị p .
Tuy nhiên phương trình tổng quát trên lại không thích hợp trong việc ước đạt Phần Trăm trung bình của biến tiềm năng y cho một đối tượng người dùng bất kể trong toàn diện và tổng thể nghiên cứu và điều tra mặc dầu chúng vẫn bộc lộ mối quan hệ giữa biến y và biến x bằng thông số hồi quy β .
Như đã nói nếu sử dụng phương trình trên thì giá trị Phần Trăm p hoàn toàn có thể không nằm trong số lượng giới hạn 0 và 1, tức hoàn toàn có thể p lớn hơn 1 hoặc p bé hơn 0 mang giá trị âm. Với phương trình trên tất cả chúng ta có :

Đồ thị giống hồi quy tuyến tính, không thích hợp để miêu tả tác dụng nghiên cứu và phân tích hồi quy logistic. Các chuyên viên cho rằng cần thiết kế xây dựng một phương trình hồi quy với đồ thị số lượng giới hạn được Phần Trăm p từ 0 đến 1. Cụ thể như sau :

Phương trình tổng quát của đồ thị dạng đơn biến :

Công thức thể hiện dưới dạng phân số với mẫu số luôn lớn hơn tử số do đó giới hạn giá trị của p nằm giữa 0 và 1. Với đồ thị dạng hình cong chữ S, xác suất p sẽ luôn nằm trong khoảng 0 với 1 tại bất kỳ giá trị nào của x. Ở bài viết tới chúng ta sẽ tìm hiểu kỹ hơn tại sao lại có phương trình trên, còn trong bài viết này chúng tôi sẽ không đề cập chi tiết khi trình bày công thức xác định các hệ số hồi quy β.

Tham số β trong quy mô biểu lộ giá trị trung bình của p tăng hay giảm khi x tăng. Khi β1 > 0, Phần Trăm p tăng khi x tăng. Khi β1 < 0, Tỷ Lệ p giảm khi x tăng. Nếu β1 = 0, p không biến hóa khi x đổi khác, lúc này đường cong sẽ biến thành một đường thẳng nằm ngang. Độ dốc của đường cong tăng khi giá trị tuyệt đối của β1 tăng. Tuy nhiên, không giống như trong đồ thị đường thẳng trong hồi quy tuyến tính, β1 không phải là độ dốc và do đó không hề được hiểu là sự đổi khác về giá trị trung bình p khi x biến hóa 1 đơn vị chức năng. Đối với đường cong hình chữ S này, tỷ suất đường cong dốc lên hoặc thoải, đổi khác như thế nào dựa trên khoanh vùng phạm vi của những giá trị x. Các bạn hãy xem qua đồ thị dưới đây để hiểu rõ hơn .

Bên trên là phương trình tổng quát hồi quy logistic đơn biến với duy nhất 1 biến độc lập và một biến tiềm năng y nên có 1 thông số β1. Trong thực tiễn khi nghiên cứu và phân tích tất cả chúng ta sẽ chăm sóc nhiều hơn đến toàn bộ những yếu tố tương quan đến đối tượng người dùng tiềm năng điều tra và nghiên cứu hay còn gọi là biến y .
Ngoài ra tiềm năng là dự báo hay ước đạt Phần Trăm trung bình dẫn đến năng lực y = 1 hay y = 0 dựa trên phương trình tìm được. Vì vậy phương trình tổng quát tiêu chuẩn dạng đa biến là :

Phương trình tổng quát để ước đạt Xác Suất dạng đa biến :

Ví dụ đơn thuần tiên phong để hiểu sơ về hồi quy logistic, thứ nhất là hồi quy logistic đơn biến. Giả sử một đại lý du lịch tại thành phố Hồ Chí Minh có tài liệu lịch sử vẻ vang về 100 người mua ĐK tour du lịch trong tuần vừa mới qua, trong đó có những người mua ĐK tour hạng sang. Không xét nghề nghiệp, đại lý chỉ muốn tìm hiểu và khám phá thu nhập có tác động ảnh hưởng thế nào đến việc người mua chọn tour du lịch hạng sang hay không. Lấy mẫu 20 người mua để kiến thiết xây dựng quy mô hồi quy logistic .
Với x là biến thu nhập hàng tháng, y là thông tin người mua có hay không ĐK tour hạng sang, y = 1 là có, y = 0 là không. Chúng ta có bộ tài liệu mẫu 20 người mua sau :

Chúng ta sẽ sử dụng ứng dụng thống kê để tìm phương trình hồi quy logistic, ở đây chúng tôi sử dụng SPSS Statistics. Lưu ý thu nhập đơn vị chức năng 1000 VND .

Hệ số β1 của biến thu nhập là 0.000072, β0 là – 1.513. Lưu ý do chênh lệch giữa thu nhập và giá trị coding cho biến ĐK ví dụ giữa 22000 và 1 thì 22000 là số quá lớn so với 1, nên khi giám sát tác dụng thông số β1 sẽ rất nhỏ, nếu những bạn thử chia 1000 và lấy đơn vị chức năng là triệu VND như 22 là 22 triệu thì thông số sẽ là 0.72 không còn quá nhỏ .
Kết quả phương trình hồi quy logistic đơn biến có được là :

P = (e-1.513 + 7.2*10^(-5)*x) / (1 + e-1.513 + 7.2*10^(-5)*x)

Hệ số β1 mang giá trị dương nên khi giá trị x tăng thì xác suất p tăng tức là thu nhập tăng thì khả năng khách hàng đăng ký tour hạng sang cũng tăng.

Giả sử thu nhập người mua thứ 101 là 18 triệu VND / 1 tháng, Xác Suất ước đạt bộc lộ năng lực ĐK tour hạng sang là 44 %. Thu nhập người mua thứ 102 là 25 triệu VND / 1 tháng, Tỷ Lệ ước đạt bộc lộ năng lực ĐK tour hạng sang là 57 %. Các bạn hoàn toàn có thể thay trực tiếp vào công thức để tính .
Như vậy đến đây là kết thúc phần 1 bài viết, ở phần 2 tất cả chúng ta sẽ khám phá sâu hơn về phương trình hồi quy logistic và cũng như những công thức quan trọng khác như nhìn nhận độ hiệu suất cao quy mô, tính đúng mực trong dự báo, sử dụng ví dụ ứng dụng logistic regression trong kinh tế tài chính hay kinh doanh nhỏ để hiểu rõ hơn. Mong những bạn liên tục ủng hộ BigDataUni .

Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.