By Arvind Thorat, Viện Khoa học và Công nghệ Kavikulguru
Học máy là khoa học (và nghệ thuật) lập trình máy tính để chúng có thể học từ dữ liệu. Đây là một định nghĩa chung hơn một chút:
[Học máy là] lĩnh vực nghiên cứu cung cấp cho máy tính khả năng học hỏi mà không cần được lập trình rõ ràng.
—Arthur Samuel, 1959
Và một định hướng kỹ thuật hơn:
Một chương trình máy tính được cho là học hỏi từ kinh nghiệm E đối với một số nhiệm vụ T và một số phép đo hiệu suất P, nếu hiệu suất của nó trên T, được đo bằng P, cải thiện theo kinh nghiệm E.
—Tom Mitchell, 1997
Trong bài viết này, chúng ta sẽ thảo luận về thuật ngữ hồi quy logistic, là một thuật toán được sử dụng rộng rãi trong nhiều ngành công nghiệp và các ứng dụng học máy.
Hồi quy logistic
Hồi quy logistic là một phần mở rộng của hồi quy tuyến tính để giải quyết các vấn đề phân loại. Chúng ta sẽ xem một bài toán hồi quy logistic đơn giản được giải quyết như thế nào bằng cách sử dụng tối ưu hóa dựa trên đường xuống dốc, đây là một trong những phương pháp tối ưu hóa phổ biến nhất.
Giả định
Nhiều người trong số các bạn có thể thắc mắc rằng liệu hồi quy logistic có được sử dụng cho nhiều biến độc lập hay không ??
Câu trả lời là có, hồi quy logistic có thể được sử dụng cho bao nhiêu biến độc lập tùy thích. Tuy nhiên, hãy lưu ý rằng bạn sẽ không thể hình dung kết quả trong nhiều hơn ba chiều.
Trước những điểm này, trước tiên chúng ta hãy thảo luận về hàm logistic hay còn gọi là hàm sigmoid.
Chức năng Sigmoid (từ Hình 1)
Hồi quy logistic được đặt tên cho hàm được sử dụng ở cốt lõi của phương pháp, hàm logistic. Nó còn được gọi là hàm sigmoid. Nó được sử dụng để mô tả các thuộc tính của sự gia tăng dân số trong sinh thái, tăng nhanh và đạt cực đại ở khả năng mang của môi trường. Đó là một đường cong ba hình dạng có thể nhận bất kỳ số giá trị nào và ánh xạ nó thành một giá trị từ 0 đến 1, nhưng không bao giờ chính xác ở các giới hạn đó.
Chúng ta có thể lấy được
Sigmoid Function = 1 / 1 + e^-value
Trong đó:
e = base of the natural logarithm
Nó cũng được sử dụng khi chúng ta không thể phân tách dữ liệu thành các lớp bằng một ranh giới tuyến tính.
Từ ví dụ:
p / 1 - p
Ở đâu;
p = probability of an event
Chúng ta có thể tạo công thức từ cái này
log p / 1 - p
Nó cũng được sử dụng trong khoa học sinh học trong những ngày đầu. Sau đó nó được sử dụng trong nhiều ứng dụng khoa học xã hội. Nó được sử dụng khi biến phụ thuộc có tính phân loại.
Đây là một mô hình đơn giản:
Output = 0 or 1
Hypothesis => Z = Wx + B
hҩ(x) = Sigmoid(z)
Có hai điều kiện:
Z = ∞ (infinity)
và
Y(predict) = 1
If Z = -∞
Y(predict) => 0
Trước khi thực hiện bất kỳ thuật toán nào, chúng ta phải chuẩn bị dữ liệu cho nó. Dưới đây là một số phương pháp chuẩn bị dữ liệu cho hồi quy logistic.
Phương pháp luận
- Chuẩn bị dữ liệu
- Biến đầu ra nhị phân
- Loại bỏ tiếng ồn
- Phân phối Gaussian
- Xóa các đầu vào đồng liên quan
Ví dụ về cách sử dụng
- Chấm điểm tín dụng
- Y học
- Chỉnh sửa văn bản
- chơi game
Ưu điểm
Hồi quy logistic là một trong những kỹ thuật hiệu quả nhất để giải các bài toán phân loại. Một số ưu điểm của việc sử dụng hồi quy logistic:
- Logistic Regression dễ thực hiện, dễ hiểu và rất hiệu quả để đào tạo. Nó rất nhanh trong việc phân loại các bản ghi không xác định.
- Nó hoạt động tốt khi tập dữ liệu có thể phân tách tuyến tính.
- Nó có thể giải thích các hệ số của mô hình như là các chỉ số về tầm quan trọng của tính năng.
Điểm yếus
- Nó xây dựng các ranh giới tuyến tính; hồi quy logistic cần rằng biến độc lập có liên quan tuyến tính với tỷ lệ cược.
- Hạn chế chính của hồi quy logistic là giả định về độ tuyến tính giữa biến phụ thuộc và biến độc lập.
- Các thuật toán mạnh mẽ và nhỏ gọn hơn như mạng nơ-ron có thể dễ dàng làm tốt hơn thuật toán này.
Kết luận
Hồi quy logistic là một trong những phương pháp học máy truyền thống. Nó tạo thành một tập hợp các phương pháp tiếp cận ML cơ bản cùng với các thuật toán như hồi quy tuyến tính, phân cụm k-gợi ý, phân tích thành phần chính và một số thuật toán khác. Mạng nơron đã được phát triển dựa trên hồi quy logistic. Bạn có thể sử dụng hồi quy logistic một cách hiệu quả ngay cả khi bạn không phải là chuyên gia ML, không phải là trường hợp của nhiều thuật toán khác. Ngược lại, không thể trở thành bậc thầy ML nếu không có hiểu biết sâu sắc về hồi quy logistic.
Arvind Thorat là Thực tập sinh Khoa học Dữ liệu tại NPPD.