Tổng quan về hồi quy logistic

By Arvind Thorat, Viện Khoa học và Công nghệ Kavikulguru

Học máy là khoa học (và nghệ thuật) lập trình máy tính để chúng có thể học từ dữ liệu. Đây là một định nghĩa chung hơn một chút:

[Học máy là] lĩnh vực nghiên cứu cung cấp cho máy tính khả năng học hỏi mà không cần được lập trình rõ ràng.

—Arthur Samuel, 1959

Và một định hướng kỹ thuật hơn:

Một chương trình máy tính được cho là học hỏi từ kinh nghiệm E đối với một số nhiệm vụ T và một số phép đo hiệu suất P, nếu hiệu suất của nó trên T, được đo bằng P, cải thiện theo kinh nghiệm E.

—Tom Mitchell, 1997

Trong bài viết này, chúng ta sẽ thảo luận về thuật ngữ hồi quy logistic, là một thuật toán được sử dụng rộng rãi trong nhiều ngành công nghiệp và các ứng dụng học máy.

Hồi quy logistic

 
Hồi quy logistic là một phần mở rộng của hồi quy tuyến tính để giải quyết các vấn đề phân loại. Chúng ta sẽ xem một bài toán hồi quy logistic đơn giản được giải quyết như thế nào bằng cách sử dụng tối ưu hóa dựa trên đường xuống dốc, đây là một trong những phương pháp tối ưu hóa phổ biến nhất.

Tổng quan về hồi quy logistic

An Overview of Logistic Regression
 

Giả định

 

  • Trong hồi quy logistic nhị phân yêu cầu biến phụ thuộc và hồi quy logistic thứ tự yêu cầu biến phụ thuộc là thứ tự.
  • Việc quan sát không nên đến từ các phép đo lặp lại hoặc dữ liệu phù hợp.
  • Hồi quy logistic bác bỏ đa cộng tuyến giữa các biến độc lập.
  • Nó hoạt động dựa trên giả định về độ tuyến tính độc lập. Nó yêu cầu các biến độc lập liên quan tuyến tính với tỷ lệ cược log.
  • Nhiều người trong số các bạn có thể thắc mắc rằng liệu hồi quy logistic có được sử dụng cho nhiều biến độc lập hay không ??

    Câu trả lời là có, hồi quy logistic có thể được sử dụng cho bao nhiêu biến độc lập tùy thích. Tuy nhiên, hãy lưu ý rằng bạn sẽ không thể hình dung kết quả trong nhiều hơn ba chiều.

    Trước những điểm này, trước tiên chúng ta hãy thảo luận về hàm logistic hay còn gọi là hàm sigmoid.

    Chức năng Sigmoid (từ Hình 1)

     
    Hồi quy logistic được đặt tên cho hàm được sử dụng ở cốt lõi của phương pháp, hàm logistic. Nó còn được gọi là hàm sigmoid. Nó được sử dụng để mô tả các thuộc tính của sự gia tăng dân số trong sinh thái, tăng nhanh và đạt cực đại ở khả năng mang của môi trường. Đó là một đường cong ba hình dạng có thể nhận bất kỳ số giá trị nào và ánh xạ nó thành một giá trị từ 0 đến 1, nhưng không bao giờ chính xác ở các giới hạn đó.

    Chúng ta có thể lấy được

    Sigmoid Function = 1 / 1 + e^-value

    Trong đó:

    e = base of the natural logarithm

    Nó cũng được sử dụng khi chúng ta không thể phân tách dữ liệu thành các lớp bằng một ranh giới tuyến tính.

    Từ ví dụ:

    p / 1 - p

    Ở đâu;

    p = probability of an event

    Chúng ta có thể tạo công thức từ cái này

    log p / 1 - p

    Nó cũng được sử dụng trong khoa học sinh học trong những ngày đầu. Sau đó nó được sử dụng trong nhiều ứng dụng khoa học xã hội. Nó được sử dụng khi biến phụ thuộc có tính phân loại.

    Đây là một mô hình đơn giản:

    Output = 0 or 1

    Hypothesis => Z = Wx + B

    hҩ(x) = Sigmoid(z)

    Có hai điều kiện:

    Z = ∞ (infinity)

    Y(predict) = 1

    If Z = -∞

    Y(predict) => 0

     
    Trước khi thực hiện bất kỳ thuật toán nào, chúng ta phải chuẩn bị dữ liệu cho nó. Dưới đây là một số phương pháp chuẩn bị dữ liệu cho hồi quy logistic.

     
    Phương pháp luận

    1. Chuẩn bị dữ liệu
    2. Biến đầu ra nhị phân
    3. Loại bỏ tiếng ồn
    4. Phân phối Gaussian
    5. Xóa các đầu vào đồng liên quan

     
    Ví dụ về cách sử dụng

    1. Chấm điểm tín dụng
    2. Y học
    3. Chỉnh sửa văn bản
    4. chơi game

     
    Ưu điểm

    Hồi quy logistic là một trong những kỹ thuật hiệu quả nhất để giải các bài toán phân loại. Một số ưu điểm của việc sử dụng hồi quy logistic:

    1. Logistic Regression dễ thực hiện, dễ hiểu và rất hiệu quả để đào tạo. Nó rất nhanh trong việc phân loại các bản ghi không xác định.
    2. Nó hoạt động tốt khi tập dữ liệu có thể phân tách tuyến tính.
    3. Nó có thể giải thích các hệ số của mô hình như là các chỉ số về tầm quan trọng của tính năng.

     
    Điểm yếus

    1. Nó xây dựng các ranh giới tuyến tính; hồi quy logistic cần rằng biến độc lập có liên quan tuyến tính với tỷ lệ cược.
    2. Hạn chế chính của hồi quy logistic là giả định về độ tuyến tính giữa biến phụ thuộc và biến độc lập.
    3. Các thuật toán mạnh mẽ và nhỏ gọn hơn như mạng nơ-ron có thể dễ dàng làm tốt hơn thuật toán này.

    Kết luận

     
    Hồi quy logistic là một trong những phương pháp học máy truyền thống. Nó tạo thành một tập hợp các phương pháp tiếp cận ML cơ bản cùng với các thuật toán như hồi quy tuyến tính, phân cụm k-gợi ý, phân tích thành phần chính và một số thuật toán khác. Mạng nơron đã được phát triển dựa trên hồi quy logistic. Bạn có thể sử dụng hồi quy logistic một cách hiệu quả ngay cả khi bạn không phải là chuyên gia ML, không phải là trường hợp của nhiều thuật toán khác. Ngược lại, không thể trở thành bậc thầy ML nếu không có hiểu biết sâu sắc về hồi quy logistic.

     
     
    Arvind Thorat là Thực tập sinh Khoa học Dữ liệu tại NPPD.

    Rate this post

    Viết một bình luận