Máy vector hỗ trợ (tiếng Anh: Support Vector Machine – SVM) là một thuật toán giúp tìm ra một siêu phẳng phân cách tối ưu để có thể phân chia dữ liệu tuyến tính ra làm hai lớp khác nhau.
Hình minh họa
Máy vector hỗ trợ (Support Vector Machine – SVM)
Khái niệm
Máy vector hỗ trợ trong tiếng Anh là Support Vector Machine, viết tắt: SVM.
Máy vector hỗ trợ là một thuật toán giúp tìm ra một siêu phẳng phân cách tối ưu để có thể phân chia dữ liệu tuyến tính ra làm hai lớp khác nhau.
Máy vectơ hỗ trợ (SVM) là một trong những thuật toán phổ biến nhất trong học máy, được sử dụng để phân loại, hồi qui và phát hiện điểm dữ liệu bất thường.
Hình 1
Hình A (bên trái) trình bày một tập dữ liệu đơn giản với hai đặc tính (tọa độ x và y) được gán thành hai nhóm (hình tam giác và hình chữ thập) và tách thành hai vùng riêng biệt, có thể đại diện cho các cổ phiếu có lợi nhuận dương và âm trong một năm nhất định.
Hai vùng này có thể dễ dàng phân tách bằng nhiều đường thẳng; ba trong số chúng được hiển thị trong hình B (bên phải). Dữ liệu được phân tách tuyến tính và bất kỳ đường thẳng nào được hiển thị sẽ được gọi là phân loại tuyến tính – một phân loại nhị phân dựa trên sự kết hợp tuyến tính đặc trưng của từng điểm dữ liệu.
Ý tưởng đằng sau thuật toán SVM là tối đa hóa xác suất đưa ra dự đoán chính xác bằng cách xác định đường biên cách các quan sát xa nhất.
Hình 2: SVM phân tách dữ liệu bằng dải bóng mờ chia các quan sát thành hai nhóm. Đường thẳng ở giữa dải bóng mờ là đường biên (boundary).
Ứng dụng
SVM có nhiều ứng dụng trong quản lí đầu tư. Nó đặc biệt phù hợp với các tập dữ liệu có qui mô từ nhỏ đến trung bình nhưng phức tạp, chẳng hạn như báo cáo tài chính doanh nghiệp hoặc cơ sở dữ liệu phá sản. Các nhà đầu tư tìm cách dự đoán các công ty hoạt động kém hiệu quả để xác định cổ phiếu để tránh đầu tư hoặc bán khống.
SVM có thể tạo ra một phân loại nhị phân (ví dụ: có khả năng phá sản so với khó có khả năng phá sản) bằng cách sử dụng nhiều biến số cơ bản và kĩ thuật. SVM có thể nhanh chóng nắm bắt các đặc điểm của dữ liệu đó với nhiều tính năng trong khi vẫn linh hoạt với các điểm dữ liệu bất thường và các đặc tính tương quan.
SVM cũng có thể được sử dụng để phân loại văn bản từ các tài liệu (ví dụ: tin tức, thông báo của các công ty và báo cáo thường niên của công ty) thành các nhóm hữu ích cho các nhà đầu tư (ví dụ: tâm lí tích cực và tâm lí tiêu cực).
(Tài liệu tham khảo: CFA level II, 2020, Quantitative methods)