Ở bài tìm hiểu về SVM lần trước, ta đã tìm hiểu những khái niệm cơ bản về thuật toán SVM trong bài toán phân nhóm dữ liệu cũng như sử dụng thư viện Scikit-learn để giải bài toán đơn giản phân nhóm dữ liệu thành 2 lớp trong không gian 2 chiều. Trong bài này, ta sẽ áp dụng SVM để giải một bài toán mang tính thực tế hơn: phân nhóm chữ số viết tay.

Định nghĩa Naive Bayes Classification (NBC) là một thuật toán phân loại dựa trên tính toán xác suất áp dụng định lý Bayes mà ta đã tìm hiểu ở bài trước (xem bài trước tại đây). Thuật toán này thuộc nhóm Supervised Learning (Học có giám sát). Theo định lý Bayes, ta có công thức tính xác suất ngẫu nhiên của sự kiện $y$ khi biết $x$ như sau: $$ P(y|x) = \dfrac{P(x|y)P(y)}{P(x)} ~~~~~ (1) $$

Định nghĩa Support Vector Machine (SVM) là một thuật toán thuộc nhóm Supervised Learning (Học có giám sát) dùng để phân chia dữ liệu (Classification) thành các nhóm riêng biệt. Hình dung ta có bộ data gồm các điểm xanh và đỏ đặt trên cùng một mặt phẳng. Ta có thể tìm được đường thẳng để phân chia riêng biệt các bộ điểm xanh và đỏ như hình bên dưới.

Nam Doan

人生はマラソンじゃない!

IT Engineer

Tokyo