Thư viện tách từ tiếng Việt

github.com

Cốc Cốc chia sẻ mã nguồn mở trên github của thư viện tách từ tiếng Việt (tokenizer) vốn dĩ được sử dụng trong công cụ tìm kiếm Cốc Cốc.

Những tính năng chính:

1. Thư viện tokenizer này xử hữu tốc độ dữ liệu nhanh hơn so với những thư viện khác – đây cũng là mục đích mà Cốc Cốc nhắm tới khi bắt đầu dự án. Hiện tại tốc độ xử lý vào khoảng 15 triệu ký tự một giây trên một máy tính cá nhân phổ thông.

2. Chức năng quan trọng nhất hiển nhiên là tách từ tiếng Việt (cả có dấu lẫn không dấu).

3. Chức năng tách các từ được viết liền, ví dụ như “dantri” hay “machinelearningcoban”.

Ở Cốc Cốc, thư viện này là một trong những thành phần trọng yếu, được sử dụng trong những dịch vụ như thêm dấu tự động và kiểm tra lỗi chính tả, trong những bài toán phân loại văn bản, trong định hướng quảng cáo theo hành vi, trong xếp hạng kết quả tìm kiếm...

Read more...
Linkedin

Want to receive more content like this in your inbox?