NGHIÊN CỨU GIẢI PHÁP CẢI TIẾN CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT
KHOA HỌC MÁY TÍNH
Luận án "Nghiên cứu giải pháp cải tiến chất lượng dịch tự động tiếng Việt" của Nguyễn Văn Bình, thuộc chuyên ngành Khoa học Máy tính, được hoàn thành tại Trường Đại học Bách khoa, Đà Nẵng năm 2021. Công trình tập trung giải quyết vấn đề chất lượng dịch tự động tiếng Việt hiện còn hạn chế, đặc biệt với cặp ngôn ngữ Anh – Việt. Mục tiêu chính là đánh giá thực trạng các hệ thống dịch tiếng Việt hiện nay, đề xuất các giải pháp nâng cao chất lượng dịch, và xây dựng một hệ thống dịch tự động Anh – Việt chuyên biệt trong lĩnh vực văn bản quy phạm pháp luật.
Nghiên cứu đã khảo sát các phương pháp đánh giá chất lượng dịch tự động, kho ngữ liệu và các hệ thống dịch tiếng Việt đang hoạt động. Luận án đề xuất các giải pháp cải tiến chất lượng dịch tiếng Việt thông qua hai hướng chính: cải tiến kho ngữ liệu và ứng dụng mô hình học máy mạng nơ ron (NMT). Cụ thể, các giải pháp về kho ngữ liệu bao gồm mở rộng, hợp nhất các kho ngữ liệu hiện có, xây dựng kho ngữ liệu lớn, và cải tiến chất lượng bằng hậu xử lý cùng việc xây dựng kho ngữ liệu làm giàu ngữ nghĩa. Đối với phương pháp dịch, luận án đề xuất áp dụng mô hình NMT, được đánh giá là giải pháp mới và hiệu quả tại thời điểm nghiên cứu, đồng thời phát triển mô hình dịch hướng ngữ nghĩa theo ngữ cảnh.
Các đóng góp chính của luận án bao gồm việc triển khai đánh giá chất lượng chi tiết các hệ thống dịch tiếng Việt, đề xuất các giải pháp cải tiến kho ngữ liệu và phương pháp dịch dựa trên AI, cũng như xây dựng thành công hệ thống dịch tự động Anh – Việt có tên VIKI Translator. Hệ thống này đã được triển khai thực nghiệm trên nền tảng website từ tháng 11 năm 2017, cung cấp chức năng dịch trực tuyến và đạt được kết quả vượt trội so với các hệ thống dịch tiếng Việt hiện hành về các chỉ số BLEU, NIST, WER, đặc biệt trong lĩnh vực văn bản quy phạm pháp luật. VIKI Translator đã thu hút hơn 1,5 triệu lượt sử dụng và nhận được đánh giá tích cực từ người dùng. Luận án cũng đưa ra các hướng phát triển tiếp theo như cải tiến NMT, xây dựng kho ngữ liệu phong phú hơn, mở rộng sang các lĩnh vực khác và tích hợp yếu tố ngữ cảnh toàn văn bản.