Đăng nhập để tải tài liệu không giới hạn
Tham gia 8.000+ người dùng Thư Viện Luận Án
Đang tải tài liệu...
PHÁT TRIỂN MỘT SỐ KỸ THUẬT TRONG DỊCH MÁY THỐNG KÊ VỚI TÀI NGUYÊN SONG NGỮ HẠN CHẾ CHO CẶP NGÔN NGỮ VIỆT - ANH
Cơ sở toán học cho tin học
Luận án này tập trung vào việc phát triển các kỹ thuật nhằm nâng cao chất lượng hệ thống dịch máy thống kê (SMT) cho cặp ngôn ngữ Việt – Anh, đặc biệt trong bối cảnh tài nguyên song ngữ hạn chế. Mục tiêu chính là cải thiện hệ thống SMT thông qua hai hướng tiếp cận: tăng cường dữ liệu huấn luyện và cải tiến mô hình gióng hàng từ.
Về tăng cường dữ liệu huấn luyện, luận án nghiên cứu và đề xuất phương pháp dịch ngược (back-translation) để tạo ra các câu giả lập. Phương pháp này sử dụng ngôn ngữ trung gian là tiếng Đức, tận dụng các mô hình dịch Anh-Đức đã huấn luyện sẵn có chất lượng tốt. Một đóng góp quan trọng là đề xuất hai độ đo thích nghi dựa trên độ hỗn loạn thông tin (perplexity) – độ đo thích nghi theo hiệu và theo tỉ lệ – để lựa chọn hiệu quả các câu giả lập "tốt" bổ sung vào ngữ liệu huấn luyện. Các thử nghiệm cho thấy việc lựa chọn dữ liệu có chọn lọc, thay vì bổ sung toàn bộ dữ liệu dịch ngược, giúp cải thiện đáng kể chất lượng dịch.
Về cải tiến mô hình gióng hàng từ, luận án giải quyết vấn đề từ hiếm (rare words) và sự khác biệt về hình thái giữa tiếng Việt (đơn hình) và tiếng Anh (đa hình). Phương pháp đề xuất áp dụng các kỹ thuật chia nhỏ từ (subword units) như BPE, Wordpiece, Unigram, Morfessor cho các câu tiếng Anh trước khi thực hiện gióng hàng. Đồng thời, luận án đề xuất thuật toán chuẩn hóa bảng gióng hàng từ (A*) để đảm bảo chất lượng mô hình ngôn ngữ sau khi chia nhỏ từ. Các kỹ thuật chia nhỏ từ này, vốn thường được dùng trong dịch máy nơ-ron, đã được chứng minh hiệu quả khi áp dụng cho SMT.
Luận án đã cài đặt, thử nghiệm và đánh giá các phương pháp đề xuất trên các tập dữ liệu IWSLT2015 và EVB, sử dụng phần mềm MOSES. Kết quả thử nghiệm cho thấy việc áp dụng các kỹ thuật tăng cường dữ liệu và cải tiến gióng hàng từ đều góp phần nâng cao chất lượng hệ thống dịch máy thống kê Việt – Anh, thể hiện qua điểm BLEU. Đặc biệt, việc kết hợp cả hai phương pháp đã mang lại kết quả tốt hơn so với việc áp dụng từng phương pháp đơn lẻ, khẳng định hiệu quả của các đề xuất trong luận án.
Tải không giới hạn tất cả tài liệu, không cần chờ. Chỉ từ 199.000đ/tháng.
Xem gói hội viên