Tên luận án:
NGHIÊN CỨU VÀ PHÁT TRIỂN PHƯƠNG PHÁP TIẾP CẬN DỰA TRÊN CẤU TRÚC VÀ THỐNG KÊ TRONG DỊCH TỰ ĐỘNG NGÔN NGỮ KÝ HIỆU VIỆT NAM
Ngành:
KHOA HỌC MÁY TÍNH
Tóm tắt nội dung tài liệu:
Luận án "Nghiên cứu và phát triển phương pháp tiếp cận dựa trên cấu trúc và thống kê trong dịch tự động ngôn ngữ ký hiệu Việt Nam" tập trung giải quyết bài toán dịch văn bản tiếng Việt sang văn bản đúng cú pháp trong Ngôn ngữ Ký hiệu Việt Nam (VSL). Đây là một nhiệm vụ có ý nghĩa quan trọng đối với cộng đồng người khiếm thính, nhằm truyền đạt thông tin và tri thức xã hội. Ngôn ngữ ký hiệu Việt Nam, dù là ngôn ngữ chính thức, có vốn từ vựng hạn chế và cấu trúc cú pháp đặc trưng, khác biệt so với ngôn ngữ nói/viết. Điều này khiến bước xử lý từ văn bản thông thường sang dạng đúng cú pháp trong VSL (bước thứ hai trong quy trình dịch) trở thành thách thức lớn nhất và trọng tâm của luận án.
Mục tiêu chính của luận án là đề xuất các mô hình và phương pháp dịch máy hiệu quả cho bài toán này, đồng thời thực hiện các thử nghiệm và đánh giá kết quả so với các phương pháp hiện có trên thế giới và tại Việt Nam. Các đóng góp chính của luận án bao gồm:
- Đề xuất một phương án dịch đơn giản và hiệu quả dựa trên mô hình dịch dựa trên luật.
- Đề xuất phương pháp làm giàu dữ liệu dựa trên mạng từ cho dữ liệu song ngữ câu tiếng Việt – câu đúng cú pháp trong VSL.
- Cải tiến các mô hình dịch thống kê cơ bản và các mô hình dịch hiện đại dựa trên mạng Nơron (cụ thể là Seq2Seq và Transformer) cho bài toán.
- Xây dựng các bộ dữ liệu quan trọng: từ điển ngôn ngữ ký hiệu Việt Nam VSL-Lexicon, và các bộ dữ liệu song ngữ Vie-VSL10k, Vie-VSL60k để phục vụ cộng đồng nghiên cứu.
Phạm vi của luận án giới hạn trong các phương pháp dịch máy text-to-text, không đi sâu vào các mô hình diễn họa 3D hay các đầu ra trực quan khác của VSL. Các kết quả thực nghiệm cho thấy mô hình Transformer mang lại hiệu quả dịch tốt nhất, với điểm BLEU cao, do tính hội tụ của mô hình ngôn ngữ và sự tương đồng giữa các đơn vị ngôn ngữ trong hai ngôn ngữ. Luận án đã góp phần nâng cao chất lượng dịch tự động VSL, cải thiện khả năng tiếp cận thông tin cho người khiếm thính, và đặt ra định hướng phát triển các hệ thống dịch hoàn chỉnh hơn trong tương lai, đặc biệt cho ngôn ngữ ít tài nguyên.
Mục lục chi tiết:
- Phần Mở đầu: giới thiệu về bài toán dịch ngôn ngữ ký hiệu, trọng tâm là các phương pháp dịch máy cho việc dịch từ văn bản tiếng Việt thông thường sang dạng văn bản đúng cú pháp trong ngôn ngữ ký hiệu. Nội dung này đề cập ý nghĩa và tính cấp thiết của luận án, tổng quan về bối cảnh nghiên cứu.
- Chương 1: giới thiệu tổng quan vấn đề nghiên cứu trong luận án, trình bày và phân tích các vấn đề còn tồn tại trong các nghiên cứu trong nước và thế giới liên đến bài toán dịch ngôn ngữ ký hiệu.
- Chương 2: Giới thiệu một số kiến thức cơ sở liên quan đến nội dung nghiên cứu của luận án.
- Chương 3: Nghiên cứu phương pháp tiếp cận dựa trên cấu trúc trong dịch tự động ngôn ngữ ký hiệu Việt Nam, thực nghiệm và đánh giá các kết quả trên phương pháp này.
- Chương 4: Trình bày một phương pháp làm giàu dữ liệu dựa trên mạng từ cho bài toán.
- Chương 5: Nghiên cứu một số mô hình dịch máy thống kê cổ điển và dịch máy hiện đại dựa trên mạng nơron trong dịch tự động ngôn ngữ ký hiệu Việt Nam, thực nghiệm và đánh giá các kết quả trên các phương pháp này.
- Cuối cùng là phần kết luận về những kết quả đạt được của luận án; nêu ưu nhược điểm và định hướng phát triển.