NGHIÊN CỨU TỔNG HỢP TIẾNG NÓI CHO NGÔN NGỮ ÍT NGUỒN TÀI NGUYÊN THEO HƯỚNG THÍCH NGHI, ỨNG DỤNG VỚI TIẾNG MƯỜNG
Khoa học máy tính
Luận án tập trung vào việc phát triển hệ thống tổng hợp tiếng nói (TTS) cho các ngôn ngữ ít tài nguyên, đặc biệt là tiếng Mường, nhằm đáp ứng nhu cầu tương tác người-máy và bảo tồn ngôn ngữ. Công nghệ xử lý giọng nói hiện đại gặp nhiều thách thức khi áp dụng cho các ngôn ngữ có dữ liệu hạn chế hoặc chưa có chữ viết, như tiếng Mường với ngữ âm phức tạp và tính thanh điệu đặc thù. Luận án phân loại các ngôn ngữ ít tài nguyên thành hai nhóm: có chữ viết và không có chữ viết, sau đó đề xuất và thử nghiệm các phương pháp thích nghi phù hợp cho từng nhóm.
Đối với ngôn ngữ có chữ viết, luận án nghiên cứu phương pháp giả lập đầu vào của TTS tiếng Việt và phương pháp học chuyển giao (cross-lingual transfer learning) để tổng hợp tiếng nói tiếng Mường. Cụ thể, phương ngữ Mường Bi (Hòa Bình) được ứng dụng để phát triển hệ thống TTS thích nghi. Đối với ngôn ngữ chưa có chữ viết, luận án đề xuất phương pháp tổng hợp tiếng nói L2 trực tiếp từ văn bản L1 (tiếng Việt), sử dụng biểu diễn âm vị trung gian. Quá trình này bao gồm xây dựng dữ liệu song ngữ, mô hình dịch văn bản sang biểu diễn âm vị học tiếng Mường và hệ thống tổng hợp tiếng nói dựa trên chuỗi âm vị Mường.
Các kết quả đánh giá định tính và định lượng cho thấy hệ thống tổng hợp tiếng nói tiếng Mường, đặc biệt từ văn bản tiếng Việt, đạt chất lượng cao về độ trôi chảy và phù hợp. Hai đóng góp chính của luận án là đề xuất và thử nghiệm thành công phương pháp mới cho tổng hợp tiếng nói ngôn ngữ không có chữ viết và phương pháp thích nghi cho ngôn ngữ có chữ viết, ứng dụng cụ thể với tiếng Mường. Nghiên cứu này không chỉ cải thiện khả năng tiếp cận công nghệ TTS cho các cộng đồng ngôn ngữ thiểu số mà còn góp phần quan trọng vào việc bảo tồn và phát huy các ngôn ngữ, văn hóa dân tộc thiểu số tại Việt Nam. Hướng nghiên cứu tiếp theo bao gồm phát triển ứng dụng di động, mở rộng sang các ngôn ngữ thiểu số khác và khám phá các mô hình TTS tiên tiến.