Tên luận án:
NGHIÊN CỨU PHÁT TRIỂN HỆ THỐNG THÍCH NGHI GIỌNG NÓI TRONG TỔNG HỢP TIẾNG VIỆT VÀ ỨNG DỤNG
Ngành:
HỆ THỐNG THÔNG TIN
Tóm tắt nội dung tài liệu:
Luận án này tập trung giải quyết thách thức trong việc tổng hợp tiếng nói tiếng Việt với đặc trưng của người nói cụ thể, đặc biệt trong bối cảnh ngôn ngữ tiếng Việt là ngôn ngữ nghèo tài nguyên và yêu cầu cao về chi phí, thời gian huấn luyện dữ liệu lớn. Các phương pháp truyền thống thường đòi hỏi lượng dữ liệu đáng kể (khoảng 10 giờ) và các kỹ thuật thích nghi dựa trên HMM hiện có cho chất lượng tổng hợp thấp.
Mục tiêu chính của luận án là nghiên cứu và xây dựng một hệ thống tổng hợp tiếng nói tiếng Việt sử dụng các kỹ thuật huấn luyện thích nghi đặc trưng âm học của người nói dựa trên mạng nơ-ron sâu (DNN). Luận án hướng đến việc nâng cao chất lượng tổng hợp tiếng nói thích nghi thông qua các đề xuất cải tiến về độ tự nhiên, tổng hợp giọng nói mới với chất lượng cao và độ tương đồng với giọng đích chỉ với lượng dữ liệu mẫu nhỏ, cũng như tổng hợp giọng nói tức thì mà không cần tốn chi phí huấn luyện lại.
Các đóng góp chính của luận án bao gồm:
- Đề xuất hai mô hình tổng hợp thích nghi phụ thuộc người nói (Few-shot TTS) dựa trên DNN, sử dụng học chuyển đổi (transfer-learning) và vector biểu diễn đặc trưng để tạo giọng nói mới chất lượng cao với ít dữ liệu mẫu. Cụ thể, kỹ thuật Multi-pass fine-tune cho phép hệ thống tổng hợp tiếng nói có độ tương đồng cao (SIM đạt 2.87/3.99) và chất lượng cao (MOS đạt 3.78/4.69) chỉ với 4 phút và 16 phút dữ liệu thích nghi.
- Đề xuất mô hình tổng hợp thích nghi độc lập người nói (Zero-shot TTS) dựa trên DNN, cho phép tạo giọng mới chấp nhận được từ vài câu mẫu mà không cần huấn luyện lại. Mô hình Adapt-TTS này sử dụng mô-đun Extracting-Mel vector (EMV) và bộ khử nhiễu khuếch tán phổ Mel (Mel-spectrogram denoiser), đạt chất lượng MOS 3.3/4.5 và SIM 2.2/3.9 chỉ với 1-3 giây tiếng nói mẫu.
- Xây dựng bộ cơ sở dữ liệu (CSDL) tiếng nói tiếng Việt chất lượng cao, chi phí thấp, được tăng cường nhãn thông tin (chèn dấu câu, điểm dừng lấy hơi, phiên âm từ mượn) để cải thiện độ tự nhiên của hệ thống TTS tiếng Việt.
- Phát triển ứng dụng nhân bản giọng nói đa người nói trên các thiết bị đa nền tảng, chứng minh tính khả thi và hiệu năng của các mô hình đề xuất.
Tóm lại, luận án đã đóng góp vào việc phát triển các phương pháp tổng hợp và thích nghi tiếng nói tiếng Việt hiệu quả, giải quyết các vấn đề về chất lượng và chi phí dữ liệu huấn luyện, đồng thời mở rộng khả năng ứng dụng của công nghệ này trong thực tiễn.
Mục lục chi tiết:
- Chương 1: Giới thiệu tổng quan về tổng hợp tiếng nói và tổng hợp tiếng nói với khả năng điều chỉnh đặc trưng đầu ra. Cấu trúc tổng quan của một hệ thống tổng hợp tiếng nói dựa trên thích nghi cơ bản. Tổng quan tình hình nghiên cứu về tổng hợp tiếng nói dựa trên thích nghi nói chung và thích nghi tiếng Việt nói riêng. Giới thiệu các mục tiêu và phạm vi nghiên cứu chính của luận án.
- Chương 2: Xây dựng bộ cơ sở dữ liệu (CSDL) tiếng Việt cho hệ thống tổng hợp và thích nghi và các quy trình kèm theo nhằm nâng cao chất lượng, giảm chi phí khi xây dựng bộ CSDL đa người nói cho các hệ thống tổng hợp tiếng Việt. Bên cạnh phương pháp bổ sung thông tin nhãn như chèn điểm dừng lấy hơi và phiên âm từ mượn giúp tăng cường độ tự nhiên của mô hình tổng hợp. Bộ CSDL tiếng và kỹ thuật tăng cường nhãn thông tin này cũng chính là phần cơ sở để xây dựng các mô hình thích nghi ở các chương tiếp theo.
- Chương 3: Trình bày phương pháp cải tiến chất lượng mô hình tổng hợp tiếng nói dựa trên thích nghi thông qua hai đề xuất: 1) Cải tiến mô hình tổng hợp thích nghi (Few-shot TTS) bằng Muli-pass fine-tune dựa trên kỹ thuật học chuyển đổi người nói và ngôn ngữ (transfer-learning) với lượng mẫu phải học ít hơn nhiều so với huấn luyện mô hình cơ sở và 2) Cải tiến mô hình tổng hợp thích nghi (Few-shot TTS) bằng vector EMV biểu diễn đặc trưng người nói chỉ với vài câu nói. Cả hai kỹ thuật thích nghi đều yêu cầu dữ liệu mẫu phải có trong tập huấn luyện và với các mô hình đề xuất hướng tới sử dụng lượng dữ liệu thích nghi ít dần.
- Chương 4: Đề xuất phương pháp nâng cao hiệu năng của mô hình tổng hợp thích nghi chi phí thấp với điều kiện mẫu ít nhất có thể mà không cần huấn luyện lại mô hình (Zero-shot TTS) thông qua hai kỹ thuật: 1) Áp dụng vector biểu diễn đặc trưng người nói hiệu quả; 2) Mô hình khử nhiễu khuếch tán phổ Mel (Mel-spectrogram denoiser) cho phép tổng hợp âm thanh chất lượng cao hơn so với các mô hình cơ sở. Mô hình tổng hợp dựa thích nghi bằng Zero-shot TTS không đòi hỏi dữ liệu thích nghi phải có trong tập huấn luyện và chỉ sử dụng duy nhất một câu mẫu của người nói để thích nghi. Hướng tiếp cận này giúp đơn giản hóa trong việc tổng hợp giọng mới và mở rộng khả năng ứng dụng của các mô hình tổng hợp thích nghi.
- Kết luận: Trình bày các đóng góp chính của luận án và chỉ ra các hạn chế và hướng phát triển tiếp theo.