info@luanan.net.vn
Luận án DOC

Luận án Nghiên cứu các phương pháp xác định tần số cơ bản ứng dụng cho tổng hợp thanh điệu tiếng Việt

Năm2024
Lĩnh vựcKhoa học tự nhiên
Ngôn ngữTiếng Anh, Tiếng Việt

Mô tả tài liệu

Tên luận án:

NGHIÊN CỨU CÁC PHƯƠNG PHÁP XÁC ĐỊNH TẦN SỐ CƠ BẢN ỨNG DỤNG CHO TỔNG HỢP THANH ĐIỆU TIẾNG VIỆT

Ngành:

Cơ sở toán học cho tin học

Tóm tắt nội dung tài liệu:

Luận án tập trung nghiên cứu các phương pháp xác định tần số cơ bản (F0) và cách điệu hóa thanh điệu, ứng dụng vào tổng hợp thanh điệu tiếng Việt, nhằm nâng cao chất lượng và độ tự nhiên của tiếng nói tổng hợp trong bối cảnh công nghệ số. Tiếng Việt với hệ thống thanh điệu phức tạp đặt ra nhiều thách thức trong tái tạo ngữ điệu chính xác.

Mục tiêu chính của luận án là xác định các điểm đánh dấu pitch (PM) và ước lượng F0, đồng thời nghiên cứu và phát triển các mô hình cách điệu thanh điệu phù hợp với đặc điểm tiếng Việt. Luận án đề xuất thuật toán EPM (Estimation of Pitch Markers) để xác định PM từ tín hiệu tổng tích lũy, thay vì tín hiệu gốc. Phương pháp này, với các luật lọc đỉnh R1-R6, cho thấy độ chính xác tương đương các thuật toán tiên tiến như AC-Praat, Yin, Crepe nhưng có tốc độ xử lý vượt trội đáng kể (14.8 phút so với 40.2, 188.7 và 52.1 phút tương ứng).

Bên cạnh đó, luận án giới thiệu thuật toán Syntone, sử dụng mô hình qTA và phương pháp PSOLA để tổng hợp thanh điệu cho âm tiết tiếng Việt, đạt mức độ chính xác và tự nhiên cao (MOS 3.8/5). Luận án cũng đề xuất các mô hình qTAV-Poly và qTAVs-Poly, dựa trên lý thuyết xấp xỉ hàm số liên tục bằng đa thức Weierstrass, để ước lượng tham số mô hình cách điệu hóa F0. So sánh với mô hình qTA(Xu)-Thai, qTAV-Poly cho thấy hiệu quả vượt trội trên chỉ số RMSE đối với tiếng Việt.

Để tối ưu hóa tham số và giảm thiểu sai số, luận án còn phát triển các mô hình qTAV-Cheb và qTAVs-Cheb, sử dụng đa thức Chebyshev. Kết quả thực nghiệm cho thấy qTAV-Cheb giảm đáng kể sai số ước lượng (MAPE thấp hơn) so với qTAV-Poly thông thường, mang lại độ chính xác cao hơn.

Các đóng góp mới bao gồm phương pháp xác định PM hiệu quả và các thuật toán, mô hình qTAV-Poly, qTA-Cheb để kết nối F0 trong từ ghép hai âm tiết, phục vụ tổng hợp lời nói tiếng Việt. Hướng nghiên cứu tiếp theo tập trung vào việc cải tiến các mô hình, mở rộng ứng dụng cho đoạn ngữ tiếng Việt và tích hợp các mô hình học máy mới.

Mục lục chi tiết:

MỞ ĐẦU

  • 1. Tính cấp thiết của đề tài luận án
  • 2. Mục tiêu nghiên cứu
  • 3. Đối tượng và phạm vi nghiên cứu
  • 4. Nội dung nghiên cứu
  • 5. Phương pháp nghiên cứu
  • 6. Ý nghĩa khoa học và thực tiễn
  • 7. Bố cục của luận án

Chương 1: CÁC PHƯƠNG PHÁP TRÍCH CHỌN TẦN SỐ CƠ BẢN VÀ MÔ HÌNH BIỂU DIỄN THANH ĐIỆU TRONG NGÔN NGỮ CÓ THANH

  • 1.1. Tổng quan về bài toán tổng hợp tiếng nói tự nhiên
  • 1.2. Các kiến thức cơ sở
  • 1.3. Tổng hợp công trình nghiên cứu liên quan

Chương 2: XÁC ĐỊNH CÁC ĐIỂM PITCH MARKERS TRONG TẬP HỢP CÁC ĐỈNH CỦA TÍN HIỆU TỔNG TÍCH LŨY

  • 2.1. Phân đoạn hữu thanh, vô thanh trên tín hiệu tiếng nói
  • 2.2. Tập đỉnh của tín hiệu của tổng tích lũy và phương pháp xác định các điểm PM trên tín hiệu tiếng nói gốc.
  • 2.3. Áp dụng biến đổi thanh điệu của một âm tiết tiếng Việt.
  • 2.4. Thực nghiệm
  • 2.5. Kết luận chương 2

Chương 3: CÁCH ĐIỆU HÓA CÁC ĐƯỜNG F0 VÀ TỔNG HỢP THANH ĐIỆU TIẾNG VIỆT.

  • 3.1. Biểu diễn tham số pitch target của mô hình qTA trên lớp các đa thức
    • 3.1.1. Chuẩn hóa F0 của các từ mang thanh điệu
    • 3.1.2. Ước lượng tham số qTA-Poly
    • 3.1.3. Ước tính qTAVs-Poly của cặp thanh điệu.
    • 3.1.4. Thực nghiệm qTAV-Poly trong tổng hợp thanh điệu và tiếng nói
  • 3.2. Biểu diễn tham số pitch target của mô hình qTA trên đa thức Chebyshev
    • 3.2.1. Ước lượng tham số qTAV- Cheb
  • 3.3. Kết luận chương 3

KẾT LUẬN

  • 1. Các kết quả chính đã đạt được:
  • 2. Những đóng góp mới của luận án:
  • 3. Hướng nghiên cứu tiếp theo:

Tài liệu liên quan