Tên luận án:
MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ
Ngành:
Khoa học máy tính
Tóm tắt nội dung tài liệu:
Luận án "MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ" của Lâm Tùng Giang, thuộc chuyên ngành Khoa học máy tính, tập trung giải quyết bài toán tìm kiếm web xuyên ngữ. Bài toán này đặt ra nhiệm vụ xác định các trang web phù hợp được viết bằng ngôn ngữ đích từ một câu truy vấn ban đầu được trình bày bằng ngôn ngữ nguồn. Mục tiêu chính là nâng cao hiệu quả xếp hạng danh sách kết quả tìm kiếm, sử dụng thước đo hiệu quả MAP (Mean Average Precision).
Luận án nghiên cứu và đề xuất các phương pháp phục vụ dịch thuật, bao gồm kỹ thuật tiền xử lý câu truy vấn, dịch câu truy vấn và xử lý câu truy vấn ở ngôn ngữ đích. Đồng thời, luận án cũng nghiên cứu và đề xuất các phương pháp xếp hạng lại danh sách kết quả tìm kiếm trong truy vấn xuyên ngữ, đặc biệt chú trọng việc xếp hạng các trang Web. Các đóng góp chính bao gồm đề xuất phương pháp khử nhập nhằng mới trong mô-đun dịch câu truy vấn, phương pháp tiền xử lý và cải tiến câu truy vấn tại ngôn ngữ đích. Tác giả cũng đề xuất các mô hình lân cận xuyên ngữ (proximity models) và phương pháp học xếp hạng dựa trên lập trình di truyền. Đặc biệt, luận án đã thiết kế một mô hình tìm kiếm Web xuyên ngữ cho cặp ngôn ngữ Việt-Anh.
Về mặt lý thuyết, luận án đề xuất thuật toán WLQS kết hợp với vnTagger để phân đoạn và khử nhập nhằng câu truy vấn, sử dụng hàm Summary Mutual Information để chọn bản dịch tốt nhất. Các phương pháp xây dựng câu truy vấn có cấu trúc tại ngôn ngữ đích, kết hợp phản hồi ẩn và mở rộng câu truy vấn cũng được đưa ra. Đối với xếp hạng, luận án đề xuất các mô hình lân cận xuyên ngữ dựa trên Büttcher và Rasolofo, cùng với phương pháp học xếp hạng lại kết quả tìm kiếm Web dựa trên lập trình di truyền, khai thác cấu trúc HTML. Các kết quả thực nghiệm đã kiểm chứng hiệu quả của các phương pháp đề xuất. Cụ thể, thuật toán phân đoạn WLQS và hàm Summary Mutual Information cho kết quả tốt hơn nMI trong việc khử nhập nhằng. Việc kết hợp WLQS, vnTagger và chọn bản dịch tuần tự cho phép xây dựng câu truy vấn có cấu trúc, vượt trội so với Google Translate. Kỹ thuật phản hồi ẩn giúp tăng độ chính xác và độ bao phủ của hệ thống. Cuối cùng, việc áp dụng học xếp hạng với dữ liệu LETOR và mô hình lân cận đã cải thiện hiệu năng của hệ thống so với dịch thủ công, cho thấy hiệu quả tăng dần qua mỗi bước dịch thuật, điều chỉnh câu truy vấn và học xếp hạng.
Mục lục chi tiết:
-
Chương 1: Tổng quan và đề xuất nghiên cứu
- 1.1. Truy vấn thông tin
- 1.1.1. Khái niệm
- 1.1.2. Định nghĩa hình thức
- 1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin
- 1.1.4. Các mô hình truy vấn thông tin truyền thống
- 1.1.5. Khai thác quan hệ giữa các thuật ngữ
- 1.2. Đánh giá hệ thống truy vấn thông tin
- 1.3. Truy vấn thông tin xuyên ngữ
- 1.3.1. Khái niệm
- 1.3.2. Các hướng tiếp cận
- 1.4. Các kỹ thuật xếp hạng lại
- 1.5. Xếp hạng trang Web
- 1.6. Các hạn chế và đề xuất nghiên cứu
- 1.6.1. Hạn chế
- 1.6.2. Đề xuất nghiên cứu
- 1.6.2.1. Xác định nội dung nghiên cứu
- 1.7. Tiểu kết chương
-
Chương 2: Dịch tự động phục vụ truy vấn xuyên ngữ
- 2.1. Các phương pháp dịch tự động
- 2.2. Khử nhập nhằng trong phương pháp sử dụng từ điển
- 2.3. Mô hình sử dụng từ điển máy
- 2.3.1. Các biến thể của công thức MI
- 2.3.1.1. Sử dụng tần xuất cùng xuất hiện của cặp từ
- 2.3.1.2. Sử dụng máy tìm kiếm
- 2.3.2. Thuật toán chọn bản dịch tốt nhất
- 2.3.2.1. Thuật toán sử dụng cohesion score
- 2.3.2.2. Thuật toán SMI
- 2.3.2.3. Thuật toán SQ chọn bản dịch một cách tuần tự
- 2.3.3. Xây dựng câu truy vấn
- 2.3.3.1. Kết hợp 2 phương pháp gán trọng số thủ công
- 2.3.3.2. Gán trọng số dựa trên kết quả quá trình khử nhập nhằng
- 2.3.4. Áp dụng công thức SMI chọn bản dịch tốt nhất
- 2.4. Thực nghiệm tạo bản dịch câu truy vấn có cấu trúc
- 2.5. Tiểu kết chương
-
Chương 3: Hỗ trợ dịch câu truy vấn
- 3.1. Các kỹ thuật hỗ trợ dịch câu truy vấn
- 3.2. Phân đoạn câu truy vấn
- 3.2.1. Sử dụng công cụ vnTagger
- 3.2.2. Thuật toán WLQS
- 3.2.3. Kết hợp WLQS và công cụ vnTagger
- 3.3. Điều chỉnh câu truy vấn ở ngôn ngữ đích
- 3.3.1. Phản hồi ẩn
- 3.3.2. Phản hồi ẩn trong truy vấn xuyên ngữ
- 3.3.3. Điều chỉnh câu truy vấn có cấu trúc ở ngôn ngữ đích
- 3.4. Thực nghiệm
- 3.5. Tiểu kết chương
-
Chương 4: Xếp hạng lại
- 4.1. Ứng dụng lập trình di truyền phục vụ học xếp hạng
- 4.1.1. Mô hình ứng dụng lập trình di truyền
- 4.1.2. Xây dựng công cụ và kết quả thực nghiệm
- 4.1.3. Đánh giá
- 4.2. Đề xuất các mô hình lân cận
- 4.2.1. Mô hình CL-Büttcher
- 4.2.2. Mô hình xếp hạng CL-Rasolofo
- 4.2.3. Mô hình xếp hạng CL-HighDensity
- 4.2.13. Thực nghiệm việc ứng dụng mô hình lân cận xuyên ngữ
- 4.3. Học xếp hạng trang Web
- 4.3.1. Các mô hình học xếp hạng
- 4.3.2. Cá thể
- 4.3.2.1. Hàm mục tiêu
- 4.3.2.2. Quá trình huấn luyện
- 4.3.3. Môi trường thực nghiệm
- 4.3.4. Cấu hình thực nghiệm
- 4.3.5. Kết quả thực nghiệm
- 4.4. Tiểu kết chương
-
Chương 5: Hệ thống tìm kiếm Web xuyên ngữ Việt Anh
- 5.1. Thiết kế hệ thống
- 5.1.1. Các thành phần hệ thống
- 5.1.2. Dữ liệu từ điển
- 5.1.3. Dữ liệu đánh chỉ mục
- 5.2. Phương pháp thực nghiệm
- 5.3. Thực nghiệm các giải pháp dịch câu truy vấn
- 5.3.1. Cấu hình thực nghiệm
- 5.3.2. Kết quả thực nghiệm
- 5.3.3. Đánh giá
- 5.4. Thực nghiệm điều chỉnh câu truy vấn
- 5.4.1. Cấu hình thực nghiệm
- 5.4.2. Kết quả thực nghiệm
- 5.4.3. Đánh giá
- 5.5. Thực nghiệm xếp hạng lại
- 5.5.1. Cấu hình thực nghiệm
- 5.5.2. Kết quả thực nghiệm
- 5.5.3. Đánh giá
- 5.6. Đánh giá hiệu quả việc áp dụng các kỹ thuật đề xuất
- 5.7. Tiểu kết chương
-
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
- 1. Kết luận
- 1.1. Tóm tắt nội dung luận án
- 1.1. Các kết quả đạt được
- 2. Hướng phát triển