Tên luận án:
KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬT GOM CỤM
Ngành:
Khoa học máy tính
Tóm tắt nội dung tài liệu:
Luận án tập trung vào việc khai phá luồng văn bản sử dụng kỹ thuật gom cụm, giải quyết những thách thức đáng kể trong xử lý dữ liệu văn bản đến liên tục và nhanh chóng từ các nguồn như tin tức và mạng xã hội. Vấn đề cốt lõi là tự động nhóm các tài liệu văn bản thành các cụm dựa trên sự tương đồng về nội dung.
Nghiên cứu xác định một số vấn đề chính, bao gồm gom cụm luồng văn bản ngắn, xử lý khi số lượng chủ đề thay đổi theo thời gian, xem xét mối quan hệ giữa các từ, gom cụm trên luồng văn bản tiếng Việt, tiền xử lý nội dung văn bản và phát hiện các cụm từ xu thế. Để giải quyết các vấn đề này, luận án đề xuất hai giải pháp chính:
- **Gom cụm luồng văn bản theo ngữ nghĩa với đồ thị từ (Bài toán 1):** Luận án giới thiệu mô hình GOW-Stream, một cách tiếp cận mới dựa trên mô hình hỗn hợp áp dụng biểu diễn đồ thị từ (Graph of Words - GOW) cho các tập ngữ liệu văn bản. GOW-Stream vượt trội hơn các mô hình truyền thống như Bag-of-Words (BOW) bằng cách nắm bắt mối quan hệ ngữ nghĩa giữa các từ thông qua cấu trúc đồ thị, từ đó nâng cao độ chính xác của kết quả gom cụm, đặc biệt đối với luồng văn bản ngắn và động. Kết quả thực nghiệm cho thấy GOW-Stream đạt độ chính xác cao hơn so với các thuật toán hiện đại như DTM, Sumblr và MStream, dù quá trình đồ thị hóa văn bản có thể tốn thêm thời gian.
- **Phát hiện cụm từ xu thế trên luồng dữ liệu văn bản (Bài toán 2):** Luận án phát triển hệ thống TKES (Trendy Keyword Extraction System), sử dụng kỹ thuật phát hiện sự nổi bật (Burst) của Kleinberg để xác định các cụm từ xu thế và các sự nổi bật tiêu biểu của từ khóa. TKES hỗ trợ thu thập thông tin tự động, rút trích từ khóa, xử lý văn bản tiếng Việt và theo dõi sự phát triển của chủ đề theo thời gian. Hệ thống này bao gồm các mô-đun thu thập, xử lý dữ liệu (tiền xử lý và xử lý) và hiển thị dữ liệu trực quan.
Phương pháp nghiên cứu bao gồm tổng luận, thực nghiệm và so sánh. Luận án đã công bố 04 bài báo hội thảo quốc tế (ACM và Springer) và 02 bài báo tạp chí quốc tế (Scopus/Q3 và SCIE/Q3). Các mô hình và thuật toán được đề xuất có ý nghĩa học thuật và thực tiễn cao, phục vụ nhu cầu khai phá thông tin trong kỷ nguyên công nghiệp 4.0. Hướng phát triển trong tương lai bao gồm tối ưu hóa mô hình GOW-Stream với các biểu diễn đồ thị phức tạp hơn, tích hợp ngữ nghĩa thời gian và khám phá các môi trường xử lý phân tán, cũng như ứng dụng học sâu để cải thiện hiệu suất gom cụm.
Mục lục chi tiết:
- CHƯƠNG 1: GIỚI THIỆU
- 1.1 Tổng quan về đề tài luận án
- 1.1.1 Bài toán nghiên cứu và ý nghĩa
- 1.1.2 Thách thức của bài toán gom cụm luồng văn bản
- 1.1.3 Các vấn đề nghiên cứu
- 1.1.4 Các bài toán nghiên cứu
- 1.2 Đóng góp của luận án và các công trình đã được công bố
- 1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu
- 1.3.1 Mục tiêu nghiên cứu
- 1.3.2 Phạm vi nghiên cứu
- 1.3.3 Phương pháp nghiên cứu:
- 1.4 Cấu trúc của luận án
- CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN
- 2.1 Phương pháp tiếp cận dựa trên mô hình chủ đề truyền thống
- 2.2 Phương pháp tiếp cận dựa trên mô hình hỗn hợp động
- 2.3 Phương pháp tiếp cận dựa trên biểu diễn không gian vectơ
- 2.4 Mô hình hóa chủ đề (Topic modeling)
- 2.5 Mô hình hỗn hợp dựa trên quy trình Dirichlet (DPMM)
- 2.6 Đồ thị con phổ biến
- 2.7 Mô hình hóa sự nổi bật trên luồng văn bản của Kleinberg
- CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN ĐỒ THỊ TỪ
- 3.1 Phương pháp
- 3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW)
- 3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW)
- 3.1.3 Gom cụm luồng văn bản dựa trên mô hình hỗn hợp
- 3.2 Thực nghiệm và bàn luận
- CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN
- 4.1 Phương pháp
- 4.2 Thực nghiệm và bàn luận
- CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN
- 5.1 Các kết quả đạt được, hạn chế và hướng phát triển
- 5.2 Ý nghĩa học thuật và thực tiễn của luận án