info@luanan.net.vn
VIP Luận án DOCX

Luận án Nghiên cứu cải tiến một số phương pháp phân tích quan điểm mức khía cạnh dựa trên học máy

Năm2023
Lĩnh vựcCông nghệ thông tin
Ngôn ngữTiếng Việt, Tiếng Anh

Mô tả tài liệu

Tên luận án:

NGHIÊN CỨU CẢI TIẾN MỘT SỐ PHƯƠNG PHÁP PHÂN TÍCH QUAN ĐIỂM MỨC KHÍA CẠNH DỰA TRÊN HỌC MÁY

Ngành:

Hệ thống thông tin

Tóm tắt nội dung tài liệu:

Luận án "NGHIÊN CỨU CẢI TIẾN MỘT SỐ PHƯƠNG PHÁP PHÂN TÍCH QUAN ĐIỂM MỨC KHÍA CẠNH DỰA TRÊN HỌC MÁY" giải quyết nhu cầu cấp thiết về phân tích quan điểm mức khía cạnh, một lĩnh vực quan trọng trong kỷ nguyên số hóa với sự bùng nổ của các bài đánh giá trực tuyến và tương tác mạng xã hội. Nghiên cứu này hướng tới việc nâng cao chất lượng khai phá và phân tích quan điểm, đóng góp vào việc hiểu tâm lý người tiêu dùng, dự đoán xu hướng thị trường và định hướng chiến lược kinh doanh.

Đề tài tập trung vào ba nhiệm vụ chính: trích rút khía cạnh, phân lớp cảm xúc khía cạnh và ước lượng trọng số khía cạnh. Luận án đã đề xuất một hệ thống toàn diện để giải quyết các thách thức cố hữu như thiếu dữ liệu gán nhãn, sự tồn tại của các khía cạnh ẩn, sự phụ thuộc ngữ cảnh của từ, và vấn đề dữ liệu không cân bằng trong phân lớp đa lớp.

Cụ thể, đối với nhiệm vụ trích rút khía cạnh, nghiên cứu sinh đề xuất hai phương pháp bán giám sát. Phương pháp thứ nhất kết hợp xác suất có điều kiện với thuật toán bootstrapping, giúp phát hiện cả khía cạnh rõ ràng, ẩn và các khía cạnh tần suất thấp. Phương pháp thứ hai dựa trên biểu diễn Word2Vec kết hợp mô hình ngôn ngữ, cải thiện đáng kể hiệu suất trong việc xử lý các khía cạnh ẩn và sự phụ thuộc ngữ cảnh. Đối với phân lớp cảm xúc khía cạnh, luận án sử dụng bộ phân loại Naive Bayes và đề xuất một mô hình kết hợp mạnh mẽ dựa trên lý thuyết Dempster-Shafer, tích hợp Support Vector Machine (SVM) và mạng Bayesian cổng OR. Mô hình kết hợp này cho thấy hiệu quả vượt trội, đặc biệt trong việc phân tách các lớp cảm xúc gần nhau và xử lý dữ liệu mất cân bằng. Nhiệm vụ ước lượng trọng số khía cạnh được giải quyết bằng một cách tiếp cận không giám sát dựa trên nội dung bài viết và tần suất xuất hiện khía cạnh trong toàn bộ kho ngữ liệu, mang lại khả năng cá nhân hóa mà không yêu cầu điểm đánh giá cảm xúc tường minh. Các phương pháp đề xuất đã được kiểm chứng trên các bộ dữ liệu thực tế như đánh giá khách sạn, bia và cà phê, cho thấy hiệu suất cải thiện so với các phương pháp cơ sở.

Tài liệu liên quan