info@luanan.net.vn
Luận án PDF

Luận án Một số phương pháp học máy xác định đặc điểm người dùng trên mạng internet

Năm2018
Lĩnh vựcCông nghệ thông tin
Ngôn ngữTiếng Việt, Tiếng Anh
Xem trước tài liệu
Đang tải...

Đang tải tài liệu...

Mô tả tài liệu

Tên luận án:

MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET

Ngành:

Kỹ thuật máy tính

Tóm tắt nội dung tài liệu:

Luận án "MỘT SỐ PHƯƠNG PHÁP HỌC MÁY XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG TRÊN MẠNG INTERNET" tập trung giải quyết vấn đề xác định đặc điểm người dùng trên môi trường Internet, một yêu cầu thiết yếu cho các nhà cung cấp dịch vụ khi người dùng không luôn tự nguyện cung cấp thông tin cá nhân. Nghiên cứu thực hiện trên hai lĩnh vực chính: xác định đặc điểm tác giả văn bản và xác định đặc điểm người dùng dựa trên hành vi.

Trong lĩnh vực xác định đặc điểm tác giả văn bản, luận án nghiên cứu trên các bài viết diễn đàn tiếng Việt nhằm nhận diện giới tính, độ tuổi, nghề nghiệp và vùng miền của tác giả. Nghiên cứu đã khảo sát và ứng dụng các loại đặc trưng cơ bản theo phong cách, đặc trưng dựa trên nội dung. Đáng chú ý, luận án đề xuất một phương pháp nhận diện mới dựa trên các đặc trưng theo **âm tiết và vần trong tiếng Việt**. Loại đặc trưng này cho thấy độ chính xác cao hơn (tăng khoảng 7% so với đặc trưng cơ bản) khi kết hợp và có tính độc lập dữ liệu hơn so với đặc trưng nội dung. Các thực nghiệm với thuật toán học máy phổ biến như SVM cho thấy kết quả khả quan, với độ chính xác nhận diện giới tính đạt 82.94% và khi kết hợp tất cả các đặc trưng đạt 91.72%.

Trong lĩnh vực xác định đặc điểm người dùng dựa trên hành vi, luận án tập trung vào việc dự đoán giới tính khách hàng dựa trên dữ liệu lịch sử truy cập hệ thống thương mại điện tử (TMĐT). Nghiên cứu đã đề xuất các phương pháp trích chọn đặc trưng hiệu quả và các phương pháp phân loại phù hợp, bao gồm phương pháp tiếp cận tái chọn mẫu để xử lý vấn đề mất cân bằng dữ liệu. Một đóng góp nổi bật là việc đề xuất phương pháp trích chọn đặc trưng sử dụng **biểu diễn dạng cây của danh sách sản phẩm/loại sản phẩm** được xem, nhằm khai thác tối đa mối quan hệ giữa chúng. Các thuật toán học máy như Random Forest, Bayesian Networks được sử dụng, trong đó Random Forest cho kết quả vượt trội và phù hợp với các bài toán có số lượng đặc trưng lớn và thưa. Các kỹ thuật hỗ trợ như tái chọn mẫu và học nhạy cảm chi phí cũng được áp dụng thành công để nâng cao độ chính xác.

Tóm lại, luận án đã đóng góp các phương pháp học máy và kỹ thuật trích chọn đặc trưng tiên tiến để xác định đặc điểm người dùng, đặc biệt là việc khai thác các đặc thù của ngôn ngữ tiếng Việt và dữ liệu hành vi trên TMĐT.

Mục lục chi tiết:

  • MỞ ĐẦU
  • MỤC TIÊU CỦA LUẬN ÁN
  • PHẠM VI NGHIÊN CỨU
  • CÁC ĐÓNG GÓP CỦA LUẬN ÁN
  • BỐ CỤC CỦA LUẬN ÁN
  • CHƯƠNG 1: TỔNG QUAN VỀ XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG
    • 1.1 XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH VĂN BẢN
    • 1.2 NHẬN DIỆN ĐẶC ĐIỂM NGƯỜI DÙNG THÔNG QUA PHÂN TÍCH HÀNH VI
    • 1.3 KẾT LUẬN CHƯƠNG
  • CHƯƠNG 2: XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT
    • 2.1 XÁC ĐỊNH ĐẶC ĐIỂM TÁC GIẢ BÀI VIẾT DIỄN ĐÀN TIẾNG VIỆT SỬ DỤNG CÁC ĐẶC TRƯNG CƠ BẢN
    • 2.2 SỬ DỤNG CÁC ĐẶC TRƯNG NỘI DUNG
    • 2.3 SỬ DỤNG CÁC ĐẶC TRƯNG VẦN VÀ ÂM TIẾT TIẾNG VIỆT
    • 2.4 KẾT LUẬN CHƯƠNG
  • CHƯƠNG 3: XÁC ĐỊNH ĐẶC ĐIỂM NGƯỜI DÙNG DỰA TRÊN DỮ LIỆU LỊCH SỬ TRUY CẬP HỆ THỐNG THƯƠNG MẠI ĐIỆN TỬ
    • 3.1 PHƯƠNG PHÁP TÁI CHỌN MẪU
    • 3.2 PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG DỰA TRÊN BIỂU DIỄN CÂY
    • 3.3 KẾT LUẬN CHƯƠNG
  • KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO
  • DANH MỤC CÔNG TRÌNH CÔNG BỐ

Tài liệu liên quan