Dựa trên nội dung được cung cấp, đây là phần Mở đầu và các chương nội dung chính của một luận án tập trung vào việc nghiên cứu và phát triển các mô hình khuyến nghị trích dẫn tiên tiến. Tên luận án cụ thể không được nêu rõ trong tài liệu này, nhưng chủ đề chính là "Nghiên cứu và phát triển các mô hình khuyến nghị trích dẫn sử dụng các thành tựu mới nhất của học sâu và xử lý ngôn ngữ tự nhiên".
Luận án thuộc lĩnh vực Công nghệ thông tin và Truyền thông, chuyên sâu vào các ngành Khoa học máy tính, Trí tuệ nhân tạo (AI) và Học máy (Machine Learning). Cụ thể hơn, luận án tập trung vào các kỹ thuật Học sâu (Deep Learning), Xử lý ngôn ngữ tự nhiên (Natural Language Processing) và Mạng tích chập đồ thị (Graph Convolutional Networks) để giải quyết bài toán Khuyến nghị trích dẫn.
Tài liệu này trình bày phần mở đầu và các chương chính của một luận án nghiên cứu, tập trung giải quyết thách thức ngày càng tăng trong việc xác định tài liệu trích dẫn phù hợp do sự bùng nổ của các ấn phẩm khoa học. Luận án đề xuất các hệ thống khuyến nghị trích dẫn tự động dựa trên các thành tựu mới nhất của học sâu, nhằm giảm gánh nặng cho các nhà nghiên cứu.
Nghiên cứu đã chỉ ra những hạn chế của các mô hình khuyến nghị hiện có, bao gồm việc chưa tận dụng đầy đủ thông tin từ bài báo khoa học (như tiêu đề, tác giả, năm xuất bản), chưa khai thác hết các tiến bộ mới nhất trong học sâu và xử lý ngôn ngữ tự nhiên, cũng như việc bỏ qua siêu dữ liệu quan trọng của bài báo.
Để khắc phục những hạn chế này, luận án đã đóng góp ba phương pháp chính. Thứ nhất, đề xuất các giải pháp nâng cao hiệu suất cho mô hình mạng nơ-ron trích dẫn (NCN) bằng cách tích hợp phép nhúng BERT và bổ sung thông tin tiêu đề bài báo vào quá trình mã hóa. Mô hình cải tiến này, gọi là Enhanced-NCN, đã chứng minh hiệu suất vượt trội trên bộ dữ liệu arXiv CS.
Thứ hai, phát triển mô hình mới RHN-DualLCR, cải tiến từ mô hình DualLCR bằng cách sử dụng Mạng cao tốc hồi quy (Recurrent Highway Networks - RHN) thay thế cho BiLSTM và phép nhúng SciBERT thay cho AI2 embedding. Mô hình này được đánh giá trên các bộ dữ liệu ACL-200, ACL-600 và RefSeer, cho thấy sự cải thiện đáng kể so với DualLCR gốc và các mô hình tiên tiến khác.
Thứ ba, giới thiệu mô hình khuyến nghị trích dẫn mới SciBERT-GraphSAGE, kết hợp SciBERT để mã hóa văn bản/ngữ cảnh và GraphSAGE để tạo dữ liệu nhúng từ liên kết trích dẫn đồ thị. Mô hình lai ghép này coi các bài báo khoa học là nút, siêu dữ liệu là thuộc tính nút và trích dẫn là cạnh, tạo thành cấu trúc đồ thị tự nhiên. Kết quả thực nghiệm trên ba bộ dữ liệu tiêu chuẩn (ACL-200, RefSeer, FullTextPeerRead) cho thấy SciBERT-GraphSAGE vượt trội hơn đáng kể so với sáu mô hình tiên tiến khác trên các chỉ số MAP, MRR và Recall@K.
Tổng kết, luận án đã đạt được những kết quả nổi bật, tất cả các công trình đã được công bố trên các tạp chí chuyên ngành uy tín, và đề xuất các hướng nghiên cứu tiếp theo như áp dụng mạng không đồng nhất và thực nghiệm trên các bộ dữ liệu lớn hơn.