info@luanan.net.vn
Luận án DOC

Luận án Nghiên cứu phương pháp tìm kiếm ngữ nghĩa sử dụng Ontology và ứng dụng xây dựng hệ thống tra cứu tìm kiếm văn bản mẫu bệnh

Năm2020
Lĩnh vựcKhoa học tự nhiên
Ngôn ngữTiếng Việt, Tiếng Anh

Mô tả tài liệu

Tên luận án:

NGHIÊN CỨU PHƯƠNG PHÁP TÌM KIẾM NGỮ NGHĨA SỬ DỤNG ONTOLOGY VÀ ỨNG DỤNG XÂY DỰNG HỆ THỐNG TRA CỨU, TÌM KIẾM VĂN BẢN MẪU BỆNH

Ngành:

Cơ sở toán học cho tin học

Tóm tắt nội dung tài liệu:

Luận án “Nghiên cứu phương pháp tìm kiếm ngữ nghĩa sử dụng Ontology và ứng dụng xây dựng hệ thống tra cứu, tìm kiếm văn bản mẫu bệnh” tập trung giải quyết những hạn chế của các hệ thống tìm kiếm văn bản hiện tại, vốn chủ yếu dựa trên từ khóa và đòi hỏi người dùng phải diễn đạt chính xác mối quan hệ ngữ nghĩa. Vấn đề này đặc biệt khó khăn khi người dùng thiếu kiến thức chuyên sâu về lĩnh vực cần tìm kiếm, ví dụ như tìm kiếm thông tin bệnh dựa trên các triệu chứng ban đầu chưa rõ ràng.

Nghiên cứu đề xuất các phương pháp tìm kiếm ngữ nghĩa tiên tiến bằng cách sử dụng Ontology. Cụ thể, luận án nghiên cứu các phương pháp xây dựng, trích rút thông tin từ văn bản để làm giàu ontology bệnh, khai phá các luật kết hợp trong ontology bệnh. Từ đó, ứng dụng xây dựng Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh có khả năng hỗ trợ tương tác với người sử dụng thông qua các gợi ý dựa trên tập luật kết hợp giữa các triệu chứng và luật kết hợp ngữ nghĩa từ các mối quan hệ trên Ontology bệnh.

Các điểm mới của đề tài bao gồm việc đề xuất phương pháp trích rút bộ ba (triple) dựa trên mô hình cú pháp để xây dựng đặc trưng văn bản, phương pháp tìm kiếm đa diện dữ liệu văn bản và cá nhân hóa tìm kiếm đa diện sử dụng dữ liệu định hướng xử lý nhập nhằng của Wikipedia Disambiguation. Luận án cũng giới thiệu phương pháp khai phá luật kết hợp trong Ontology bệnh (ASO-Apriori) dựa trên hai độ đo mới là độ hỗ trợ mở rộng và độ tin cậy mở rộng, đồng thời xây dựng Ontology bệnh tiếng Việt. Cuối cùng, luận án đề xuất phương pháp và xây dựng Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh có hỗ trợ tương tác.

Về ý nghĩa khoa học, luận án mở ra hướng nghiên cứu mới về tích hợp ontology và sử dụng luật kết hợp trong hệ thống tìm kiếm thông minh có tương tác. Hệ thống tìm kiếm ngữ nghĩa thông tin bệnh mang lại giá trị thực tiễn cao, giúp người dùng dễ dàng xác định các truy vấn phù hợp với ý định của họ. Các phương pháp đề xuất còn có tiềm năng ứng dụng rộng rãi trong các hệ thống phân loại, phân cụm, tóm tắt văn bản, hệ thống khuyến nghị và các hệ chuyên gia.

Mục lục chi tiết:

  • Chương 1. Kiến thức cơ sở
    • 1.1. Ontology
      • Khái niệm
      • Ứng dụng Ontology
      • Các ngôn ngữ Ontology
      • Tiến trình xây dựng ontology
    • 1.2. Trích rút thông tin từ văn bản
      • 1.2.1. Trích rút đặc trưng phổ biến
        • 1.2.1.1. TF-IDF trích rút thông tin văn bản
        • 1.2.1.2. Sử dụng NER trong trích rút thông tin văn bản
      • 1.2.2. Trích rút quan hệ ngữ nghĩa trong văn bản
    • 1.3. Các mô hình tìm kiếm
      • 1.3.1. Tìm kiếm tương tác
      • 1.3.2. Tìm kiếm ngữ nghĩa
        • 1.3.2.1. Giới thiệu về tìm kiếm ngữ nghĩa
        • 1.3.2.2. Các công trình nghiên cứu về tìm kiếm ngữ nghĩa
        • 1.3.2.3. Tìm kiếm đa diện (faceted search)
    • 1.4. Luật kết hợp
    • 1.5. Kết chương
  • Chương 2. Tìm kiếm ngữ nghĩa dựa trên nội dung văn bản
    • 2.1. Trích rút triple dựa trên mô hình ngữ pháp và từ vựng
      • 2.1.1. Trích rút triple
      • 2.1.2. Quy trình trích rút thông tin dữ liệu văn bản
      • 2.1.3. Đánh giá
    • 2.2. Tìm kiếm đa diện dữ liệu văn bản
      • Xây dựng tham chiếu định hướng xử lý nhập nhằng sử dụng Wikipedia (Wikipedia Disambiguation)
      • Xây dựng không gian tìm kiếm ngữ nghĩa sử dụng tham chiếu định hướng xử lý nhập nhằng
      • 2.2.1. Xây dựng tham chiếu định hướng xử lý nhập nhằng sử dụng Wikipedia
      • 2.2.2. Xây dựng không gian tìm kiếm ngữ nghĩa sử dụng tham chiếu định hướng xử lý nhập nhằng
      • 2.2.3. Đánh giá kết quả trích rút dữ liệu định hướng lý nhập nhằng từ Wikipedia Disambiguation
    • 2.3. Phương pháp cá nhân hóa facet trong tìm kiếm đa diện
    • 2.4. Kết chương
  • Chương 3. Tìm kiếm ngữ nghĩa có tương tác
    • 3.1. Sử dụng luật kết hợp trong tìm kiếm ngữ nghĩa thông tin bệnh
    • 3.2. Luật kết hợp trong Ontology bệnh (ASO-Association rule in DiseaseOntology)
      • Thuật toán ASO-Apriori dựa trên 02 nguyên tắc sau
      • Tư tưởng chính của thuật toán ASO-Apriori
      • Thuật toán ASO-Apriori
        • Giai đoạn 1: Sinh tập triệu chứng phổ biến - ASO-Apriori-GenFrequentSymptom
        • Giai đoạn 2: Đầu vào: Tập tất cả các tập triệu chứng phổ biến Lk, ngưỡng minconf.
          • Sinh các luật kết hợp ngữ nghĩa theo Nguyên tắc 2
    • 3.3. Đánh giá
      • 3.3.1. Phương pháp đánh giá độ chính xác và độ bao phủ
        • Độ chính xác (Precision)
        • Độ bao phủ (Recall)
  • Chương 4. Xây dựng Hệ thống tra cứu, tìm kiếm ngữ nghĩa thông tin bệnh

Tài liệu liên quan