info@luanan.net.vn
VIP Luận án PDF

Luận án Phương pháp đánh chỉ số cho tài liệu XML tin sinh học dựa trên R-tree

Năm2019
Lĩnh vựcKhoa học tự nhiên
Ngôn ngữTiếng Việt, Tiếng Anh
Xem trước tài liệu
Đang tải...

Đang tải tài liệu...

Mô tả tài liệu

Tên luận án:

PHƯƠNG PHÁP ĐÁNH CHỈ SỐ CHO TÀI LIỆU XML TIN SINH HỌC DỰA TRÊN R-TREE

Ngành:

Cơ sở toán học cho tin học (Mã số: 9 46 01 10)

Tóm tắt nội dung tài liệu:

Luận án này tập trung giải quyết thách thức về hiệu quả lưu trữ và truy vấn dữ liệu XML tin sinh học có kích thước lớn (Giga, Tera Byte), vốn phổ biến nhưng khó khai thác do tốc độ truy xuất đĩa cứng chậm và các phương pháp đánh chỉ số truyền thống kém hiệu quả, thường tạo ra chỉ số lớn hơn dữ liệu gốc. Để khắc phục vấn đề này, luận án đề xuất tiếp cận phân tách tài liệu XML thành dữ liệu cấu trúc (thẻ) và dữ liệu sinh học (đoạn DNA), sau đó chuyển đổi dữ liệu văn bản gốc sang dạng số để giảm kích thước và áp dụng các phương pháp đánh chỉ số phù hợp.

Nghiên cứu giới thiệu phương pháp BioX-tree, một cải tiến từ cấu trúc R-tree, nhằm nâng cao hiệu quả truy vấn XPath trên dữ liệu XML tin sinh học. BioX-tree được phát triển với cấu trúc dữ liệu cải tiến, bao gồm việc thêm các con trỏ biểu thị mối quan hệ cha mẹ – con cái, anh em, cùng với việc bổ sung các tham số trong quá trình chuyển đổi tài liệu XML sang không gian số. Các thuật toán chèn và truy vấn cũng được thiết kế lại để tối ưu hóa tốc độ xử lý các truy vấn phức tạp. Kết quả thực nghiệm đã chứng minh rằng BioX-tree đạt hiệu suất tốt hơn đáng kể so với R-tree, đặc biệt trong các truy vấn điểm.

Tiếp nối, luận án phát triển phương pháp BioX⁺-tree để khắc phục những hạn chế về cấu trúc của BioX-tree. BioX⁺-tree tối ưu hóa các thuật toán chèn và truy vấn bằng cách cân nhắc đặc điểm của các tag đầu và cuối của node lá, giúp giảm kích thước MBR (Minimum Bounding Rectangle) và hạn chế vấn đề giao cắt. Phương pháp này cũng loại bỏ con trỏ `Par` (trỏ tới node cha mẹ) và áp dụng các định lý cùng hệ quả để giảm thiểu các bước duyệt cây dư thừa trong quá trình tìm kiếm. Thực nghiệm đã chứng tỏ BioX⁺-tree vượt trội hơn BioX-tree trong hầu hết các loại truy vấn XPath và các truy vấn thông thường, đặc biệt là các truy vấn liên quan đến mối quan hệ anh em, nhờ cấu trúc cây được tối ưu hóa.

Hướng phát triển tương lai của luận án bao gồm tiếp tục nghiên cứu các phương pháp đánh chỉ số để cải thiện hơn nữa hiệu suất truy vấn và mở rộng khả năng ứng dụng vào các hệ thống quản lý cơ sở dữ liệu lớn hỗ trợ R-tree như SQL Server và Big data.

Tài liệu liên quan