info@luanan.net.vn
Luận án DOCX

Luận án Tra cứu ảnh dựa vào nội dung với học biểu diễn và giảm chiều dữ liệu

Năm2023
Lĩnh vựcCông nghệ thông tin
Ngôn ngữTiếng Việt, Tiếng Anh

Mô tả tài liệu

Tên luận án:

TRA CỨU ẢNH DỰA VÀO NỘI DUNG VỚI HỌC BIỂU DIỄN VÀ GIẢM CHIỀU DỮ LIỆU

Ngành:

Khoa học máy tính

Tóm tắt nội dung tài liệu:

Luận án tập trung giải quyết thách thức trong lĩnh vực Tra cứu ảnh dựa vào nội dung (CBIR) - một nhiệm vụ cấp thiết trong thị giác máy tính do sự gia tăng nhanh chóng của cơ sở dữ liệu ảnh số khổng lồ. Vấn đề chính là "khoảng trống ngữ nghĩa" giữa các đặc trưng mức thấp mô tả ảnh và các khái niệm mức cao được con người nhận biết, cùng với hạn chế của các phương pháp hiện có khi xử lý các bài toán có cỡ lớp nhỏ, cỡ mẫu nhỏ và dữ liệu chiều cao.

Mục tiêu nghiên cứu của luận án là đề xuất các phương pháp nhằm cải thiện độ chính xác và thời gian tra cứu đối với những bài toán này bằng cách ứng dụng hiệu quả các kỹ thuật học máy. Luận án đã nghiên cứu sâu về tra cứu ảnh dựa vào nội dung, biểu diễn đặc trưng ảnh, khoảng trống ngữ nghĩa, phản hồi liên quan, học máy, học sâu và mạng Autoencoder.

Luận án đã đóng góp hai phương pháp mới:

  • SDAIR (Sparse Discriminant Analysis for Image Retrieval): Phương pháp này kết hợp mô hình trích rút đặc trưng quan trọng dựa trên RSLDA với mô hình phân lớp trong hệ thống CBIR. SDAIR giải quyết hiệu quả ba vấn đề: số lượng mẫu phản hồi từ người dùng quá nhỏ so với chiều không gian đặc trưng; sự chênh lệch lớn giữa số mẫu phản hồi dương và âm; và số lớp quá nhỏ dẫn đến hạn chế về hướng chiếu. Mô hình này mềm dẻo, có khả năng lựa chọn tập đặc trưng quan trọng và tự động bổ sung mẫu dương vào tập huấn luyện, không đòi hỏi số lượng mẫu dương phải đủ lớn.
  • AIR (Autoencoders for Image Retrieval): Phương pháp này dựa trên ba thành phần chính: huấn luyện bán giám sát bằng mạng nơ ron tích chập autoencoder, trích rút đặc trưng ảnh và phân lớp SVM trong phản hồi liên quan. AIR tận dụng mạng nơ ron tích chập autoencoder với các kết nối tắt (shortcut connections) để học các biểu diễn đặc trưng hiệu quả, khắc phục vấn đề khả năng phân biệt kém của các phương pháp trước, giảm nhẹ vấn đề vanishing/exploding gradients và tăng tốc độ hội tụ. Cơ chế học phản hồi liên quan sử dụng máy véc tơ hỗ trợ SVM giúp tận dụng các mẫu có nhãn từ phản hồi của người dùng để phân lớp và phân hạng ảnh.

Các kết quả thực nghiệm trên các tập dữ liệu CIFAR-100 và COREL đã chứng minh rằng các phương pháp đề xuất có thể cải tiến đáng kể hiệu năng cho bài toán tra cứu ảnh với phản hồi liên quan, đặc biệt trong các kịch bản cỡ mẫu nhỏ, cỡ lớp nhỏ và dữ liệu có chiều cao.

Tài liệu liên quan