info@luanan.net.vn
VIP Luận án PDF

Luận án Nghiên cứu phương pháp nâng cao độ chính xác phát hiện và nhận dạng tiếng Việt trong ảnh căn cước công dân và ảnh ngoại cảnh

Năm2025
Lĩnh vựcCông nghệ thông tin
Ngôn ngữTiếng Việt, Tiếng Anh
Xem trước tài liệu
Đang tải...

Đang tải tài liệu...

Mô tả tài liệu

Tên luận án:

NGHIÊN CỨU PHƯƠNG PHÁP NÂNG CAO ĐỘ CHÍNH XÁC PHÁT HIỆN VÀ NHẬN DẠNG TIẾNG VIỆT TRONG ẢNH CĂN CƯỚC CÔNG DÂN VÀ ẢNH NGOẠI CẢNH

Ngành:

Khoa học máy tính

Tóm tắt nội dung tài liệu:

Luận án này tập trung nghiên cứu và phát triển các phương pháp nhằm nâng cao độ chính xác trong việc phát hiện và nhận dạng văn bản tiếng Việt từ ảnh chụp trong môi trường ngoại cảnh và ảnh căn cước công dân. Trong bối cảnh các thiết bị thông minh ngày càng phổ biến, việc xử lý văn bản tiếng Việt trên các bề mặt đa dạng như biển báo, quảng cáo, tên đường phố vẫn còn nhiều thách thức do sự biến đổi về hình dạng, kích thước và độ phức tạp của nền ảnh.

Luận án đề xuất một giải pháp tổng thể dựa trên nền tảng học sâu, bao gồm ba phương pháp chính. Thứ nhất, phương pháp nắn chỉnh hình ảnh (VNST-REC - Vietnamese Scene Text Rectification) giúp tiền xử lý và nắn chỉnh hiệu quả các ảnh văn bản bị méo hoặc biến dạng. VNST-REC sử dụng mô hình PP-Yolo để phát hiện vùng quan tâm (ROI), sau đó áp dụng thuật toán phát hiện góc thích nghi và ma trận homography để nắn chỉnh ảnh. Phương pháp này đạt độ chính xác cao (0.9985-0.9995% precision, 0.9961-0.9986% recall) và tốc độ xử lý nhanh, có khả năng xử lý các ảnh có cấu trúc phức tạp.

Thứ hai, phương pháp phát hiện văn bản (VNSTD - Vietnamese Scene Text Detector) được thiết kế để phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh với độ chính xác cao và tốc độ nhanh. VNSTD sử dụng kiến trúc mạng học sâu gồm mạng backbone (ResNet-50), mô hình hợp nhất (FPN) và mô hình tập trung ngữ cảnh, cho phép xử lý tốt các văn bản có hình dạng bất kỳ, bao gồm cả văn bản cong, và đặc biệt là các tầng dấu mũ, dấu thanh điệu đặc trưng của tiếng Việt.

Thứ ba, phương pháp nhận dạng văn bản (VNSTR - Vietnamese Scene Text Recognition) giải quyết bài toán dự đoán chuỗi ký tự từ hình ảnh. VNSTR tích hợp thông tin ngữ cảnh đa mức, sử dụng mô hình ngôn ngữ tiếng Việt hai chiều mức ký tự và cơ chế hợp nhất, hiệu chỉnh lỗi lặp lại để tăng cường độ chính xác.

Các phương pháp này được tích hợp để tạo thành một giải pháp toàn diện cho bài toán Text Spotting. Luận án cũng đóng góp một tập dữ liệu ảnh ngoại cảnh tiếng Việt mới gồm 3000 hình ảnh thực tế để phục vụ nghiên cứu. Mặc dù đạt được hiệu quả đáng kể, các phương pháp vẫn còn hạn chế khi xử lý ảnh quá mờ/lóa sáng, văn bản quá to/nhỏ, nền phức tạp, hoặc chữ viết tay/ngôn ngữ không chuẩn. Hướng nghiên cứu tương lai bao gồm mở rộng khả năng của các thuật toán và tối ưu hóa mô hình để đáp ứng yêu cầu thời gian thực.

Mục lục chi tiết:

  • CHƯƠNG 1 - TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ NHẬN DẠNG VĂN BẢN TRONG ẢNH CĂN CƯỚC CÔNG DÂN VÀ ẢNH NGOẠI CẢNH

    • Khái niệm
    • Mô tả bài toán phát hiện và nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh
    • Khảo sát nghiên cứu trước
    • Những vấn đề, những thách thức trong việc phát hiện và nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh
    • Cơ sở lý thuyết về học sâu
    • Trình bày rõ về thuật ngữ, đối tượng xử lý cùng cơ sở dữ liệu ảnh
    • Kết luận chương 1
  • CHƯƠNG 2 - PHƯƠNG PHÁP TIỀN XỬ LÝ, NẮN CHỈNH HÌNH ẢNH BỊ BIẾN DẠNG

    • Các hướng tiếp cận liên quan
    • Phương pháp nắn chỉnh hình ảnh văn bản bị biến dạng
      • Thuật toán phát hiện vùng quan tâm
      • Phân vùng ảnh và phát hiện các điểm góc
      • Thuật toán nắn chỉnh ảnh
    • Đánh giá thực nghiệm
      • Môi trường
      • Dữ liệu
      • Kết quả thực nghiệm
    • Kết luận chương 2
  • CHƯƠNG 3 - NÂNG CAO ĐỘ CHÍNH XÁC PHÁT HIỆN VĂN BẢN TIẾNG VIỆT TRONG ẢNH CĂN CƯỚC CÔNG DÂN VÀ ẢNH NGOẠI CẢNH

    • Các hướng tiếp cận trong việc phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh
    • Đặc điểm cấu trúc văn bản tiếng Việt
    • Phương pháp phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh
      • Trích chọn đặc trưng từ ảnh đầu vào
      • Mô hình hợp nhất
      • Mô hình tập trung ngữ cảnh
      • Phân vùng văn bản
    • Thực nghiệm phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh
      • Môi trường thực nghiệm
      • Dữ liệu thực nghiệm
      • Các độ đo đánh giá hiệu quả phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh
      • Kết quả thực nghiệm
    • Kết luận chương 3
  • CHƯƠNG 4 - NÂNG CAO ĐỘ CHÍNH XÁC NHẬN DẠNG VĂN BẢN TIẾNG VIỆT TRONG ẢNH CĂN CƯỚC CÔNG DÂN VÀ ẢNH NGOẠI CẢNH

    • Các hướng tiếp cận trong nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh
    • Phương pháp nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh
      • Mô hình dự đoán chuỗi ký tự từ hình ảnh
      • Mô hình ngôn ngữ
      • Mô hình hợp nhất và hiệu chỉnh lỗi
      • Huấn luyện mô hình
    • Ứng dụng giải quyết bài toán Text Spotting cho tiếng Việt
    • Một số kết quả thực nghiệm
      • Mô hình thực nghiệm
      • Dữ liệu thực nghiệm
      • Độ đo đánh giá
      • Kết quả thực nghiệm
    • Kết luận chương 4
  • CHƯƠNG 5 - KẾT LUẬN CHUNG

    • Các kết quả chính của luận án
      • Nâng cao chất lượng nắn chỉnh ảnh đầu vào
      • Nâng cao độ chính xác phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh
      • Nâng cao độ chính xác nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh
      • Đề xuất một giải pháp tích hợp đã trình bày ở mục a), b) và c) là giải pháp tốt hơn cho bài toán text spotting
    • Một số vấn đề chưa giải quyết được
      • Hạn chế của phương pháp nắn chỉnh ảnh VNST-REC
      • Hạn chế của phương pháp phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh VNSTD
      • Hạn chế của phương pháp nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh VNSTR
    • Một số vấn đề có thể tiếp tục nghiên cứu
      • Mở rộng khả năng của thuật toán nắn chỉnh ảnh VNST-REC trên lớp đối tượng đầu vào có có định dạng không biết trước
      • Cải tiến thuật toán VNSTD để thích nghi tốt trong trường hợp văn bản có kích thước quá to hoặc quá nhỏ, ảnh có nền phức tạp
      • Cải tiến thuật toán VNSTR để tăng khả năng thích nghi và đối phó với các trường hợp văn bản đầu vào bất thường, có hình dạng phức tạp
      • Tối ưu các mô hình học sâu để tăng tốc độ xử lý trong các công đoạn xử lý nhằm đáp ứng tính thời gian thực trong ứng dụng thực tiễn

Tài liệu liên quan