Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video

136 trang Phương Linh 03/04/2025 4220

Download

Bạn đang xem 30 trang mẫu của tài liệu "Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

luan an-NCS Le Dinh Nghiep 3_8_2020.pdf
tom tat luan an NCS Le Dinh Nghiep 8_2020.pdf
trang thong tin luan an - Le Dinh Nghiep.docx

Nội dung tài liệu: Nghiên cứu cải tiến kỹ thuật nhận dạng và thay thế đối tượng trong video

1 PHẦN MỞ ĐẦU Tính cấp thiết của luận án Ngày nay với sự phát triển mạnh mẽ của các thiết bị thu nhận hình ảnh kỹ thuật số đã dẫn đến sự bùng nổ về dữ liệu đa phương tiện. Tận dụng nguồn dữ liệu đa phương tiện sẵn có với nội dung hấp dẫn thu hút được khối lượng lớn người xem như phim ảnh, video truyền hình, thể thao, các đối tượng quảng cáo được tích hợp, chèn trực tiếp vào nội dung của các video này. Đây là phương pháp phổ biến và nhanh nhất đưa thông tin quảng bá về sản phẩm, nhãn hiệu, thương hiệu, (gọi tắt là đối tượng quảng cáo) đến đông đảo khách hàng, người tiêu dùng. Quá trình chèn đối tượng quảng cáo mới hay thay thế đối tượng quảng cáo đã có trong video bằng đối tượng quảng cáo khác nhằm tận dụng những video sẵn có hiện nay phần lớn được thực hiện theo phương pháp thủ công. Tuy nhiên với sự bùng nổ về số lượng video có sẵn cả về trực tuyến và ngoại tuyến làm cho việc phân tích, xử lý tất cả nội dung video theo cách thủ công rất tốn kém và không khả thi. Điều này đã thúc đẩy luận án nghiên cứu các kỹ thuật hỗ trợ quá trình hậu xử lý video tự động áp dụng trong lĩnh vực thương mại như phân tích nội dung quảng cáo trong video hay tích hợp, thay thế đối tượng quảng cáo vào video đã sẵn có nội dung. Mục tiêu của luận án Mục tiêu của luận án là tập trung nghiên cứu, cải tiến các kỹ thuật xử lý các vấn đề quan trọng trong bài toán hậu xử lý, hiểu video ứng dụng cho bài toán phát hiện và thay thế đối tượng quảng cáo trong video nhằm đạt được hiệu năng cao trên hai phương diện
2 tốc độ và độ chính xác. Các vấn đề xử lý gồm: phát hiện đối tượng quảng cáo trong video gồm dò tìm và nhận dạng hình dáng của đối tượng trong video; thay thế đối tượng trong video gồm phân vùng, trích chọn phần hiển thị của đối tượng; hoàn thiện video sau khi thay thế đối tượng tìm thấy trong video bằng đối tượng được lựa chọn. Đối tượng, phạm vi nghiên cứu của luận án Đối tượng nghiên cứu của luận án là các mô hình dò tìm đối tượng trong video. Các kỹ thuật lập chỉ mục tập vector đặc trưng khổng lồ với số chiều lớn, các kỹ thuật tìm kiếm lân cận xấp xỉ gần nhất (ANN) ứng dụng trong nhận dạng hình dạng đối tượng. Các mô hình phân vùng đối tượng, hoàn thiện, tái tạo video sau khi loại bỏ hoặc thay thế đối tượng. Phạm vi nghiên cứu của luận án tập trung vào các đoạn video thể thao, quảng cáo, phim ảnh đã được phân thành một chuỗi các frame liên tiếp nhau. Đối tượng quảng cáo là các đối tượng hình ảnh tĩnh, hai chiều. Các thể hiện của đối tượng có kích thước không quá nhỏ, giới hạn trong khoảng từ 20px đến 400px mỗi chiều. Phương pháp và nội dung nghiên cứu Phương pháp luận trong nghiên cứu của luận án là kết hợp giữa nghiên cứu lý thuyết và thực nghiệm, gồm có: phân tích, so sánh, tổng hợp và đánh giá kết quả dựa trên thực nghiệm. Nội dung nghiên cứu của luận án tập trung cải tiến mô hình dò tìm đối tượng trong video dựa trên mạng tích chập học sâu (DCNN). Cải tiến kỹ thuật lập chỉ mục dựa trên phép lượng tử hóa tích đề các (PQ), kỹ thuật tìm kiếm, đối sánh mẫu áp dụng cho bài toán nhận dạng hình dạng của đối tượng. Cải tiến kỹ thuật phân vùng
3 thực thể đối tượng, hoàn thiện vùng trống/vùng bị phá hủy trong video dựa trên DCNN. Các đóng góp của luận án (i) Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng trong video theo hướng tiếp cận dựa trên DCNN. (ii) Cải tiến kỹ thuật lập chỉ mục vector đặc trưng lượng tử hoá tích đề các theo cụm vector (PSVQ), nâng cao chất lượng mã hóa tập dữ liệu vector có số chiều lớn. (iii) Cải tiến mô hình inpainting ảnh RBPconv áp dụng cho bài toán hoàn thiện và tái tạo vùng trống được sinh ra trong video sau khi thay thế đối tượng. CHƯƠNG 1. TỔNG QUAN VỀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO 1.1. Dò tìm đối tượng Với phương pháp truyền thống, giải thuật dò tìm đối tượng được chia thành hai giai đoạn độc lập: trích chọn đặc trưng thô và mô tả, biểu diễn các đặc trưng này. Trong đó, trích trọn đặc trưng thô là tiến trình dò tìm các điểm có tính bất biến cao với một số phép biến đổi hình học. Do chỉ chú trọng đến các phép hình thái nên nhược điểm của mô hình này là các đặc trưng được xác định theo chủ quan cho tất cả các lớp đối tượng, vì vậy không có tính phổ quát cao. Bên cạnh đó các giải thuật này có độ phức tạp, chi phí tính toán rất lớn. Với phương pháp dò tìm đối tượng dựa trên DCNN. Tất cả các bước rời rạc trước đây được chuyển qua các lớp của một mạng nơron duy nhất. Dựa trên DCNN, mô hình dò tìm đối tượng được phân thành hai loại: mô hình dò tìm đối tượng hai trạng thái và một
4 trạng thái. Trong mô hình hai trạng thái, đầu tiên đề xuất vùng đối tượng được xác định. Tiếp theo mạng DCNN được sử dụng để trích xuất đặc trưng từ các đề xuất vùng, cuối cùng tiến hành phân lớp/hồi quy để xác định lớp và bao đóng chứa đối tượng. Ưu điểm của phương pháp này là độ chính xác tương đối cao, tuy nhiên tốc độ xử lý tương đối chậm với ngay cả cho một ảnh. Khắc phục nhược điểm của mô hình hai trạng thái, mô hình một trạng thái không sử dụng đề xuất vùng đối tượng mà chỉ dựa trên một mạng DCNN duy nhất ánh xạ trực tiếp các điểm ảnh tới tọa độ vùng bao đóng và xác suất phân lớp được nghiên cứu. Các mô hình tiêu biểu trong nhóm này là YOLO, SSD đã đạt được thành công về mặt thời gian thực thi trong việc phát hiện đối tượng, tuy nhiên nhược điểm chỉ dựa vào các đặc trưng mức cao nên độ chính xác chưa cao. 1.2. Nhận dạng hình dạng của đối tượng Để nhận dạng hình dạng của đối tượng dựa trên vector đặc trưng trích chọn trong quá trình dò tìm đối tượng nhiều kỹ thuật lập chỉ mục cho tập dữ liệu với số chiều lớn đã được nhiên cứu. Các kỹ thuật hiệu quả gồm: kỹ thuật trên hàm băm, dựa trên phân cụm, dựa trên phân hoạch không gian, và dựa trên lượng tử hóa tích đề các. Trong số các kỹ thuật này, phương pháp tìm kiếm dựa trên lượng tử hóa tích đề các trên tập dữ liệu vector số chiều lớn cho kết quả tối ưu hơn cả. Vì vậy, kỹ thuật này được luận án nghiên cứu chi tiết, cải tiến, phát triển cho bài toán đối sánh tìm ra hình dạng đối tượng từ tập hình dạng cho trước dựa trên vector đặc trưng. Với kích thước tập dữ liệu đối sánh có thể lên đến hàng triệu bản ghi và mỗi vector có số chiều lớn (hàng nghìn chiều), thời gian đối sánh là một vấn đề quan trọng cần phải giải quyết cho các ứng
5 dụng xử lý video cần theo thời gian thực. Để tối ưu hóa thời gian đối sánh mẫu, tập vector đặc trưng được lập chỉ mục, mã hoá bằng kỹ thuật PQ nhằm giảm kích thước không gian lưu trữ. Sau đó, các phương pháp tìm kiếm ANN nhanh trên không gian mã hóa để tìm ra đối tượng xấp xỉ gần nhất. 1.3. Thay thế, hoàn thiện video Sau khi đối tượng trong video được phát hiện, vùng hiển thị của đối tượng cần được trích chọn và loại bỏ khỏi video. Tương tự, vùng đối tượng được thay thế cũng được trích trọn từ ảnh đích để chèn vào vùng nguồn vừa bị loại bỏ trong video. Tiến trình hiệu chỉnh video này sẽ làm xuất hiện các vùng bị phá hủy do sự chồng lấp không đầy đủ và cần được hoàn thiện trong quá trình hậu xử lý. Video inpainting là kỹ thuật thích hợp để tái tạo và hoàn thiện các vùng này. Để đạt được mục tiêu khôi phục ảnh bị phá hủy xấp xỉ ảnh nguyên bản đã có nhiều nghiên cứu về video inpainting, nhưng chủ yếu phát triển theo hai hướng tiếp cận: dựa trên lấy mẫu, hoặc dựa trên CNN. Với các tiếp cận dựa trên lấy mẫu, phần ảnh bị mất được khôi phục theo cách gia tăng vùng hoàn thiện từ mép ngoài vào trong tâm vùng bằng cách tìm kiếm các bản mẫu thích hợp và ghép chúng với nhau. Nhược điểm lớn nhất là chúng không thể giải quyết trường hợp các phần bị mất mát không thể được tìm thấy từ dữ liệu. Các nghiên cứu sử dụng CNN để hoàn thiện vùng trống thường sử dụng một kiến trúc cơ bản là mạng encoder-decoder có thể học các đặc trưng ngữ cảnh của ảnh từ đó hoàn thiện ảnh. Ảnh thu được thường có tính chân thực cao hơn cách tiếp cận lấy mẫu.
6 Kết luận chương 1 Trong chương này, các mô hình dò tìm đối tượng, kỹ thuật nhận dạng hình thể của đối tượng trong video dựa trên tập dữ liệu vector đặc trưng, mô hình hoàn thiện vùng bị phá hủy trong video đã được trình bày tổng quan. Thông qua đánh giá ưu điểm, hạn chế của các nghiên cứu trước đó, luận án đã xác định được hướng nghiên cứu phù hợp cho bài toán phát hiện và thay thế đối tượng trong video. CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO Nội dung của chương tập trung giới thiệu mô hình dò tìm đối đượng cải tiến theo thời gian thực với độ chính xác cao. Tốc độ dò tìm (>30 frame mỗi giây) là yếu tố then chốt trong việc lựa chọn mô hình. Vì vậy, luận án tập trung nghiên cứu cải tiến mô hình YOLO cho phù hợp với đối tượng quảng cáo nhằm gia tăng độ chính xác trong khi vẫn duy trì tốc độ theo thời gian thực. Sau đó kỹ thuật PSVQ cải tiến kết hợp với cây phân cụm thứ bậc để tìm ra đối tượng có hình dạng tương đồng nhất từ tập đối tượng có sẵn dựa trên tập vector đặc trưng đã được trích chọn. 2.1. Dò tìm đối tượng trong video 2.1.1. Một số cải tiến trong mô hình YOLO-Adv 2.1.1.1. Cải tiến hàm loss Để giảm sự ảnh hưởng về kích thước, độ nghiêng của đối tượng lên mô hình, phương pháp tính toán hàm mất mát thông tin theo chiều rộng và chiều dài của bounding box được cải tiến. Các độ đo kích thước tương đối được sử dụng thay thế cho độ đo tuyệt đối trong hàm loss này của mạng YOLO nguyên bản (thành phần đánh dấu *). Hàm loss cải tiến được định nghĩa theo công thức sau:
7 = ∑ ∑ ( − ) + ( − ) + ∑ ∑ ( ) + ( ) (*) + ∑ ∑ − + ∑ ∑ − + ∑ ∑∈(()− ̂()) Cụ thể, trong hàm loss mới, độ đo , và được sử dụng thay thế cho − và ℎ − ℎ. Tác dụng của cải tiến này đã làm gia tăng độ chính xác trong dò tìm các bounding box, làm giảm sự ảnh hưởng khi kích thước, độ nghiêng của đối tượng trong các frame khi chúng bị thay đổi. Đồng thời cũng làm gia tăng tốc độ hội tụ trong pha huấn luyện. 2.1.1.2. Cải tiến trong kiến trúc mạng Với mạng DCNN, các đặc trưng cục bộ xuất hiện trong các tầng thấp. Để sử dụng các đặc trưng cục bộ này, một chiến lược hợp nhất đặc trưng đa tầng được sử dụng bên trong kiến trúc mạng Darknet-53. Với chiến lược này, kết quả bản đồ đặc trưng ảnh qua khối Residual 8x256 tiếp tục nhân chập với mặt nạ 3x3x256 và 1x1x64, sau đó toán tử ReShape/2 được sử dụng để tái cấu trúc lại bản đồ đặc trưng với mục đích làm làm cho bản đồ đặc trưng của tầng này giống với cấu trúc bản đồ đặc trưng các tầng sau. Cuối cùng, các đặc trưng ở các mức khác nhau được hợp nhất với mục đích làm giàu các đặc trưng cục bộ.
8 2.1.2. Ước lượng, đánh giá mô hình dò tìm đối tượng cải tiến 2.1.2.1. Dữ liệu kiểm thử và môi trường cài đặt Để huấn luyện và kiểm thử mô hình YOLO-Adv, bộ dữ liệu flickrlogos-47 được sử dụng. Quá trình phát hiện đối tượng trong video được thực nghiệm trên máy chủ GPU. GPU được sử dụng là Nvidia Tesla K80, bộ nhớ video 24GB, và điều hành Ubuntu 14 với bộ nhớ trong 64GB. Hình 2.1. Giá trị hàm loss trung bình huấn luyện 2.1.2.2. Kết quả thực nghiệm Ước lượng pha huấn luyện Biểu đồ hình 2.1 biễu diễn đồ thị giá trị hàm loss trung bình của 3 mô hình YOLO-Adv, YOLO-Loss và YOLOv3 nguyên bản. Trong đó YOLO-Loss là mô hình chỉ cải tiến hàm loss, YOLO-Adv là mô hình cải tiến đồng thời hàm loss và kiến trúc mạng. Cả ba mô hình được huấn luyện trên tập dữ liệu flickrlogos-47. Kết quả cho ta thấy giá trị hàm loss trung bình của cả 3 mô hình có khuynh hướng
9 giảm nhanh trong 5000 vòng lặp đầu tiên, cuối cùng hướng về sự ổn định tại giá trị rất nhỏ sau khoảng 15000 vòng lặp. Tuy nhiên, mô hình YOLO-Adv có độ lỗi trung bình giảm nhanh nhất tại thời điểm bắt đầu và đạt giá trị nhỏ nhất đầu tiên trong ba mô hình theo sau bởi hai mô hình YOLO-Loss và YOLOv3. Điều này chứng tỏ hàm loss và kiến trúc mạng cải tiến làm cho mô hình có tính ổn định cao, ít bị tác động bởi các kích thước và độ nghiêng của đối tượng quảng cáo, thích hợp cho tập dữ liệu huấn luyện được chọn. (a) YOLOv3 (b) YOLO-Loss (c) YOLO-Adv Hình 2.2. Biểu đồ giá trị IoU huấn luyện Kết quả so sánh hệ số IoU thể hiện độ chính xác trong việc định vị các bounding box được minh họa trong hình 2.2. Hệ số IoU trung bình của cả ba mô hình có khuynh hướng tăng đều và giữ ổn định trong khoảng [0.7 - 1.0]. Điều này chứng tỏ cả 3 mô hình cho độ chính xác cao khi xác định vị trí bounding box. Tuy nhiên giá trị IoU của mô hình YOLO-Adv có khuynh hướng tăng nhanh nhất, tức là tốc độ huấn luyện nhanh nhất trong ba mô hình trên. Bên cạnh đó giá trị IoU của YOLO-Adv cũng giữ giá trị ổn định ở mức cao nhất, đồng nghĩa với độ chính xác trong phát hiện đối tượng là cao nhất.
10 Ước lượng pha kiểm thử Độ chính xác trong phân lớp của mô hình YOLO-Adv tiếp theo lần lượt được so sánh với các mô hình YOLOv3 và YOLO-Loss trên tập dữ liệu huấn luyện Flickrlogos-47 với ngưỡng  = 0.5, sử dụng độ đo ước lượng mAP. So sánh kết quả dò tìm đối tượng trên độ đo mAP cho thấy YOLO-Adv cho độ chính xác cao nhất trong phát hiện, với mAP đạt 80.2 (bảng 2.1) so với các mô hình YOLO-Loss, YOLOv3 chỉ đạt tương ứng là 77.4 và 74.0. Ngoài ra với tốc độ xử lý trung bình đạt 0.028s cho mỗi frame, mô hình YOLO-Logo có thể đạt tốc độ xử lý theo thời gian thực với khoảng 35 frame xử lý được trong 1 giây. Bảng 2.1. Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47 Mô hình mAP s/Img YOLOv3 74.0 0.038 YOLO-Loss 77.4 0.032 YOLO-Adv 80.2 0.028 2.2. Nhận dạng hình dạng đối tượng Nhiệm vụ chính của pha nhận dạng hình dạng đối tượng là xác định chính xác hình dạng của đối tượng đã tìm thấy trong pha trước đó. Để thực hiện tác vụ này, luận án đã sử tập dữ liệu rất lớn vector đặc trưng về hình dạng của đối tượng được trích chọn bằng mô hình YOLO-Adv. Tập dữ liệu này được lập chỉ mục, mã hoá và quá trình nhận dạng được thực hiện bằng cách đối sánh vector đặc trưng của đối tượng truy vấn với các vector trong tập dữ liệu.
11 2.2.1. Mô hình lập chỉ mục PSVQ Gọi X là tập các vector đặc trưng đã trích chọn được. Ký hiệu ∈ là một vector hay điểm dữ liệu trong tập dữ liệu X. Ký ( ) hiệu () ∈ là vector con thứ j của x với j=1,2, m. Không gian dữ liệu gốc X trước hết được chia thành m không gian con phân biệt tách rời nhau, mỗi vector con này có số chiều là D/m. Để giải quyết vấn đề còn hạn chế về mối tương quan dữ liệu giữa các không gian con không được xem xét dẫn tới sự dư thừa các codeword, PSVQ được phát triển dựa trên ý tưởng gộp h không gian liền kề nhau trong m không gian này. Sau đó áp dụng phép lượng tử hóa vector cho các không gian gộp này. Cụ thể kết hợp h (1≤ℎ≤ ) không gian liền kề nhau tạo thành _ = /ℎ không gian con và thực hiện lượng tử hóa riêng biệt trên _ tập con vừa hình thành này với _ bộ lượng tử thấp. Như vậy, mỗi không gian con lúc này có _ =ℎ× tâm cụm. Do đó, sẽ có một vài không gian con chia sẻ cùng một bộ lượng tử. Vì vậy tạo ra các phân rã mịn hơn trên dữ liệu ban đầu trong khi không làm gia tăng số lượng các codeword (có tất cả _ ×_ = × codeword). Như vậy với một tập dữ liệu vector đặc trưng X gồm n điểm trong không gian R(d), bằng cách áp dụng tiến trình lượng tử hóa trên ∗ cho tất cả các điểm dữ liệu trong X dựa trên các codebook { } thu được trong quá trình huấn luyện ta thu được tập mã lượng tử Q gồm n lượng tử cho từng phần tử trong X. Mỗi phần tử trong Q là một vectơ của kích thước m và có giá trị trong khoảng [0, _K-1]. Tập Q lúc này có kích thước n x m phần tử nguyên, do vậy không gian nhớ hơn giảm nhiều lần so với tập dữ liệu số thực X.
12 2.2.2. Tìm kiếm ANN dựa trên cây phân cụm thứ bậc Quá trình tìm kiếm ANN được thực hiện dựa trên cây phân cụm thứ bậc hoàn chỉnh kết hợp trên tập dữ liệu mã hoá bằng phương pháp lượng tử PSVQ bao gồm 2 pha: offline – pha chuẩn bị dữ liệu, tạo cây tìm kiếm và tìm kiếm online – pha duyệt cây. Trong pha offline, tập ℒ (kích thước m x _K) là tập codebook của X được xây dựng theo phương pháp PSVQ. Mỗi mã lượng tử trong ℒ hình thành từ quá trình lượng tử một điểm dữ liệu ∈ dựa ∗ trên cookbook {}. Tập codebook ℒ được lưu trữ phục vụ cho việc tra cứu để tính khoảng cách giữa vector truy vấn r và các điểm dữ (∗) liệu trong X. Với ()= ủ . Song song với quá trình hình thành tập dữ liệu tra cứu ℒ, tập dữ liệu vector đặc trưng ban đầu cũng được dùng để tạo ra một cây phân cụm thứ bậc hoàn chỉnh nhằm biểu diễn tất cả các điểm dữ liệu trong không gian ban đầu. Tiến trình tạo cây bắt đầu tạo ra nút gốc tương ứng với toàn bộ tập dữ liệu. Tiếp theo, giải thuật phân cụm (Kmeans) được áp dụng để phân cụm dữ liệu trên nút này thành K cụm con, mỗi một cụm được gọi là một nút trong biểu diễn và được đại diện bởi tâm cụm (codeword). Tiến trình này được lặp lại đệ quy cho đến khi lực lượng tại cụm con là đủ nhỏ, được coi là nút lá. Pha online là quá trình tìm kiếm một vector xấp xỉ trong tập dữ liệu vector đặc trưng so với vector truy vấn r trong không gian R(D). Bản chất của quá trình tìm kiếm này là quá trình duyệt cây phân cụm thứ bậc đã được tạo ra trước. Xuất phát từ nút gốc, nút con mà có khoảng cách từ r đến là bé nhất được chọn duyệt tiếp theo. Quá trình duyệt cây được lặp đệ quy đến khi tìm ra nút lá thích hợp nhất.
13 2.2.3. Ước lượng đánh giá 2.2.3.1. Ước lượng, đánh giá kỹ thuật PSVQ Tập dữ liệu và cấu hình phần cứng Dữ liệu được sử dụng trong quá trình thực nghiệm gồm các tập dữ liệu có số chiều lớn là ANN_GIST1M, VGG. Giải thuật được cài đặt trên môi trường C/C++ và thực nghiệm được tiến hành một máy tính cấu hình phần cứng chuẩn gồm: RAM 16GB, chip Intel Core (Dual-Core) i7 2.1 GHz, được cài hệ điều hành Windows 7. (a) 1M 960D ANN_GIST (b) 500K 4096D VGG Hình 2.3. Chất lượng mã hóa PSVQ Ước lượng, đánh giá chất lượng mã hóa Chất lượng mã hóa của PSVQ với các tham số h=2,4,8 được so sánh với các phương pháp dựa trên cách tiếp cận PQ sử dụng cơ chế tối ưu hóa các bộ lượng tử là PQ chuẩn và ck-means. Kết quả so sánh minh họa trong biểu đồ hình 2.3 cho thấy mô hình đề xuất với h=8 thực thi tốt hơn so với các phương pháp còn lại trên cả hai tập dữ liệu kiểm thử GIST và VGG. Kết quả này chứng tỏ sự tương quan của dữ liệu được xem xét tối đa trên tất cả các không gian con.
14 2.2.3.2 Ước lượng, đánh giá tốc độ tìm kiếm ANN Để chứng minh tính hiệu quả của thuật toán trong pha tìm kiếm hình dạng của đối tượng, luận án đã tiến hành một số thực nghiệm trên các tập dữ liệu chuẩn khác nhau để tìm ra tham số tối ưu nhất dùng để xây dựng bộ lượng tử. Kết quả nhận được là d=48, k=256 trên tập ANN_GIST với các vector 960 chiều và d=64, k=128 trên tập VGG gồm các vector 4096 chiều. (a) 1M 960D ANN_GIST (b) 500K 4096D VGG Hình 2.4. Tốc độ tìm kiếm ANN trên các tập đặc trưng Ước lượng giải thuật tìm kiếm Hiệu năng tìm kiếm của phương pháp đề xuất được so sánh với nhiều phương pháp khác nhau trong lớp bài toán tìm kiếm ANN gồm: Randomized KD-trees, Randomized K-medoids, K-means tree, POC-trees và EPQ. Khi xem xét tốc độ tìm kiếm với độ chính xác đạt trên 80% trên tập dữ liệu GIST (hình 2.4.a) kết quả hiển thị trên biểu đồ cho thấy tốc độ tìm kiếm của phương pháp đề xuất trội hơn so các phương pháp còn lại. Trung bình, phương pháp đề xuất nhanh hơn khoảng 2 lần so với phương pháp EPQ có tốc độ nhanh thứ 2 và
15 nhanh hơn khoảng 7 lần so với phương pháp tìm kiếm trong thư viện FLANN (FLANN-RC-8trees). Đặc biệt, với độ chính xác tìm kiếm trên 90%, phương pháp đề xuất vẫn cho tốc độ tìm kiếm trội hơn so với các phương pháp khác. Kết quả tương tự khi thực nghiệm trên tập dữ liệu có số chiều dữ liệu cực lớn VGG gồm các vector đặc trưng 4096 chiều (hình 2.4.b), tốc độ tìm kiếm của phương pháp đề xuất cho kết quả vượt trội, nhanh hơn khoảng 1.3 đến 2.0 lần so với kỹ thuật EPQ là kỹ thuật tốt nhất so trong các kỹ thuật còn lại và gấp nhiều lần so với kỹ thuật trong thư viện FLANN như flann-kmeans-1tree. Kết luận chương 2 Trong chương này, vấn đề phát hiện đối tượng trong video được giải quyết bằng mô hình YOLO-Adv cải tiến và kỹ thuật PSVQ cải tiến. Ưu điểm của mô hình YOLO-Adv là duy trì được tốc độ tính toán đáp ứng theo thời gian thực và độ chính xác cũng được gia tăng, phù hợp với tập dữ liệu đối tượng quảng cáo. Kỹ thuật PSVQ cải tiến dùng để lập chỉ mục tập dữ liệu đặc trưng. Tiến trình nhận dạng hình dạng đối tượng truy vấn được thực hiện dựa trên cây phân cụm thứ bậc trên tập dữ liệu lập chỉ mục, mã hoá bằng kỹ thuật PSVQ. Các kết quả thực nghiệm cho thấy sự vượt trội về hiệu năng thực thi của mô hình đề xuất so với các mô hình khác trong lĩnh vực tìm kiếm ANN.
16 CHƯƠNG 3. THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO 3.1. Phân vùng theo thực thể đối tượng Phân vùng đối tượng là tiến trình xác định chính xác vùng hiển thị của đối tượng trong ảnh. Phân vùng đối tượng thông thường được chia thành hai loại: phân vùng ngữ nghĩa và phân vùng thực thể. Phương pháp phân vùng ngữ nghĩa có nhược điểm là khi các thể hiện của cùng một lớp đối tượng cạnh nhau thì chúng được gộp vào cùng một vùng. Vì vậy, luận án sử dụng các kỹ thuật phân vùng thực thể để xác định vùng đối tượng. 3.1.1. Các kỹ thuật phân vùng thực thể Trước khi mạng CNN ra đời, đã có rất nhiều kỹ thuật phân vùng ảnh được phát triển và sử dụng rộng rãi. Các giải thuật truyền thống này có thể kể đến như: phân ngưỡng, phân cụm, histogram, dò tìm biên. Tuy nhiên do sử dụng các giải thuật cứng nhắc và yêu cầu có sự can thiệp của người dùng nên rất kém hiệu quả. Các kỹ thuật phân vùng dựa trên CNN bao gồm hai giai đoạn: xác định các vùng tiềm năng (RoI) chứa đối tượng, sau đó tiến hành phân vùng trên các RoI này. Một số kỹ thuật điển hình là FRM, Mask-RCNN cho độ chính xác cao nhưng tốc độ chưa đạt như mong muốn. Trong khi đó mô hình YOLACT có tốc độ đáp ứng thời gian thực nhưng độ chính xác thấp. Tuy nhiên với chỉ 1 hoặc 2 đối tượng cần được phân vùng thì Mask R-CNN đạt tốc độ chấp nhận được. Chính vì vậy, nghiên cứu Mask R-CNN sử dụng phân vùng đối tượng được luận án kế thừa để tìm vùng hiển thị của đối tượng.
17 3.1.2. Mô hình phân vùng thực thể Luận án kế thừa mô hình phân vùng thực thể được đề xuất bởi Laradji để đánh dấu, trích chọn vùng hiển thị đối tượng trong ảnh. Chi tiết mô hình được thể hiện trong hình 3.1. Mô hình này bao gồm hai phân nhánh: Nhánh phát sinh các mặt nạ đánh dấu vùng đối tượng (gọi tắt là mặt nạ vùng) và nhánh phân vùng thực thể. Mỗi phân nhánh này sử dụng một kiến trúc mạng tích chập học sâu khác nhau cho mỗi nhánh. FCN PSL Bản đồ kích hoạt Cực trị cục bộ Mask Loss R-CNN Kết qủa dự đoán Mạt nạ vùng Hình 3.1. Mô hình huấn luyện mạng phân vùng ảnh Nhánh phát sinh mặt nạ vùng Quá trình phát sinh mặt nạ vùng được thực hiện qua một số bước, trước hết mô hình PRM được áp dụng để phát sinh các điểm trọng tâm vùng là các phần nổi bật của các thực thể. Với phương pháp PRM, FCN đưa ra một bản đồ kích hoạt lớp (CAM) xác định định hệ số tin cậy phân lớp tại mỗi vị trí trong ảnh, sau đó được phân lớp dựa trên CAM, kết quả thu được chuyển qua lớp kích hoạt cực đại (PSL) cho kết quả là tọa độ các vị trí trọng tâm của đối tượng. Dựa vào vị trí này, các mặt nạ vùng được tạo ra.
18 Nhánh phân vùng thực thể Trong nhánh phân vùng thực thể, mạng Mask R-CNN được sử dụng. Quá trình huấn luyện là tiến trình huấn luyện tham số dựa trên tập ảnh huấn luyện và mặt nạ vùng sinh ra từ nhánh tạo mặt nạ vùng để tối thiểu hàm lỗi: ℒ(, , ) = ℒ +ℒ 3.1.3. Kết quả thực nghiệm bằng mô hình phân vùng thực thể Phương pháp luận án sử dụng được so sánh với một số phương pháp phân vùng phổ biến khác dựa trên mạng huấn luyện đầy đủ sử dụng độ đo chính xác trung bình mAP. So với Mask R- CNN phương pháp đề xuất có hiệu năng thực thi tốt hơn theo hai cách tạo mặt nạ dùng trong huấn luyện, một là sử dụng ở mức bounding box và một là ở mức ảnh để tạo ra các nhãn trong ảnh huấn luyện (bảng 3.1). Bảng 3.1. So sánh kết quả của mô hình sử dụng với các phương pháp khác theo các phương pháp sinh mặt nạ huấn luyện Mặt nạ huấn luyện mAP Mask R-CNN Mức điểm ảnh 51.4 DeepMask Mức điểm ảnh 41.7 PRM Mức ảnh 26.8 DeepMask Mức hộp bao 8.1 Mô hình sử dụng Mức ảnh 41.7 Hình 3.4 thể hiện hiệu năng thực thi của mô hình được luận án lựa chọn dùng để phân đoạn với kích thước các đối tượng khác nhau và với số lượng đối tượng khác nhau. Kết quả cho thấy độ chính xác của mô hình Mask R-CNN huấn luyện trên mặt nạ sinh ra dựa trên mức điểm ảnh cao hơn một chút so với mô hình kế thừa.
19 Với bài toán mà đối tượng cần khoanh vùng chỉ là một thì độ chính xác đạt được cũng tương đối cao, mAP đạt trên 65. Hình 3.4. Phân tích hiệu năng thực thi phân lớp trên tập dữ liệu PASCAL VOC 2012 3.2. Mô hình hoàn thiện video 3.2.1. Kiến trúc mô hình V-RBPconv Mô hình cải tiến V-RBPconv (Hình 3.5) được sử dụng để hoàn thiện, tái tạo vùng bị mất mát thông tin bao gồm bộ sinh ảnh và bộ phân biệt ảnh. Bộ sinh ảnh sử dụng kiến trúc RBPconv tận dụng tối đa các thông tin từ các frame lân cận để xử lý các các vùng bị phá huỷ với hình dạng bất kỳ và kích thước không quá lớn. Bộ phân biệt ảnh tái tạo và ảnh gốc theo thời gian Temporal PatchGAN tập trung vào việc phát hiện các đặc trưng khác biệt về mặt không gian, thời gian để hiệu chỉnh và nâng cao chất lượng video đầu ra. Input (a) Output (b) video Mặt nạ Loss Ground truth Hình 3.5. Kiến trúc mô hình video inpainting V-RBPconv
20 3.2.2. Mô hình kiến trúc mạng RBPconv Mô hình đề xuất cho bộ sinh ảnh G để tạo ra video inpainting thô dựa trên kiến trúc mạng RBPconv với nền tảng là mô hình kiến trúc U-net cải tiến chi tiết được minh họa trong hình 3.6. Trong mô hình này mỗi tầng nhân chập nguyên bản trong U-net được thay thế là một khối residual cải tiến. Trong cải tiến này mỗi tầng nhân chập con được theo sau bởi chuẩn hóa batch và hàm kích hoạt. Hàm kích hoạt ReLU được sử dụng cho các tầng encoder và LeakyReLU với alpha=0.2 được sử dụng trong các tầng decoder. Bên cạnh đó, tất cả các tầng nhân chập được thay thế bằng nhân chập từng phần. Zero padding với kích thước 1 được sử dụng để làm cho tất cả các bản đồ đặc trưng có cùng kích thước. Hình 3.6. Kiến trúc mô hình RBPconv 3.2.3. Hàm loss Hàm loss dùng để huấn luyện mô hình được định nghĩa: = ℒ + ℒ + ℒ + ℒ Trong đó ℒ là hàm loss cấu trúc, ℒ là hàm loss trực quan, ℒ là hàm loss hình dáng, ℒ là hàm loss đo sự khác biệt giữa ảnh thực và ảnh tái tạo.
21 3.2.4. Ước lượng, đánh giá mô hình hoàn thiện video Thiết lập môi trường thực nghiệm Tập mặt nạ huấn luyện. Các mặt nạ huấn luyện được chia vào 3 nhóm gồm: mặt nạ hình điểm, mặt nạ dạng hình chữ nhật, mặt nạ hình đường vẽ. Tuy nhiên do phạm vi, đặc trưng của bài toán nghiên cứu nhóm mặt nạ hình chữ nhật không được dùng để kiểm thử mà tập trung vào nhóm hình điểm và hình đường vẽ, đặc biệt là nhóm mặt nạ hình đường vẽ bất kỳ được kiểm nghiệm nhiều nhất do phù hợp nhất với bài toán thay thế logo trong video. Tập dữ liệu kiểm thử. Luận án sử dụng 2 bộ dữ liệu thực nghiệm. Bộ dữ liệu Places2 dùng để so sánh kết quả thực nghiệm của mô hình RBPConv với các kết quả thực nghiệm của các nghiên cứu gần nhất. Để so sánh kết quả thực nghiệm của mô hình V-RBPconv, tập dữ liệu FVI (Free-form video inpainting) được lựa chọn. Môi trường thực nghiệm. Tiến trình huấn luyện được thực hiện trên máy chủ Nvidia Tesla V100 GPU (16GB). Mô hình đề xuất được tối ưu hóa sử dụng giải thuật Adam với tỷ lệ học là 0.0002, kích thước mỗi batch là 16. Các kết quả so sánh định lượng Chất lượng hình ảnh thu được sau khi inpainting có thể được đánh giá định lượng thông qua các chỉ số đo. Để so sánh định lượng mô hình inpainting ảnh đề xuất RBPConv với các mô hình khác cho lớp bài toán inpainting ảnh, luận án sử dụng các độ đo chất lượng ảnh SSIM và PSNR. Mô hình RBPConv được so sánh định lượng dựa trên các chỉ số đo PSNR và SSIM với các mô hình inpainting ảnh được phát triển
22 trước đó gồm CA(Contextual Attention), PConv (Partial Convolution Unet) và EC (EdgeConnect). Các giá trị cụ thể được thể hiện trong bảng 3.2 với PSNR của mô hình đề xuất đạt ở ngưỡng 25.29 cho thấy ảnh được tái tạo có tính chân thực cao. Cả hai chỉ số đo cho thấy mô hình RBPcov cho chất lượng cao hơn các phương pháp khác. Bảng 3.2. Kết quả định tính trên tập dữ liệu Places2 của các mô hình: CA, PConv and EC, và RBPConv CA PConv* EC RBPConv PSNR 21.34 24.54 24.65 25.29 SSIM 0.806 0.775 0.857 0.868 Để ước lượng chất lượng video tái tạo trên phương diện nhất quán về thời gian, độ đo và Frechet Inception Distance (FID) được sử dụng. Các mô hình thử nghiệm trên tập kiểm thử FVI với mặt nạ có kích thước không quá lớn tối đa 50% so với đối tượng. Kết quả thể hiện trên bảng 3.3 cho thấy chỉ số FID cho cả hai loại mặt nạ hình đường kẻ và hình điểm đều thấp nhất so với các mô hình còn lại, thậm chí chỉ bằng một nữa so với kỹ thuật EC. Chứng tỏ mô hình đề xuất duy trì tốt tính kết cấu về thời gian, video tái tạo có tính chân thực cao gần với video gốc. Bảng 3.3. Kết quả định tính trên tập dữ liệu FVI với các mô hình: EC, CombCN, 3Dgated và V- RBPConv Dạng mặt EC CombCN 3DGated V-RBPConv nạ Đường vẽ 1.033 0.766 0.609 0.598 FID Điểm 1.083 1.091 0.905 0.886
23 Tóm tắt chương 3 Trong chương này, mô hình phân vùng thực thể đối tượng dùng cho bước trích chọn và đánh dấu đối tượng dựa trên mạng Mask R-CNN đã được trình bày. Mặc dù độ chính xác và thời gian phân vùng đã đáp ứng được kỳ vọng nhưng vẫn còn thấp hơn so với mạng phân vùng Mask R-CNN. Tuy nhiên, với ưu điểm tiết kiệm về chi phí và thời gian rất nhiều để tạo ra tập dữ liệu mặt nạ vùng huấn luyện nên giải thuật vẫn được luận án kế thừa sử dụng. Tiếp theo mô hình V-RBPconv dựa trên mô hình inpainting ảnh cải tiến RBPconv đã được sử dụng cho bài toán hoàn thiện vùng trống sinh ra sau khi loại bỏ hay thay thế đối tượng trong video. Các thực nghiệm đã chứng minh mức độ hiệu quả của mô hình cải tiến so với các mô hình khác trong lĩnh vực inpainting. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Luận án đã trình bày các mô hình cải tiến áp dụng cho bài toán thay thế đối tượng trong video. Luận án đã đạt được một số kết quả nhất định, cụ thể như sau: - Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng trong video dựa trên mạng YOLO. Mô hình đề xuất có tính tổng quát, độ chính xác cao, ảnh đầu vào không cần qua bước tiền xử lý, đáp ứng thời gian thực khi áp dụng cho video. - Cải tiến độ chính xác, gia tăng tốc độ thực thi cho kỹ thuật nhận dạng hình dạng của đối tượng dựa trên phương pháp lập chỉ mục vector đặc trưng. Tập dữ liệu các hình dạng của đối tượng được trích trọn đặc trưng, lập chỉ mục bằng kỹ thuật PSVQ cải tiến. Quá trình tìm kiếm ANN dựa trên cây phân cụm thứ bậc được sử dụng
24 trên tập dữ liệu chỉ mục, mã hoá bằng PSVQ để tìm ra hình dạng tương đồng nhất với đối tượng truy vấn. - Mô hình video inpainting cải tiến cho tốc độ và độ chính cao, bảo toàn tính kết cấu về không gian và thời gian khi hoàn thiện, tái tạo video sau hiệu chỉnh với vùng tái tạo có hình dạng bất kỳ và kích thước không quá lớn. Tuy nhiên, luận án còn một số hạn chế: - Chưa xây dựng được bộ dữ liệu đặc trưng xuyên xuốt cho bài toán phát hiện và hoàn thiện video - Vấn đề ảnh hưởng của các yếu tố liên quan đến cấu thành video để phân đoạn video, trích chọn frame và tính nhất quán về thời gian trong nhận dạng hình dạng của đối tượng chưa được xem xét; - Chưa đề xuất được mô hình đầu cuối cho bài toán phát hiện và thay thế đối tượng trong video. Từ những hạn chế trên, hướng nghiên cứu tiếp theo của luận án là: (1) Phát triển bộ dữ liệu ảnh, video huấn luyện cho các pha dò tìm, nhận dạng, và phân vùng đối tượng. (2) Nghiên cứu sự tác động của các yếu tố cấu thành video, định dạng video đến quá trình thay thế và hoàn thiện video. (3) Nghiên cứu mô hình DCNN đầu cuối để có thể đồng thời phát hiện, nhận dạng và phân vùng các đối tượng trong video.
26 DANH MỤC CÁC CÔNG TRÌNH CÔNG BỐ [CT1] Lê Đình Nghiệp, Phạm Việt Bình, Đỗ Năng Toàn, Phạm Thu Hà, Trần Văn Huy (2019), “Cải tiến kiên trúc mạng Yolo cho bài toán nhận dạng logo” TNU Journal of Science and Technology, vol. 200, no. 07, pp. 199-205. [CT2] The-Anh Pham, Van-Hao Le, Dinh-Nghiep Le (2018), “A review of feature indexing methods for fast approximate nearest neighbor search” 5th NAFOSTED Conference on Information and Computer Science (NICS), pp. 372 – 377. [CT3] Van-Hao Le, The-Anh Pham, Dinh-Nghiep Le (2019), “Hierarchical product quantization for effective feature indexing” ICT, 26th International Conference on Telecommunications, pp. 386 – 390. [CT4] The-Anh Pham, Dinh-Nghiep Le, Thi-Lan-Phuong Nguyen (2019), “Product sub-vector quatization for feature indexing” Jounal of Computer Science and Cybernetics, vol. 35, no. 11, pp. 69-83. [CT5] Lê Đình Nghiệp, Phạm Việt Bình, Đỗ Năng Toàn, Hoàng Văn Thi (2019), “Hoàn thiện các vùng phá hủy hình dạng bất kỳ trong ảnh sử dụng kiến trúc mạng thặng dư và nhân chập từng phần” TNU Journal of Science and Technology, vol.208, no.15, pp.19-26. [CT6] Dinh-Nghiep Le, Van-Thi Hoang, Van-Hao Le, The- Anh Pham (2020), “A study on parameter tuning for optimal indexing on large scale datasets” Journal of Science and Technology on Information and Communications.