Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ" Chuyên ngành: Khoa học Máy tính
Bạn đang xem 30 trang mẫu của tài liệu "Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ" Chuyên ngành: Khoa học Máy tính", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
Lam Tung Giang - Thesis.pdf
English - Lam Tung Giang - Nhung dong gop moi cua luan an.pdf
English - Lam Tung Giang - Trich Yeu Luan An.pdf
English - Tom Tat Lam Tung Giang - Thesis.pdf
Vietnamese - Lam Tung Giang - Nhung dong gop moi cua luan an.pdf
Vietnamese - Lam Tung Giang - Trich Yeu Luan An.pdf
Vietnamese - Tom Tat Lam Tung Giang - Thesis.pdf
Nội dung tài liệu: Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ" Chuyên ngành: Khoa học Máy tính
- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG Lâm Tùng Giang MỘT SỐ PHƯƠNG PHÁP PHỤC VỤ XẾP HẠNG CÁC TRANG WEB TRONG TÌM KIẾM XUYÊN NGỮ Chuyên ngành : Khoa học máy tính Mã số : 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH ĐÀ NẴNG - 2017
- Công trình được hoàn thành tại: Trường Đại học Bách khoa, Đại học Đà Nẵng Cán bộ hướng dẫn khoa học: - PGS.TS. Võ Trung Hùng - PGS.TS. Huỳnh Công Pháp Phản biện 1: Phản biện 2 Phản biện 3 Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Đại học Đà nẵng họp tại Đại học Đà Nẵng vào hồi giờ ngày tháng năm
- LỜI MỞ ĐẦU Tìm kiếm web xuyên ngữ đặt ra nhiệm vụ từ nhu cầu thông tin của người dùng được trình bày ở một ngôn ngữ (ngôn ngữ nguồn) thực hiện việc xác định các trang web phù hợp được viết bằng một ngôn ngữ khác (ngôn ngữ đích). Xếp hạng trong tìm kiếm Web xuyên ngữ liên quan đến việc tạo lập kết quả khi thực hiện một câu truy vấn ở dạng một danh sách các tài liệu theo thứ tự phù hợp với nhu cầu truy vấn. Nhằm thực hiện việc xếp hạng trong truy vấn thông tin nói chung và trong bài toán tìm kiếm Web xuyên ngữ nói riêng, cần giải quyết hai nhiệm vụ trọng tâm: Thứ nhất là nhiệm vụ dịch thuật, nhằm biểu diễn câu truy vấn và các tài liệu trong một không gian chung, cụ thể là trong cùng một ngôn ngữ. Thứ hai là nhiệm vụ xếp hạng, thông qua việc triển khai các giải pháp kỹ thuật, các thước đo nhằm đánh giá, so sánh mức độ phù hợp giữa các tài liệu và câu truy vấn. Một số hạn chế của các giải pháp hiện tại bao gồm chất lượng dịch thuật thấp và sự lệ thuộc vào cặp ngôn ngữ. Với các hệ thống tìm kiếm liên quan tiếng Việt, các vấn đề về xử lý ngôn ngữ cũng như dịch thuật đã khiến hiệu quả xếp hạng kết quả tìm kiếm còn rất hạn chế. Bên cạnh đó, một hệ thống tìm kiếm Web cần có thiết kế riêng biệt so với một hệ thống truy vấn thông tin văn bản truyền thống nhằm khai thác cấu trúc đặc thù của các tài liệu HTML phục vụ quá trình xếp hạng. Từ các hạn chế đã nêu, phát sinh nhu cầu nghiên cứu nâng cao chất lượng dịch thuật cũng như nhu cầu nghiên cứu tăng hiệu quả xếp hạng thông qua việc khai thác đặc thù của các tài liệu HTML. Xuất phát từ tình hình thực tiễn, đề tài "Một số phương pháp phục vụ xếp hạng trang Web trong tìm kiếm xuyên ngữ" được chọn làm đề tài nghiên cứu của luận án Tiến sĩ kỹ thuật nhằm đề xuất một mô hình hệ thống tìm kiếm Web xuyên ngữ và các giải pháp kỹ thuật được áp dụng tại các thành phần của mô hình nhằm nâng cao hiệu 1
- quả xếp hạng danh sách kết quả tìm kiếm. 1. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án Các mục tiêu cụ thể của luận án bao gồm: nghiên cứu và đề xuất các phương pháp phục vụ dịch thuật, bao gồm các kỹ thuật tiền xử lý câu truy vấn, dịch câu truy vấn và xử lý câu truy vấn ở ngôn ngữ đích cũng như nghiên cứu và đề xuất các phương pháp xếp hạng lại danh sách kết quả tìm kiếm trong truy vấn xuyên ngữ, chú trọng việc xếp hạng các trang Web. Thước đo hiệu quả chính được sử dụng là điểm MAP (Mean Average Precision). 2. Bố cục của luận án Ngoài phần mở đầu và kết luận, luận án được tổ chức thành 5 chương với cấu trúc như sau: Chương 1: Tổng quan và đề xuất nghiên cứu Chương 2: Dịch tự động phục vụ truy vấn xuyên ngữ. Chương 3 : Hỗ trợ dịch câu truy vấn. Chương 4: Xếp hạng lại. Chương 5: Hệ thống tìm kiếm Web xuyên ngữ Việt Anh. 3. Đóng góp của luận án - Đề xuất được các phương pháp khử nhập nhằng mới trong mô-đun dịch câu truy vấn; - Đề xuất được phương pháp tiền xử lý câu truy vấn; - Đề xuất được các phương pháp cải tiến câu truy vấn tại ngôn ngữ đích; - Đề xuất được các mô hình lân cận xuyên ngữ; - Đề xuất được phương pháp học xếp hạng dựa trên lập trình di truyền. - Thiết kế một mô hình tìm kiếm Web xuyên ngữ cho cặp ngôn ngữ Việt-Anh. TỔNG QUAN VÀ ĐỀ XUẤT NGHIÊN CỨU 1.1. Truy vấn thông tin 1.1.1. Khái niệm 1.1.2. Định nghĩa hình thức 2
- 1.1.3. Sơ đồ xử lý của hệ thống truy vấn thông tin Các giải pháp truy vấn thông tin được chia thành 2 giai đoạn: Giai đoạn I: Thu thập, xử lý, đánh chỉ mục, lưu trữ tài liệu. Giai đoạn II: Truy vấn. 1.1.4. Các mô hình truy vấn thông tin truyền thống Các mô hình truy vấn thông tin truyền thống phục vụ việc đánh chỉ mục bao gồm mô hình Boolean (Boolean model), mô hình không gian vec-tơ (Vector Space model), mô hình xác suất (Probabilistic model). 1.1.5. Khai thác quan hệ giữa các thuật ngữ Mô hình chỉ mục ngữ nghĩa ngầm và mô hình lân cận xem xét mối quan hệ ngữ nghĩa giữa các thuật ngữ trong văn bản. 1.2. Đánh giá hệ thống truy vấn thông tin 1.3. Truy vấn thông tin xuyên ngữ 1.3.1. Khái niệm Truy vấn thông tin xuyên ngữ giải quyết trường hợp khi tài liệu cần truy vấn được viết bằng ngôn ngữ khác với ngôn ngữ truy vấn. 1.3.2. Các hướng tiếp cận Hai hướng tiếp cận chủ yếu trong CLIR là dịch câu truy vấn và dịch tài liệu. 1.4. Các kỹ thuật xếp hạng lại 1.5. Xếp hạng trang Web 1.6. Các hạn chế và đề xuất nghiên cứu 1.6.1. Hạn chế Các hạn chế chính trong các nghiên cứu bao gồm chất lượng dịch thuật và việc chưa khai thác đặc thù của tài liệu web khi xếp hạng. 1.6.2. Đề xuất nghiên cứu Tác giả xác định 2 vấn đề cần thực hiện nghiên cứu bao gồm vấn đề dịch thuật nhằm tạo môi trường cho phép so sánh câu truy vấn và các tài liệu cần tìm kiếm và vấn đề cải tiến chất lượng xếp hạng, đảm bảo hệ thống tìm kiếm được xây dựng phù hợp với loại tài 3
- liệu lưu trữ và đạt hiệu năng cao dựa trên các thước đo đánh giá hệ thống đã trình bày. Từ đây, tác giả đề xuất xây dựng mô hình xếp hạng phục vụ tìm kiếm Web xuyên ngữ. 1.6.2.1 Xác định nội dung nghiên cứu Các nội dung được tác giả thực hiện nghiên cứu bao gồm: - Các kỹ thuật dịch tự động; - Các kỹ thuật hỗ trợ dịch thuật bao gồm tiền xử lý câu truy vấn tại ngôn ngữ nguồn và tối ưu hóa câu truy vấn tại ngôn ngữ đích; - Các phương pháp học xếp hạng; - Xây dựng hệ thống tìm kiếm Web xuyên ngữ. 1.7. Tiểu kết chương Tác giả xác định 2 vấn đề cần thực hiện nghiên cứu bao gồm vấn đề dịch thuật nhằm tạo môi trường cho phép so sánh câu truy vấn với các tài liệu cần tìm kiếm và vấn đề cải tiến chất lượng xếp hạng. KỸ THUẬT DỊCH TỰ ĐỘNG 2.1. Các phương pháp dịch tự động 2.2. Khử nhập nhằng trong phương pháp sử dụng từ điển Ba vấn đề chính có khả năng gây ảnh hưởng giảm hiệu năng của hệ thống bao gồm độ bao phủ của từ điển, việc phân đoạn câu truy vấn thành các phần có nghĩa và việc xác định bản dịch phù hợp. 2.3. Mô hình sử dụng từ điển máy 2.3.1. Các biến thể của công thức MI 2.3.1.1 Sử dụng tần xuất cùng xuất hiện của cặp từ Công thức phổ biến tính giá trị MI thể hiện quan hệ cặp từ có dạng sau: ( , ) = log (2.1) ( ) × ( ) trong đó, với p(x,y) là xác suất hai từ x,y cùng xuất hiện trong cùng câu với khoảng cách không quá 5 từ, p(x) và p(y) là xác 4
- suất xuất hiện từ x và y trong kho ngữ liệu. 2.3.1.2 Sử dụng máy tìm kiếm Với 2 từ x và y, các chuỗi x,y và 'x AND y' được dùng như các câu truy vấn gửi tới máy tìm kiếm. Các giá trị n(x), n(y), n(x,y) tương ứng sẽ là số tài liệu chứa các chuỗi x, y và x,y cùng xuất hiện. ( , ) = (2.2) ( ) × ( ) 2.3.2. Thuật toán chọn bản dịch tốt nhất Các thuật toán trong phần này được thực hiện khi câu truy vấn tiếng Việt qv đã được phân tích thành một tập hợp ((v1,L1),(v2,L2), .,(vn,Ln)) chứa các từ khóa tiếng Việt v1, vn và các danh sách bản dịch tương ứng L1, ,Ln, trong đó = ( , , ) là danh sách chứa các bản dịch ứng viên của vi. 2.3.2.1 Thuật toán sử dụng cohesion score 2.3.2.2 Thuật toán SMI Mỗi bản dịch ứng viên qtrane biểu diễn dưới dạng qtrane = (e1, , en), trong đó ei được chọn từ danh sách Li. Hàm SMI (Summary Mutual Information) được định nghĩa như sau ( ) = ( , ) (2.3) , ∈ Bản dịch ứng viên với giá trị SMI cao nhất được chọn là bản dịch tiếng Anh cho câu truy vấn tiếng Việt qv ban đầu. 2.3.2.3 Thuật toán SQ chọn bản dịch một cách tuần tự k j Đầu tiên, một danh sách các cặp bản dịch ( ti ,ti 1 ) của tất cả các cặp 2 cột liền kề (i, i+1) được tạo lập. Trong danh sách này, 2 cột tương ứng cặp bản dịch có giá trị hàm MI cao nhất là được chọn là cột i0 và i0+1, tạo thành tập hợp GoodColumns. Sau đó bản dịch tốt nhất từ các cột liền kề với hai cột trên được xác định dựa trên giá trị của một hàm cohesion score trong công thức: 5