Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê

192 trang Phương Linh 09/04/2025 3660

Download

Bạn đang xem 30 trang mẫu của tài liệu "Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

1_Toan van luan an - Phan Phuong Lan.pdf
0_Trang phu bia luan an tien si - Phan Phuong Lan.pdf
2_Tom tat luan an (Tieng Viet) - Phan Phuong Lan.pdf
3_Tom tat luan an (Tieng Anh) - Phan Phuong Lan.pdf
4_Dong gop moi cua luan an (Tieng Viet) - Phan Phuong Lan.pdf
5_Dong gop moi cua luan an (Tieng Anh) - Phan Phuong Lan.pdf
6_Trich yeu luan an (Tieng Viet) - Phan Phuong Lan.pdf
7_Trich yeu luan an (Tieng Anh) - Phan Phuong Lan.pdf

Nội dung tài liệu: Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA  PHAN PHƯƠNG LAN HỆ TƯ VẤN DỰA TRÊN MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KẾ Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 9480101 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐÀ NẴNG – 2019
Công trình được hoàn thành tại: TRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: 1. PGS. TS. Huỳnh Xuân Hiệp 2. TS. Huỳnh Hữu Hưng Phản biện 1: Phản biện 2: Phản biện 3: Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Trường họp tại: Trường Đại học Bách khoa Vào hồi giờ ngày tháng năm . Có thể tìm hiểu luận án tại: - Thư viện Quốc gia - Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng
1 MỞ ĐẦU 1. Tính cấp thiết của luận án Hệ tư vấn (hệ thống gợi ý, recommendation system) được xem là một trong các giải pháp hiệu quả cho bài toán bùng nổ thông tin vì nó tự động phân tích dữ liệu nhằm dự đoán giá trị xếp hạng của người dùng cho các sản phẩm, dịch vụ, v.v; từ đó gợi ý cho người dùng danh sách các sản phẩm có xếp hạng dự đoán cao nhất. Các kỹ thuật chính được sử dụng để xây dựng hệ tư vấn gồm: Dựa trên nội dung, lọc cộng tác, dựa trên tri thức, lai ghép. Trong đó, lọc cộng tác là kỹ thuật quan trọng và được sử dụng phổ biến nhất. Việc đề xuất và cải tiến mô hình để thích ứng với sự đa dạng về lĩnh vực ứng dụng, sự khác nhau của yêu cầu người dùng và sự phát triển của công nghệ vẫn luôn là hướng nghiên cứu chính về hệ tư vấn và nhận được sự quan tâm nhiều nhất. Phân tích hàm ý thống kê là một phương pháp phân tích dữ liệu nghiên cứu các khuynh hướng giữa các thuộc tính dữ liệu dựa trên các mức độ quan trọng hàm ý thống kê. Phương pháp này quan tâm nhiều đến số phản ví dụ trong mối quan hệ giữa các thuộc tính mà theo đó, mối quan hệ được quan sát thống kê chấp nhận càng ít số phản ví dụ thì nó càng có hàm ý. Ngoài ra, các mối quan hệ trong phương pháp này là không đối xứng nên phù hợp với mối quan hệ trong thực tế. Việc liên kết phương pháp này vào những lĩnh vực nghiên cứu khác đang là một trong các chủ đề được quan tâm nhất. Nhìn chung, các nghiên cứu liên kết phân tích hàm ý thống kê vào hệ tư vấn còn khá ít. Các nghiên cứu này vẫn còn một số vấn đề chưa giải quyết: Chỉ mới tập trung xây dựng mô hình tư vấn trên dữ liệu nhị phân và chưa quan tâm đến dữ liệu phi nhị phân, đánh giá hiệu quả tư vấn của mô hình theo tính chính xác của gợi ý; đều sử dụng luật kết hợp để thực hiện tư vấn nên thời gian tư vấn trực tuyến có thể lâu và máy tính có thể bị quá tải trong
2 quá trình xử lý; thiếu kết hợp đặc trưng của một số mức độ quan trọng hàm ý thống kê để nâng cao hiệu quả gợi ý. Vì vậy, đề tài “Hệ tư vấn dựa trên mức độ quan trọng hàm ý thống kê” được thực hiện với mong muốn đóng góp một phần vào lĩnh vực nghiên cứu hệ tư vấn và phân tích hàm ý thống kê. 2. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án 2.1. Mục tiêu nghiên cứu Mục tiêu của luận án là tìm hiểu, vận dụng các mức độ quan trọng hàm ý thống kê và kỹ thuật tư vấn lọc cộng tác để đề xuất và hiệu chỉnh các mô hình tư vấn nhằm cải tiến hiệu quả tư vấn - cụ thể là độ chính xác của kết quả. Từ đó, góp phần liên kết lý thuyết phân tích hàm ý thống kê vào lĩnh vực hệ tư vấn. 2.2. Đối tượng nghiên cứu Những đối tượng nghiên cứu của luận án gồm: Các mức độ quan trọng hàm ý thống kê; các mô hình tư vấn theo các mức độ quan trọng hàm ý thống kê sử dụng kỹ thuật lọc cộng tác. 2.3. Phạm vi nghiên cứu Luận án được giới hạn trong phạm vi sau: Tìm hiểu các mức độ quan trọng hàm ý thống kê, kỹ thuật tư vấn lọc cộng tác, các nghiên cứu hiện có về hệ tư vấn dựa trên phân tích hàm ý thống kê để làm cơ sở cho việc đề xuất; đề xuất các mô hình tư vấn mới có thể áp dụng trên cả dữ liệu nhị phân và phi nhị phân và cải tiến hiệu quả tư vấn. Nhóm độ đo tính chính xác của danh sách gợi ý và của xếp hạng dự đoán được sử dụng trong đánh giá hiệu quả tư vấn. 3. Phương pháp nghiên cứu Luận án sử dụng: Phương pháp nghiên cứu lý thuyết với những công việc chính là phân tích và tổng hợp; phương pháp thực nghiệm để kiểm chứng các mô hình tư vấn đề xuất.
3 4. Bố cục của luận án Luận án được cấu trúc thành bốn chương và sáu phụ lục. Mối quan hệ về kiến thức giữa các chương trong luận án được trình bày như hình dưới đây. Chương 1: Tổng quan -Phân tích hàm ý thống kê Tư vấn dự a trên -Kỹ thuật tư vấn -Các mức độ quan trọng phân tích hàm ý -Đánh giá hiệu quả tư vấn hàm ý thống kê thống kê Hệ tư vấn Chương 2: Tư vấn theo mức độ quan trọng hàm ý thống kê trên luật kết hợp Mô hình Thực nghiệm Chương 3: Tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng KnnUIR Mô hình Thực nghiệm Chương 4: Tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục dữ liệu KnnIIR Mô hình Thực nghiệm 5. Đóng góp của luận án - Đề xuất hai mức độ quan trọng hàm ý thống kê mới để dự đoán xếp hạng của người cần tư vấn. - Đề xuất ba mô hình tư vấn mới có thể áp dụng trên cả dữ liệu nhị phân và phi nhị phân, theo các mức độ quan trọng hàm ý thống kê trên: luật kết hợp, người dùng và mục dữ liệu. - Phát triển công cụ phần mềm Interestingnesslab chứa các hàm tiện ích và mô hình tư vấn dùng cho thực nghiệm - Thu thập tập dữ liệu nhị phân DKHP - lưu thông tin đăng ký học phần của sinh viên - dùng cho đánh giá hiệu quả hệ tư vấn.
4 CHƯƠNG 1. TỔNG QUAN 1.1. Mức độ quan trọng hàm ý thống kê 1.1.1. Định nghĩa mức độ quan trọng hàm ý thống kê Mức độ quan trọng hàm ý thống kê là một độ đo của lý thuyết phân tích hàm ý thống kê mà nó được sử dụng để phát hiện các khuynh hướng trong một tập hợp các thuộc tính ở cả dạng nhị phân và phi nhị phân. Đặc điểm của mức độ quan trọng hàm ý thống kê là không đối xứng, dựa trên xác suất và có sự kết hợp phi tuyến tính giữa các thuộc tính. Bảng 1.1. Các mức độ quan trọng hàm ý thông kê. Mức độ Vai trò quan trọng Đo độ lệch giữa giá trị ngẫu nhiên và giá trị mong đợi Chỉ số của mối quan hệ → với và là tập các thuộc hàm ý tính. Chỉ số hàm ý được dùng để tính cường độ hàm ý. Chỉ số hàm ý càng thấp thì cường độ hàm ý càng cao. Đo tính bất ngờ của mối quan hệ → khi quan sát Cường độ một số lượng nhỏ các phản ví dụ 푛 ̅ - số các đối tượng hàm ý không có khi có . Cường độ hàm ý là một độ đo chất lượng thông tin và quy nạp. Điều chỉnh giá trị bất ngờ được lượng hóa bởi cường Cường độ độ hàm ý bằng việc quan tâm đến chiều ngược của mối hàm ý có quan hệ ( ̅ → ̅). Cường độ hàm ý có entropy củng cố entropy sự chắc chắn về chất lượng tốt của một mối quan hệ. Chỉ số Phát hiện các mối quan hệ có chất lượng hàm ý tốt; gắn kết được xây dựng dựa trên cường độ hàm ý mạnh.
5 Chỉ số Đo sự góp phần của một đối tượng đối với sự hình đóng góp thành của một mối quan hệ. Chỉ số Đo tính tiêu biểu của một đối tượng trong sự hình tiêu biểu thành một mối quan hệ. 1.1.2. Mức độ quan trọng hàm ý thống kê - dữ liệu nhị phân 1.1.3. Mức độ quan trọng hàm ý thống kê - dữ liệu phi nhị phân 1.2. Mức độ quan trọng xếp hạng hàm ý thống kê Mức độ quan trọng xếp hạng hàm ý thống kê là độ đo được đề xuất bởi luận án dựa trên một số mức độ quan trọng hàm ý thống kê. Độ đo mới này được sử dụng để dự đoán giá trị xếp hạng của một đối tượng cho một thuộc tính; từ đó góp phần giải quyết bài toán tư vấn. Chương 3 và Chương 4 trình bày chi tiết về độ đo mới này. Ta có thể xếp mức độ quan trọng xếp hạng hàm ý thống kê vào nhóm mức độ quan trọng hàm ý thống kê. 1.3. Hệ tư vấn và các hướng nghiên cứu 1.4. Kỹ thuật tư vấn lọc cộng tác 1.4.1. Kỹ thuật tư vấn lọc cộng tác dựa trên bộ nhớ/láng giềng 1.4.2. Kỹ thuật tư vấn lọc cộng tác dựa trên mô hình 1.5. Đánh giá hiệu quả tư vấn 1.5.1. Phương pháp đánh giá chéo k tập con 1.5.2. Đánh giá tính chính xác của gợi ý 1.5.3. Đánh giá tính chính xác của xếp hạng được dự đoán 1.5.4. Đánh giá tính chính xác của gợi ý được sắp thứ tự 1.6. Tư vấn theo mức độ quan trọng hàm ý thống kê 1.6.1. Tư vấn dựa trên phân tích hàm ý thống kê hiện có 1.6.2. Tư vấn theo mức độ quan trọng hàm ý thống kê 1.4. Kết luận Chương 1 của luận án tìm hiểu về: Các mức độ quan trọng hàm ý thống kê, kỹ thuật tư vấn và phương pháp đánh giá hệ tư vấn. Về các mức độ quan trọng hàm ý thống kê, luận án tìm hiểu những độ
6 đo của lý thuyết phân tích hàm ý thống kê như chỉ số hàm ý, cường độ hàm ý, chỉ số gắn kết, chỉ số đóng góp, chỉ số tiêu biểu và xác định những độ đo có thể được sử dụng trong các hệ tư vấn nhằm cải thiện tính chính xác của kết quả gợi ý. Về kỹ thuật tư vấn và phương pháp đánh giá hệ tư vấn, luận án tập trung tìm hiểu kỹ thuật lọc cộng tác và các nhóm độ đo đánh giá tính chính xác mà chúng sẽ được sử dụng để xây dựng và đánh giá các mô hình tư vấn được đề xuất trong những chương sau. Bên cạnh đó, Chương 1 còn tìm hiểu các hướng nghiên cứu về hệ tư vấn cũng như những nghiên cứu hiện có về hệ tư vấn dựa trên phân tích hàm ý thống kê để xác định phạm vi nghiên cứu của luận án. Từ các kết quả tìm hiểu, Chương 1 phác thảo những đề xuất tư vấn sẽ được cụ thể hóa trong các chương sau. Hình 1.1 thể hiện mối quan hệ giữa cơ sở lý thuyết và đề xuất nghiên cứu. Kỹ thuật lọc cộng tác Lọc cộng tác dựa trên mô hình Lọc cộng tác dựa trên láng giềng Người dùng 2 - Tư Luật kết hợp vấn Mục dữ liệu theo mức độ quan 1- Tư vấn theo các mức độ quan 3 - Tư vấn theo mức độ quan trọng trọng hàm ý thống kê trọng xếp hạng hàm ý xếp trên luật thống kê trên mục hạng Mức độ quan trọng cơ sở Mức độ quan trọng đề xuất hàm ý thống Chỉ số hàm ý kê trên Cường độ hàm ý Xếp hạng trên mục dữ liệu người Chỉ số gắn kết dùng Chỉ số đóng góp Xếp hạng trên người dùng Chỉ số tiêu biểu Các mức độ quan trọng hàm ý thống kê Hình 1.1: Mối liên kết giữa cơ sở lý thuyết và đề xuất nghiên cứu của luận án.
7 CHƯƠNG 2. TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG HÀM Ý THỐNG KÊ TRÊN LUẬT KẾT HỢP Khác với những mô hình tư vấn dựa trên phân tích hàm ý thống kê sử dụng luật kết hợp của các nghiên cứu hiện có, mô hình đề xuất trong chương này có thể áp dụng trên cả dữ liệu nhị phân và phi nhị phân; theo nhiều mức độ quan trọng hơn - như cường độ hàm ý, cường độ hàm ý có entropy, chỉ số gắn kết - và kết hợp với chỉ số đóng góp để nâng cao hiệu quả gợi ý. 2.1. Mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR Mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật (Statistical Implicative Rules based Model - SIR) được thể hiện tổng quát trong Hình 2.1. Mô hình SIR gồm: - Một tập hữu hạn những người dùng 푈 = { 1, 2, , 푛}. - Một tập hữu hạn các mục dữ liệu = {푖1, 푖2, , 푖 }. - Một ma trận xếp hạng/đánh giá (rating) 푅 = ( 푗 )푛x với 푗 = 1̅̅̅,̅푛̅ và = ̅1̅̅,̅ ̅̅ lưu trữ thông tin phản hồi của người dùng về các mục. Nếu ma trận xếp hạng ở dạng nhị phân, 푗 = 1 cho biết người dùng 푗 thích mục dữ liệu 푖 và 푗 = 0 (hoặc ) cho biết người dùng 푗 không thích hoặc không biết mục 푖 . Nếu ma trận xếp hạng ở dạng phi nhị phân, 푗 ∈ [0,1] cho biết giá trị xếp hạng của người dùng 푗 cho mục dữ liệu 푖 và 푗 = cho biết người dùng 푗 không xếp hạng hoặc không biết mục 푖 . - Một tập 푅 lưu các xếp hạng đã biết của người cần tư vấn . ̅̅̅̅̅̅ 푅 = { , = 1, }; trong đó, = nếu chưa xếp hạng mục 푖 .
8 (U, I, R) ( , I, 푅 ) Cải Độ hỗ trợ s tiến Chiều dài tối đa của luật l mô Độ tin cậy c hình: Trực { → | ∈ , ∈ , = ̅1̅,̅푙̅̅−̅̅̅1̅} tiếp sinh Biểu diễn luật luật theo phân tích và hàm ý thống kê biểu diễn theo phân { → } = {푛, 푛 , 푛 , 푛 ̅ } tích hàm ý Cường đ ộ hàm ý (có/không có thống entropy) hoặc Chỉ số gắn kết kê { → } = {푣 , } Chỉ số đóng góp Danh sách các mục dữ liệu được gợi ý cho Hình 2.1: Mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR. Luật kết hợp → được biểu diễn theo quan điểm phân tích hàm ý thống kê bằng một bộ gồm bốn giá trị 푛, 푛 , 푛 và 푛 ̅ . Trong đó, 푛 = ∑푖∈ (푖) , 푛 = ∑푖∈ (푖) , 푛 ̅ = ∑푖∈ ( (푖) ∗ ̅(푖)) với (푖) và ̅(푖) là xếp hạng của người dùng 푖 cho mục dữ liệu và ̅ tương ứng. 푣 , là giá trị của luật theo một mức độ quan trọng hàm ý thống kê.
9 Để rút ngắn thời gian tư vấn, mô hình SIR ở Hình 2.1 được cải tiến bằng cách trực tiếp biểu diễn các luật kết hợp → theo quan điểm phân tích hàm ý thống kê và tính giá trị của luật theo các mức độ quan trọng ngay tại giai đoạn sinh luật thông qua việc sử dụng và cập nhật lại giải thuật sinh luật trong gói rchic. 2.2. Hoạt động của mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật Quá trình đưa ra các gợi ý của mô hình tư vấn SIR gồm hai giai đoạn: Xây dựng mô hình và thực hiện đề xuất như Hình 2.2. Dữ liệu đầu vào i1 i2 im Ma tr u1 r11 NA r1m ậ Thông tin của người cần tư vấn n x u2 NA r21 r2m ế p h 1 2 m-1 m i i i i ạ ng ua NA ra2 ram-1 NA un r11 rn2 NA Xây dựng mô hình Thực hiện đề xuất (trực tuyến/ngoại tuyế n) (trực tuyến) Tiền xử Sinh tập luật kết hợp lý dữ liệu Gợi ý các Biểu diễn tập luật mục có mối theo phân tích quan hệ hàm hàm ý thống kê ý mạnh Lọc tập luật Danh sách Top N mục có mối quan hệ hàm ý mạnh ua {i1, i13, , im-2} Hình 2.2: Hoạt động của mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR.
10 Thời gian tìm tập luật được biểu diễn theo quan điểm phân tích hàm ý thống kê có thể lâu nếu kích thước (số mục dữ liệu) của một luật cao, các ngưỡng hỗ trợ và tin cậy thấp và kích thước tập huấn luyện lớn; từ đó ảnh hưởng tới thời gian tư vấn. Vì vậy, giai đoạn xây dựng mô hình nên được thực hiện trước (ngoại tuyến, offline) cho trường hợp vừa nêu và trực tuyến (online) cho trường hợp còn lại. Với dạng ngoại tuyến, tập luật được tìm và lưu trữ sẵn trong tập tin; sau đó giai đoạn thực hiện đề xuất sẽ đọc và sử dụng tập tin mỗi khi có người dùng cần tư vấn. 2.3. Thực nghiệm 2.3.1. Dữ liệu và công cụ thực nghiệm Ba tập dữ liệu được sử dụng trong thực nghiệm là MSWeb, MovieLens và DKHP (Đăng ký học phần). Trong đó, MSWeb và DKHP là các tập dữ liệu nhị phân và MovieLens là tập dữ liệu phi nhị phân. Chúng tôi đã phát triển công cụ Interestingnesslab để phục vụ cho các hoạt động thực nghiệm. Bên cạnh đó, để đánh giá hiệu quả tư vấn của mô hình đề xuất SIR, một số mô hình tư vấn của gói recommenderlab được sử dụng. Các mô hình đó là: Mô hình dựa trên luật kết hợp AR (Association Rule based Model); mô hình tư vấn lọc cộng tác dựa trên mục IBCF (Item based Collaborative Filtering Model) sử dụng độ đo Jaccard; mô hình tư vấn dựa trên các mục dữ liệu phổ biến POPULAR (Popular Model). Các thực nghiệm được chạy trên máy tính có cấu hình: (1) hệ điều hành Window 8, RAM 16 GB, và bộ vi xử lý Intel Pentium G630 2.7GHz; và (2) hệ điều hành Window 10, RAM 8 GB, và bộ vi xử lý Intel Core i5-6200U CPU 2.5GHz.
11 2.3.2. Hiệu quả tư vấn của mô hình SIR trên dữ liệu nhị phân Hiệu quả tư vấn của mô hình SIR được so sánh với của một số mô hình hiện có theo phương pháp đánh giá chéo 5 tập con và nhóm độ đo tính chính xác của gợi ý (qua đường cong Precision - Recall, đường cong ROC và độ đo F1 điều hòa giữa giá trị chính xác và giá trị bao phủ). Kết quả thực nghiệm cho thấy: - Việc kết hợp cùng lúc các hoạt động (sinh tập luật, biểu diễn tập luật theo phân tích hàm ý thống kê, tính giá trị của luật theo một mức độ quan trọng hàm ý thống kê và sau đó sắp xếp tập luật) trong mô hình tư vấn SIR cải tiến đã làm giảm thời gian xây dựng mô hình. - Mô hình đề xuất SIR có hiệu quả tư vấn cao nhất khi kết hợp cường độ hàm ý có entropy với chỉ số đóng góp. Điều này là vì cường độ hàm ý có entropy củng cố sự chắc chắn về chất lượng tốt của một luật và chỉ số đóng góp giúp loại bỏ những mục dữ liệu đã biết bởi người cần tư vấn. - Mô hình đề xuất SIR kết hợp cường độ hàm ý có entropy và chỉ số đóng góp cho hiệu quả cao hơn các mô hình tư vấn cũng dựa trên mục dữ liệu (AR, POPULAR, IBCF). 2.3.2. Hiệu quả tư vấn của mô hình SIR trên dữ liệu phi nhị phân - Mô hình đề xuất SIR có hiệu quả tư vấn cao nhất khi: (1) kết hợp cường độ hàm ý có entropy với chỉ số đóng góp trong trường hợp người dùng chỉ cần được gợi ý một số ít mục dữ liệu; (2) kết hợp cường độ hàm ý/chỉ số gắn kết với chỉ số đóng góp trong trường hợp ngược lại. Tuy nhiên, trong thực tế, người cần tư vấn sẽ bối rối khi được gợi ý quá nhiều mục dữ liệu. Do đó, mô hình
12 SIR nên sử dụng sự kết hợp của cường độ hàm ý có entropy và chỉ số đóng góp. - Mô hình đề xuất SIR có hiệu quả tư vấn cao hơn mô hình tư vấn dựa trên các mục dữ liệu phổ biến nhất POPULAR. 2.6. Kết luận Chương 2 đề xuất một mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR cho cả dữ liệu nhị phân và phi nhị phân; thực hiện cải tiến mô hình đề xuất nhằm giảm thời gian tư vấn. Tập luật được biểu diễn theo quan điểm phân tích hàm ý thống kê có thể được xây dựng trước (ngoại tuyến) và được sử dụng trực tuyến khi có người cần tư vấn. Mô hình tư vấn đề xuất SIR có thể sử dụng nhiều mức độ quan trọng hàm ý thống kê khác nhau - cường độ hàm ý có hay không có entropy, chỉ số gắn kết, chỉ số đóng góp - và có thể mở rộng cho nhiều độ đo hấp dẫn khách quan khác để tăng hiệu quả tư vấn. Mô hình SIR được cài đặt và tích hợp trong công cụ Interestingnesslab. Hiệu quả tư vấn của mô hình này được đánh giá qua: Nhóm độ đo đánh giá tính chính xác của gợi ý (đường cong ROC, đường cong Precision - Recall và giá trị F1); trên hai nhóm dữ liệu: Nhị phân (MSWeb, DKHP) và phi nhị phân (MovieLens); theo hai nhóm kịch bản: So sánh cùng mô hình SIR nhưng khác mức độ quan trọng hàm ý thống kê và so sánh SIR với một số mô hình tư vấn hiện có (AR, POPULAR, IBCF. Kết quả thực nghiệm cho thấy mô hình tư vấn theo mức độ quan trọng hàm ý thống kê trên luật SIR nên: (1) kết hợp cường độ hàm ý có entropy với chỉ số đóng góp để xây dựng gợi ý; (2) được sử dụng để xây dựng hệ tư vấn vì có hiệu quả cao hơn các mô hình được so sánh.
13 CHƯƠNG 3. TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN NGƯỜI DÙNG Kích thước của tập luật được sinh ra bởi mô hình tư vấn SIR (được đề xuất trong Chương 2) và các mô hình tư vấn dựa trên phân tích hàm ý thống kê sử dụng luật kết hợp của những nghiên cứu hiện có thường khá lớn. Do đó, những mô hình này có thể gặp phải một số nhược điểm: Thời gian xây dựng kết quả gợi ý (gọi chung là thời gian tư vấn) lâu; máy tính có thể bị quá tải trong quá trình tính toán. Để tránh nhược điểm trên và cải thiện tính chính xác của kết quả gợi ý, ta có thể kết hợp các đặc điểm dưới đây trong việc đề xuất mô hình tư vấn. Thứ nhất, chỉ những luật có độ dài bằng 2 được xem xét; cụ thể, chỉ xét các mối quan hệ hàm ý thống kê giữa hai người dùng. Thứ hai, giá trị xếp hạng sản phẩm 푖 của người cần tư vấn có thể gần giống như giá trị xếp hạng sản phẩm 푖 của những người có cùng sở thích (gọi chung là các láng giềng gần nhất 푗). Thứ ba, mỗi sản phẩm đều có ảnh hưởng nhất định trong việc hình thành mối quan hệ giữa người dùng và láng giềng 푗; cùng một sản phẩm 푖 nhưng nó ảnh hưởng khác nhau lên mối quan hệ giữa và các láng giềng. 3.1. Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê Mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng 퐾푛푛푈 푅 là một độ đo được dùng để dự đoán xếp hạng của người cần tư vấn cho các mục dữ liệu 푖 ∈ . Mục đích của việc đề xuất độ đo này là nhằm tăng cường hiệu quả tư vấn. 퐾푛푛푈 푅, được định nghĩa trong công thức (3.1), dựa trên: (1) 푛푛 - số láng giềng gần nhất của (những người có cường độ hàm ý mạnh nhất với ); (2) 푗푖 - các xếp hạng cho mục dữ liệu 푖 của những láng giềng 푗 gần nhất với ; (3) 훾(푖, → 푗) - tính tiêu biểu của 푖 trong sự hình thành mối quan hệ giữa và 푗 (một trong những láng giềng
14 gần nhất của ). 훾 được xem là trọng số giúp tăng/giảm ảnh hưởng của giá trị xếp hạng cho mục dữ liệu 푖 của từng láng giềng gần nhất ( 푗푖) trong việc dự đoán giá trị xếp hạng cho mục dữ liệu 푖 của người cần tư vấn . 푛푛 ( ) 퐾푛푛푈 푅 , 푖 = ∑ 푗푖 ∗ 훾(푖, → 푗) (3.1) 푗=1 Giá trị xếp hạng 퐾푛푛푈 푅( , 푖) phải được quy đổi về cùng thang đo khoảng [0, 1] như các xếp hạng đã biết bằng cách thực hiện phép chia 퐾푛푛푈 푅( , 푖)/ 푙∈ 퐾푛푛푈 푅( , 푙). Trong đó, 푙∈ 퐾푛푛푈 푅( , 푙) là giá trị lớn nhất trong tập giá trị dự đoán xếp hạng của người dùng cho các mục dữ liệu. 3.2. Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR (U, I, R) ( , I, 푅 ) Cường độ hàm ý ̅̅̅̅̅̅̅̅ x U {휑( , 푗), 푗 = 1, 푛푛} Xếp hạng hàm ý trên người dùng KnnUIR Reclist={ | ′ x I 푅′ 푖 푖 ∈ , 푖 ∈ 표 } Hình 3.1: Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR. Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR được thể hiện tổng quát như Hình 3.1. Kết quả của mô hình là giá trị xếp hạng được dự đoán của người dùng cho mục dữ liệu và/hoặc danh sách các mục dữ liệu có xếp hạng
15 dự đoán cao được gợi ý cho người cần tư vấn. Mô hình UIR có các thành phần tương tự như mô hình SIR. 3.3. Hoạt động của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng Hoạt động của mô hình UIR được trình bày trong Hình 3.2. Thông tin của người cần tư vấn Ma trận xếp hạng i1 i2 im-1 im i1 i2 im Dữ liệu u1 r11 NA r1m ua NA ra2 ram-1 NA đầu vào u2 NA r22 r2m un rn1 rn2 NA Tiền xử lý dữ liệu Biểu diễn mối quan hệ giữa ua và uj với uj U theo phân tích hàm ý thống kê và tính cường độ hàm ý của (ua, uj) Chuẩn bị cho Tìm knn láng giềng gần nhất của ua việc tính giá trị KnnUIR Tính giá trị tiêu biểu của mục i đối với sự hình thành mối quan hệ (ua, uj) Dự đoán xếp hạng của người dùng ua cho các mục i I Không Có gợi ý? Thực hiện tư vấn Có Gợi ý các mục được xếp hạng cao cho người dùng ua Dữ Các xếp hạng dự đoán Danh sách TopN mục được xếp hạng cao nhất liệu i1 i2 im đầu ua r’a1 r’i2 r’am ra ua {i1, i13, im-2} Hình 3.2: Hoạt động của mô hình tư vấn UIR.
16 3.4. Thực nghiệm 3.4.1. Dữ liệu và công cụ thực nghiệm Các tập MSWeb, DKHP và MovieLens đã giới thiệu ở Mục 2.3.1 được tiếp tục sử dụng làm dữ liệu thực nghiệm. Công cụ Interestingnesslab được tích hợp thêm mô hình UIR; gói recommenderlab với các mô hình tư vấn POPULAR, IBCF, AR, UBCF, ALS_Implicit và SVD; các máy tính được mô tả trong Mục 2.3.1 được sử dụng trong phần thực nghiệm của Chương 3. Hiệu quả tư vấn của các mô hình được đánh giá qua: (1) tính chính xác của gợi ý theo đường cong Precision - Recall, đường cong ROC và độ đo F1; (2) tính chính xác của xếp hạng được dự đoán theo các sai số RMSE và MAE; (3) tính chính xác của gợi ý được sắp thứ tự theo độ lợi tích lũy giảm dần nDCG. 3.4.2. Đánh giá mô hình UIR qua tính chính xác của gợi ý - Mô hình đề xuất UIR cho hiệu quả tư vấn cao hơn rõ rệt so với các mô hình AR, IBCF và POPULAR nhưng không cao hơn nhiều so với mô hình UBCF. Cách tiếp cận dựa trên láng giềng gần của UIR làm thời gian tư vấn ngắn hơn so với cách tiếp cận dựa trên luật kết hợp. - Mô hình UIR cho hiệu quả tư vấn thấp hơn mô hình đề xuất SIR (Chương 2) trong trường hợp số xếp hạng đã biết của người cần tư vấn là rất thấp, số láng giềng gần nhất được sử dụng và số mục dữ liệu được gợi ý cho người đó là ít. 3.4.3. Đánh giá mô hình UIR qua tính chính xác của xếp hạng được dự đoán - Việc xem xét ảnh hưởng của mục dữ liệu trong sự hình thành mối quan hệ giữa hai người dùng giúp làm tăng hiệu quả tư vấn.
17 - Mô hình UIR cho hiệu quả tư vấn cao hơn (qua giá trị sai số RMSE và MAE thấp hơn) so với mô hình UBCF trong trường hợp người cần tư vấn không phải là người dùng mới. Trong trường hợp ngược lại, mô hình UIR vẫn có giá trị sai số thấp hơn khi sử dụng nhiều láng giềng gần nhất. 3.4.4. Đánh giá mô hình UIR qua tính chính xác của gợi ý được sắp thứ tự Thực nghiệm được tiến hành trong trường hợp người cần tư vấn chỉ mới xếp hạng một số ít mục dữ liệu cũng như chỉ cần được gợi ý một vài mục. Kết quả thực nghiệm cho thấy: - Mô hình UIR có danh sách dự đoán được xếp thứ tự gần hơn với danh sách được xếp thứ tự gốc (do giá trị nDCG cao hơn) so với các mô hình UBCF, ALS_Implicit và SVD khi số láng giềng gần nhất knn>=30. 3.3. Kết luận Chương 3 đề xuất một mức độ quan trọng hàm ý thống kê mới 퐾푛푛푈 푅 để dự đoán xếp hạng của một người dùng cho một mục dữ liệu. 퐾푛푛푈 푅 được phát triển từ chỉ số tiêu biểu và cường độ hàm ý. 퐾푛푛푈 푅 kết hợp nhiều yếu tố có thể tác động đến việc dự đoán xếp hạng của người dùng như: Ai là các láng giềng gần nhất, giá trị xếp hạng cho mục dữ liệu đang xét của những láng giềng này và ảnh hưởng của mục dữ liệu đang xét đến sự hình thành mối quan hệ láng giềng. Bên cạnh đó, Chương 3 còn đề xuất một mô hình tư vấn theo mức độ quan trọng 퐾푛푛푈 푅 sử dụng kỹ thuật lọc cộng tác dựa trên người dùng - được đặt tên là UIR. Hiệu quả tư vấn của mô hình đề xuất UIR được đánh giá qua nhóm độ đo tính chính xác của: Gợi ý (dùng cho dữ liệu nhị phân), xếp hạng dự đoán (dùng cho dữ liệu phi nhị phân) và gợi ý được sắp thứ tự
18 (dùng cho cả dữ liệu nhị phân và phi nhị phân); nhóm kịch bản so sánh nội (mô hình UIR với mô hình SIR) và nhóm kịch bản so sánh ngoại (mô hình UIR với các mô hình AR, POPULAR, IBCF, UBCF, ALS_Implicit và SVD). Kết quả thực nghiệm cho thấy mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên người dùng UIR: (1) có hiệu quả cao hơn khi xem xét ảnh hưởng của mục dữ liệu trong sự hình thành mối quan hệ hàm ý giữa hai người dùng; (2) có hiệu quả tư vấn cao hơn các mô hình được so sánh khi số láng giềng gần nhất knn>=30. Ngoài ra, kết quả thực nghiệm còn cho thấy mô hình UIR có hiệu quả tư vấn thấp hơn mô hình SIR trong trường hợp số xếp hạng đã biết của người cần tư vấn là rất thấp.
19 CHƯƠNG 4. TƯ VẤN THEO MỨC ĐỘ QUAN TRỌNG XẾP HẠNG HÀM Ý THỐNG KÊ TRÊN MỤC Khi dự đoán giá trị xếp hạng của cho một sản phẩm 푖, ta xem những sản phẩm mà đã quan tâm là các láng giềng gần tiềm năng của 푖. Mỗi láng giềng gần 푖푗 này sẽ có ảnh hưởng khác nhau lên 푖. Giá trị ảnh hưởng có thể lượng hóa theo sự hấp dẫn của mối quan hệ (푖푗, 푖). Độ tin cậy được sử dụng để đo sức mạnh của mối quan hệ dựa trên số đồng thuận 푛푖푗푖 trong khi cường độ hàm ý đo tính bất ngờ của mối quan hệ khi quan sát một số lượng nhỏ các phản ví dụ (số phản đối) 푛푖푗푖̅. Trong trường hợp hai láng giềng có cùng độ tin cậy với 푖, ta sẽ quan tâm đến tính bất ngờ của mối quan hệ; ngược lại, khi hai láng giềng có cùng độ bất ngờ với 푖, ta sẽ quan tâm đến tính tin cậy của mối quan hệ. Do đó, ta có thể kết hợp hai độ đo này để phân biệt rõ ảnh hưởng của từng láng giềng tiềm năng 푖푗 tới 푖. Điểm giống nhau và khác nhau của Chương 4 so với những chương trước là: Cũng sử dụng láng giềng gần như Chương 3 nhưng là láng giềng mục; cũng dựa trên mục như Chương 2 nhưng là mối quan hệ giữa hai mục nhằm tránh các nhược điểm của mô hình tư vấn dựa trên luật. 4.1. Định nghĩa mức độ quan trọng xếp hạng hàm ý thống kê trên mục Mức độ quan trọng xếp hạng hàm ý thống kê trên mục dữ liệu 퐾푛푛 푅 là một độ đo được dùng để dự đoán xếp hạng của người cần tư vấn cho các mục dữ liệu 푖 ∈ . Độ đo này dựa vào: (1) 푖푗 - thông tin xếp hạng cho các mục dữ liệu 푖푗 của chính người dùng ; (2) 푣푖푗푖 - giá trị hấp dẫn của mối quan hệ giữa từng láng giềng gần 푖푗 này với mục dữ liệu đang xét 푖 qua giá trị tin cậy và
20 giá trị hàm ý thống kê của mối quan hệ (푖푗, 푖); (3) 푛푛 - số láng giềng gần nhất với 푖 như được định nghĩa trong công thức (4.1) và (4.2). 푛푛 ( ) 퐾푛푛 푅 , 푖 = ∑ 푖푗 ∗ 푣푖푗푖 (4.1) 푗=1 휑(푖푗, 푖) ∗ (푖푗, 푖) 표ℎ(푖 , 푖) ∗ (푖 , 푖) (4.2) 푣푖푗푖 = [ 푗 푗 휙(푖푗, 푖) ∗ (푖푗, 푖) 푣푖푗푖 là tích của giá trị tin cậy (푖푗, 푖) và một trong các mức độ quan trọng: Cường độ hàm ý 휑(푖푗, 푖) hoặc chỉ số gắn kết 표ℎ(푖푗, 푖) hoặc cường độ hàm ý có entropy 휙(푖푗, 푖). Mục đích của việc kết hợp này là gia tăng sự cách biệt giữa các mối quan hệ (푖푗, 푖) so với chỉ dựa trên một mức độ quan trọng hàm ý thống kê hay giá trị tin cậy; từ đó làm nổi bật sự ảnh hưởng của từng mục 푖푗 lên 푖. Như vậy, 퐾푛푛 푅 không những quan tâm đến số đồng thuận 푛푖푗푖 mối quan hệ (푖푗, 푖) mà còn quan tâm đến số phản đối 푛푖푗푖̅ của mối quan hệ này. Tương tự như 퐾푛푛푈 푅, giá trị của 퐾푛푛 푅 phải được quy đổi về cùng thang đo (khoảng [0,1]) như các xếp hạng đã biết. 4.2. Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê IIR Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục dữ liệu IIR được thể hiện tổng quát trong Hình 4.1. Mô hình IIR có các thành phần tương tự như mô hình SIR và UIR. 4.3. Hoạt động của mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê Hoạt động của mô hình tư vấn đề xuất IIR được thể hiện trong Hình 4.2.
21 (U, I, R) ( , I, 푅 ) Độ tin cậy c, Cường độ hàm ý có/không có entropy, Chỉ số gắn kết coh I x I = {푣 với 푗, = 1̅̅,̅ 푛푛̅̅̅̅̅} 푗 Xếp hạng hàm ý trên mục KnnIIR ′ ′ Reclist={푖 |푖 ∈ , 푖 ∈ 표 } x I 푅 Hình 4.1: Mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục IIR. Mô hình IIR sử dụng ma trận mục dữ liệu lưu các giá trị 푣푗 để thực hiện tư vấn. Ma trận V có thể được xây dựng trực tiếp hoặc gián tiếp. Ở dạng gián tiếp, một tập luật được sinh ra (theo cách tương tự như Chương 2) nhưng chỉ xét các luật có độ dài là 2, các ngưỡng hỗ trợ và tin cậy là 0; sau đó tập luật này được chuyển đổi về ma trận mục. Tuy nhiên, so với cách làm trực tiếp, cách làm gián tiếp này có thể làm tăng thời gian tư vấn cũng như phụ thuộc vào công cụ sinh tập luật. Ngoài ra, ma trận có thể được xây dựng trước (ngoại tuyến). Trong trường hợp số mục và kích thước của tập dữ liệu lớn, thời gian thực hiện tư vấn có thể rút ngắn nếu ta xây dựng trước ma trận và lưu trữ ở dạng tập tin.
22 Dữ liệu đầu vào Ma trận xếp hạng i1 i2 im Thông tin của người cần tư vấn u1 r11 NA r1m i1 i2 im-1 im u2 NA r21 r2m ua NA ra2 ram-1 NA un r11 rn2 NA Xây dựng ma trận Thực hiện tư vấn các mục dữ liệu Xây dựng Dự đoán các Tiền xử lý xếp hạng theo ma trận mục dữ liệu KnnIIR i1 im i1 NA v1m Có gợi ý? Có gợi Không im v11 NA Có Lọc ma trận mục Gợi ý các mục được lấy knn mục xếp hạng cao nhất Dữ liệu đầu ra Các xếp hạng dự đoán Danh sách Top N mục được xếp hạng cao nh ất i1 i2 im ua {i1, i13, , im-2} ua r’a1 r’a2 r’am Hình 4.2: Hoạt động của mô hình tư vấn IIR. 4.4. Thực nghiệm 4.4.1. Dữ liệu và công cụ thực nghiệm Chương 4 cũng sử dụng các tập dữ liệu và công cụ thực nghiệm như các chương trước. 4.4.2. Đánh giá mô hình IIR qua tính chính xác của gợi ý - Việc xây dựng ma trận mục trực tiếp làm giảm thời gian tư vấn cũng như không phụ thuộc vào công cụ sinh tập luật.
23 - Mô hình tư vấn IIR có hiệu quả cao nhất khi sử dụng: Cường độ hàm ý để xây dựng ma trận mục dữ liệu và số láng giềng knn là số mục của tập dữ liệu mẫu được xét. - Mô hình IIR có hiệu quả tư vấn cao hơn so với các mô hình AR, IBCF, POPULAR và SIR khi số xếp hạng biết trước của người cần tư vấn không quá thấp. 4.3.3. Đánh giá mô hình IIR qua tính chính xác của xếp hạng được dự đoán - Mô hình tư vấn IIR có sai số thấp nhất khi sử dụng: knn là số mục của tập dữ liệu mẫu được xét; cường độ hàm ý có entropy để xây dựng ma trận mục cho trường hợp người cần tư vấn chỉ mới xếp hạng một vài mục dữ liệu và sử dụng chỉ số gắn kết cho trường hợp ngược lại. - Mô hình IIR có sai số thấp hơn so với mô hình IBCF khi người cần tư vấn đã xếp hạng một số mục dữ liệu. 4.4.4. Đánh giá mô hình IIR qua tính chính xác của gợi ý được sắp thứ tự Mô hình IIR có tính chính xác cao hơn (vì giá trị nDCG cao hơn) so với các mô hình IBCF, ALS_Implicit trong trường hợp người cần tư vấn chỉ mới xếp hạng một số ít mục dữ liệu cũng như chỉ cần được gợi ý một vài mục. 4.5. So sánh các mô hình tư vấn đề xuất Với dữ liệu ở dạng nhị phân, mô hình SIR là phù hợp cho trường hợp người cần tư vấn chỉ xếp hạng một vài mục dữ liệu và mô hình IIR là phù hợp cho trường hợp còn lại. Với dữ liệu ở dạng phi nhị phân, mô hình UIR có hiệu quả tư vấn tốt hơn mô hình IIR. Nếu xét thêm yếu tố thời gian tư vấn, mô hình UIR có thể được sử dụng thay cho mô hình SIR trong trường hợp người cần tư vấn chỉ xếp hạng một vài mục dữ liệu và dữ liệu ở dạng nhị phân.
24 4.6. Kết luận Chương 4 đề xuất một mức độ quan trọng mới được gọi là xếp hạng hàm ý trên mục 퐾푛푛 푅 mà nó được phát triển từ mối quan hệ giữa các mục dữ liệu để dự đoán xếp hạng của người cần tư vấn; mô hình tư vấn IIR sử dụng 퐾푛푛 푅 để gợi ý cho người dùng danh sách những mục dữ liệu phù hợp hay dự đoán xếp hạng của người dùng. 퐾푛푛 푅 kết hợp giá trị hàm ý thống kê và giá trị tin cậy của những mối quan hệ mục - mục, giá trị xếp hạng đã biết của người cần tư vấn và các láng giềng (mục) gần nhất với mục đang dự đoán xếp hạng. Chương 4 đã cải tiến mô hình đề xuất bằng cách xây dựng ma trận mục trực tiếp nhằm giảm thời gian tư vấn và tránh lệ thuộc vào công cụ sinh luật. Hiệu quả tư vấn của mô hình IIR được đánh giá: Trên cả dữ liệu nhị phân và phi nhị phân; theo tính chính xác của: Gợi ý, xếp hạng dự đoán và gợi ý được sắp thứ tự. Kết quả thực nghiệm theo các kịch bản so sánh nội (mô hình IIR với các mức độ quan trọng hàm ý thống kê cơ sở khác nhau và mô hình SIR) và so sánh ngoại (mô hình IIR và một số mô hình hiện có AR, IBCF, POPULAR, ALS_Implicit) cho thấy mô hình tư vấn theo mức độ quan trọng xếp hạng hàm ý thống kê trên mục IIR nên: (1) sử dụng cường độ hàm ý nếu dữ liệu ở dạng nhị phân hoặc kết hợp cả cường độ hàm ý có/không có entropy với chỉ số gắn kết nếu dữ liệu ở dạng phi nhị phân để xây dựng ma trận mục; (2) được sử dụng để xây dựng hệ tư vấn vì có hiệu quả cao so với các mô hình được so sánh. Ngoài ra, kết quả thực nghiệm còn cho thấy: (1) việc kết hợp giữa giá trị tin cậy và giá trị hàm ý giữa hai mục dữ liệu giúp cải thiện kết quả tư vấn; (2) tính chính xác của kết quả gợi ý bằng mô hình IIR không cao bằng mô hình SIR trong trường hợp người cần tư vấn chỉ mới xếp hạng rất ít mục dữ liệu.
25 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Các kết quả của luận án - Xác định được các mức độ quan trọng hàm ý thống kê có thể sử dụng trong hệ tư vấn; từ đó đề xuất mô hình tư vấn SIR theo mức độ quan trọng hàm ý thống kê trên luật (mối quan hệ giữa một tập mục và một mục) để gợi ý cho người cần tư vấn danh sách các mục dữ liệu phù hợp. - Đề xuất một mức độ quan trọng hàm ý thống kê mới 퐾푛푛푈 푅 để dự đoán xếp hạng của người dùng; một mô hình tư vấn mới UIR. 퐾푛푛푈 푅 kết hợp các đặc điểm ảnh hưởng đến mối quan hệ giữa người cần tư vấn và những người dùng khác để cải thiện tính chính xác của kết quả tư vấn. - Đề xuất một mức độ quan trọng hàm ý thống kê mới 퐾푛푛 푅 để dự đoán xếp hạng của người dùng; một mô hình tư vấn mới IIR. 퐾푛푛 푅 kết hợp giá trị bất ngờ và giá trị tin cậy của mối quan hệ giữa hai mục dữ liệu để cải thiện tính chính xác của kết quả tư vấn. - Phát triển được công cụ phần mềm Interestingnesslab dùng cho thực nghiệm. - Thu thập được một tập dữ liệu nhị phân lưu thông tin đăng ký học phần dùng cho đánh giá hiệu quả các mô hình tư vấn. Hướng phát triển - Xây dựng mô hình tư vấn lai ghép để kết hợp được các ưu điểm của những mô hình đề xuất. - Đánh giá các mô hình đề xuất theo một số tiêu chí hay kỹ thuật phổ biến khác để có một bức tranh đầy đủ hơn về hiệu quả tư vấn của chúng; qua đó thực hiện điều chỉnh các mô hình để cải thiện hiệu quả tư vấn. - Tìm hiểu một số phương pháp mới như học sâu, học tăng cường để điều chỉnh các mô hình tư vấn đã đề xuất nhằm gia tăng hiệu quả tư vấn.
26 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC 1. Lan Phuong Phan, Nghia Quoc Phan, Vinh Cong Phan, Hung Huu Huynh, Hiep Xuan Huynh, and Fabrice Guillet, “Classification of objective interestingness measures”, EAI Endorsed Transactions on Context-Aware Systems and Applications, Vol. 3, No. 10, pp. 1-13, 2016. 2. Lan Phuong Phan, Nghia Quoc Phan, Ky Minh Nguyen, Hung Huu Huynh, Hiep Xuan Huynh, and Fabrice Guillet, “Interestingnesslab: A Framework for Developing and Using Objective Interestingness Measures”, In Proceeding of The International Conference on Advances in Information and Communication Technology, Thai Nguyen, Vietnam, December 12-13, 2016, Springer, pp. 302-311, 2017. 3. Lan Phuong Phan, Ky Minh Nguyen, Hiep Xuan Huynh and Huu Hung Huynh.“Association-Based Recommender System using Statistical Implicative Cohesion Measure”. In Proceedings of the Eighth International Conference on Knowledge and Systems Engineering (KSE 2016), Ha Noi, Vietnam, October 6-8, 2016, IEEE, pp. 144 -149, 2016. 4. Lan Phuong Phan, Huu Hung Huynh, Hiep Xuan Huynh, Régis GRAS. “Systeme de recommandation basé sur des mesures implicatives fortes”. Dans Actes du 9ème colloque d'Analyse Statistique Implicative (A.S.I.9), Belfort, France, Octobre 4-7, 2017, Université Bourgogne Franche-Comté – Besançon, pp. 508-532, 2017. 5. Phan Phương Lan, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, “Hệ tư vấn dựa trên độ đo cường độ hàm ý và trách nhiệm”, Kỷ yếu Hội nghị Quốc gia lần thứ X về Nghiên cứu cơ bản và ứng dụng Công nghệ Thông tin năm 2017 (FAIR 2017), Đà Nẵng, Việt Nam, ngày 17-18 tháng 8 năm 2017, Nhà xuất bản Khoa học tự nhiên và Công nghệ, trang 256-274, 2017. 6. Phan Phương Lan, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, “Hệ tư vấn lọc cộng tác dựa trên các độ đo hàm ý thống kê”, Trong Kỷ yếu Hội nghị Quốc gia lần thứ XX về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT 2017), Tp. Hồ Chí Minh, Việt Nam, ngày 14-15 tháng 12 năm 2017, Nhà xuất bản Khoa học và Kỹ thuật, trang 200-205, 2017. 7. Lan Phuong Phan, Hung Huu Huynh, and Hiep Xuan Huynh, “User based Recommender Systems using Implicative Rating Measure”,
27 International Journal of Advanced Computer Science and Applications, Vol. 8, Iss. 11, pp. 37-43, 2017. 8. Phan Phương Lan, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, “Hệ tư vấn lai ghép dựa trên các độ đo hàm ý thống kê”, Tạp chí Khoa học Trường Đại học Cần Thơ, Số Chuyên đề Công nghệ Thông tin, trang 25-33, 2017. 9. Lan Phuong Phan, Hung Huu Huynh, and Hiep Xuan Huynh, “Recommendation using Rule based Implicative Rating Measure”, International Journal of Advanced Computer Science and Applications, Vol. 9, Iss. 4, pp. 176-181, 2018. 10. Lan Phuong Phan, Hung Huu Huynh, and Hiep Xuan Huynh, “Hybrid Recommendation based on Implicative Rating Measures”, In Proceedings of International Conference on Machiene Learning and Soft Computing, Phu Quoc, Viet Nam, February 2-4, 2018, ACM, pp. 50-56, 2018. 11. Lan Phuong Phan, Hung Huu Huynh, and Hiep Xuan Huynh, “Implicative Rating-Based Hybrid Recommendation Systems”, International Journal of Machine Learning and Computing, Vol. 8, No. 3, pp. 223-228, June 2018. 12. Phan Phương Lan, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, “Hệ tư vấn dựa trên mục bằng tiếp cận hàm ý thống kê”, Kỷ yếu Hội thảo quốc gia lần thứ XXI: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Thanh Hóa, Việt Nam, ngày 27-28 tháng 7 năm 2018, Nhà xuất bản Khoa học và Kỹ thuật, trang 131-136, 2018. 13. Hoang Tan Nguyen, Lan Phuong Phan, Hung Huu Huynh, and Hiep Xuan Huynh, “Improved collaborative filtering recommendations using quantitative implication rules mining in implication field”, In Proceedings of International Conference on Machiene Learning and Soft Computing, Da Lat, Viet Nam, 2019, ACM, 2019. 14. Phan Phương Lan, Huỳnh Hữu Hưng, Huỳnh Xuân Hiệp, “Tư vấn bằng xếp hạng hàm ý thống kê trên dữ liệu không phải nhị phân”, Tạp chí Khoa học và Công nghệ - Đại học Đà Nẵng,Vol. 17, No. 1.1.2019, pp. 99-103, 2019.