Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội

205 trang Phương Linh 07/04/2025 4050

Download

Bạn đang xem 30 trang mẫu của tài liệu "Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

LA_Nguyễn Thị Hội.pdf
LA_Nguyễn Thị Hội_TT.pdf
Nguyễn Thị Hội _E.pdf
Nguyễn Thị Hội_V.pdf

Nội dung tài liệu: Mô hình hành vi và quan tâm của người dùng trên các mạng xã hội

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN THỊ HỘI MÔ HÌNH HÀNH VI VÀ QUAN TÂM CỦA NGƯỜI DÙNG TRÊN CÁC MẠNG XÃ HỘI Chuyên ngành: Hệ thống thông tin Mã số : 9.48.01.04 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT HÀ NỘI – 2021 - 0 -
Công trình hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: 1. PGS.TS Trần Đình Quế 2. PGS.TS. Đàm Gia Mạnh Phản biện 1: Phản biện 2: Phản biện 3: Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tại: Học viện Công nghệ Bưu chính Viễn thông Vào hồi: giờ, ngày tháng .năm . Có thể tìm hiểu luận án tại: Thư viện Quốc gia Việt Nam Thư viện Học viện Công nghệ Bưu chính Viễn thông - 1 -
MỞ ĐẦU Tính cấp thiết của luận án Ảnh hưởng của mạng xã hội đến mọi mặt trong đời sống xã hội đang ngày càng khẳng định rõ vai trò của chúng trong nhiều lĩnh vực từ giáo dục, kinh doanh, sức khỏe, du lịch đến các vấn đề xã hội như phát hiện gian lận hoặc lừa đảo, phát hiện tâm lý tội phạm, bạo lực xã hội, phát hiện tin tức giả (fake news) được thể hiện trong nhiều công trình nghiên cứu như [30] [37] [38] [73] [81] [93] [137] [146]. Các nghiên cứu về khai phá quan tâm của người dùng (user interest) có vai trò quan trọng đối với các tổ chức, doanh nghiệp trong các chiến dịch quảng bá thương hiệu, giới thiệu sản phẩm, gợi ý dịch vụ, đặc biệt có nhiều ứng dụng trong thực tế như [1] [2] [9] [12] [16] [18] [22] [25]: xây dựng hệ thống khuyến nghị người dùng (user recommendation system); các ứng dụng của các chương trình hay chiến lược quảng cáo (advertising campaign); ứng dụng hệ thống giới thiệu sản phẩm (product introduction systems) Theo khảo sát của luận án, có một số cách phát hiện mối quan tâm của người dùng phổ biến trên các trang mạng xã hội bao gồm: Phát hiện quan tâm của người dùng dựa trên trích xuất thông tin cá nhân (profile) [14] [31] [103] [166]; Phát hiện quan tâm của người dùng dựa trên phân tích các liên kết của người dùng (follows, link) [4] [25] [28] [43] [48] [107]; Phát hiện quan tâm của người dùng dựa trên phân tích hành vi thích, đánh dấu hoặc đăng bài (like, tags, post) [50] [63] [76] [77] [87] [108] [121] [144]. Các nghiên cứu về phát hiện quan tâm của người dùng trên các mạng xã hội gần đây thường đi theo hai hướng tiếp cận chính: Tập trung phân tích về các liên kết, cấu trúc của mạng xã hội, các kết nối quan hệ bạn bè, danh sách những người được theo dõi của người dùng trên các mạng xã hội như trong [4] [21] [23] [28] [43] [60] [105] [108] [111] Tập trung phân tích các bài đăng, các thẻ đánh dấu, các bài chia sẻ, các bình luận và các đối tượng được tạo ra trong quá trình hoạt động của người dùng trên các mạng xã hội [107], [114] [118] [124] [125] [143] [145] [157] [159], hướng tiếp cận này sẽ loại bỏ được vấn đề về cấu trúc mạng, sự khó khăn trong tiếp cận thông tin cá nhân người dùng cũng như trong thu thập các liên kết bạn bè của người dùng. Có rất ít nghiên cứu xem xét sự liên quan hay mối tương quan giữa những người dùng có cùng quan tâm với nhau. Ví dụ như: có hai người dùng a và b, cùng quan tâm đến các trận đấu bóng đá ngoại hạng. Họ thường xuyên đăng, thích, bình luận các bài viết về các trận đấu, về một số cầu thủ, về lịch trình thi đấu của một số câu lạc bộ Khi đó có thể nói rằng hai người dùng a và b có cùng quan tâm đến nội dung bóng đá hoặc rộng hơn là chủ đề thể thao.
Câu hỏi đặt ra là: Khi có một bài viết về một trận đấu bóng đá mà người dùng a thích và chia sẻ lại thì liệu người dùng b có thích và chia sẻ lại bài viết đó hay không? Hoặc liệu hai người dùng này có thể cùng tham gia một nhóm có các chủ đề về bóng đá hay không? Hoặc khi có một sự kiện thể thao nào đó xảy ra trên mạng xã hội, nếu người dùng b chú ý đến và theo dõi sự kiện đó thì liệu người dùng a có quan tâm và theo dõi sự kiện đó hay không? Để trả lời các câu hỏi này, ngoài việc xác định được chủ đề quan tâm của từng cá nhân người dùng thì còn cần phải làm rõ ràng hơn mối tương quan giữa các chủ đề quan tâm của người dùng đó với những người dùng khác trên mạng xã hội. Mục tiêu của luận án Thứ nhất, mô hình hóa bài viết của người dùng trên các mạng xã hội dựa trên nhiều đặc trưng và phân loại các bài viết đó theo các chủ đề. Các bài viết được luận án đề xuất biểu diễn dựa trên năm đặc trưng gồm: nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc. Dựa trên cách biểu diễn này luận án ước lượng độ tương quan của các bài viết với các chủ đề nhằm phát hiện các quan tâm của người dùng theo các chủ đề đó. Thứ hai, mô hình hóa người dùng trên các mạng xã hội theo các hành vi và phân loại họ dựa trên các chủ đề mà họ quan tâm. Luận án đề xuất biểu diễn người dùng trên các mạng xã hội dựa trên các hành vi đăng bài viết, chia sẻ bài viết, thích bài viết, tham gia nhóm trên các mạng xã hội. Dựa trên cách biểu diễn người dùng này, luận án ước lượng độ tương quan giữa các người dùng theo các chủ đề để tìm ra các quan tâm của họ. Cuối cùng, ước lượng độ tương tự giữa hai người dùng theo các chủ đề và xem xét mối tương quan giữa những người dùng đó dựa trên các hành vi họ đã thực hiện. Đối tượng nghiên cứu Với mục tiêu đã đề ra của luận án, đối tượng nghiên cứu của luận án bao gồm: Các kỹ thuật và phương thức tiền xử lý cho các văn bản ngắn; Các mô hình và phương pháp ước lượng độ tương tự giữa hai đối tượng có nhiều đặc trưng . Phạm vi nghiên cứu Nghiên cứu và phân tích các đối tượng chứa văn bản sinh ra dựa trên hoạt động của người dùng cùng các hành vi của người dùng trên mạng xã hội. Nghiên cứu và phân tích các chủ đề trên mạng xã hội cùng các độ đo tương tự giữa các đối tượng trên mạng xã hội. Các phương pháp nghiên cứu: Phân tích, so sánh, tổng hợp, đánh giá trên các kết quả nghiên cứu đã có, từ đó đề xuất hướng giải quyết và cách tiếp cận của luận án Kiểm nghiệm các mô hình đề xuất bằng các thực nghiệm và đánh giá 3
Phương pháp đánh giá Trong luận án này, việc thực hiện đánh giá hiệu suất hoặc độ chính xác của các mô hình đề xuất được tính toán dựa theo một số phương pháp như sau: Đánh giá dựa trên độ chính xác (accuracy), độ nhạy (recall) và đánh giá dựa trên độ lệch trung bình như các nghiên cứu [13] [15] [42] [56] [80] [106] [156]. Những đóng góp chính của luận án Thứ nhất đề xuất biểu diễn bài viết và các chủ đề bằng véctơ; xây dựng độ đo tương tự giữa hai bài viết và độ tương quan giữa bài viết với các chủ đề. Thứ hai đề xuất mô hình biểu diễn bài viết mở rộng dựa trên năm đặc trưng là nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc; xây dựng độ đo tương tự giữa hai bài viết mở rộng và độ tương quan giữa bài viết với các chủ đề. Thứ ba đề xuất mô hình biểu diễn người dùng dựa trên các hành vi đăng/chia sẻ bài viết, thích bài viết, bình luận trong bài viết và tham gia các nhóm trên mạng xã hội; xây dựng độ đo tương tự giữa hai người dùng theo các hành vi và độ tương quan giữa hành vi của người dùng với các chủ đề. Bố cục luận án Ngoài phần mở đầu, kết luận và hướng phát triển cùng tài liệu tham khảo, luận án được chia thành 4 chương như sau: Chương 1: Tổng quan về hành vi, quan tâm và mô hình người dùng trên các mạng xã hội. Chương 2: Mô hình và quan tâm của người dùng theo nội dung bài viết. Chương 3: Mô hình và quan tâm của người dùng dựa trên bài viết mở rộng nhiều đặc trưng. Chương 4: Hành vi và quan tâm của người dùng theo các hành vi. CHƯƠNG 1: TỔNG QUAN VỀ HÀNH VI, QUAN TÂM VÀ MÔ HÌNH NGƯỜI DÙNG TRÊN CÁC MẠNG XÃ HỘI 1.1. Mạng xã hội và hành vi của người dùng trên mạng xã hội Mạng xã hội Mạng xã hội hay còn gọi là mạng xã hội ảo (social network) là một cấu trúc xã hội được tạo ra bởi cá nhân hoặc các tổ chức (gọi là các “node - nút”). Theo nghiên cứu [41] và [156] thì các mạng xã hội là các dịch vụ dựa trên web cho phép các cá nhân có thể: (1) tạo lập một hồ sơ công khai hoặc bán công khai trong hệ thống có giới hạn, (2) kết nối hoặc chia sẻ với một danh sách người dùng, và (3) cho phép xem, chia sẻ những nội dung thực hiện bởi những người dùng khác trong hệ thống. 4
Dữ liệu trên mạng xã hội Theo nghiên cứu [132] [156] thì dữ liệu trên mạng xã hội hay dữ liệu xã hội (social data) là dữ liệu nhận được từ các phương tiện truyền thông xã hội như các trang mạng xã hội, các trang web tìm kiếm, các trang thương mại điện tử, các trang chia sẻ hình ảnh, video Phát hiện quan tâm tương tự của người dùng User User User BÀI VIẾT HÀNH VI ĐĂNG/ CHIA SẺ/ THÍCH/ THAM GIA DANH SÁCH DANH SÁCH DANH SÁCH BÀI VIẾT CHỦ ĐỀ HÀNH VI Mô hình hóa bài viết Tính véctơ các chủ đề Mô hình hóa hành vi Tính véctơ các bài viết Tính véctơ hành vi Tương quan chủ đề và bài viết Tương quan chủ đề và hành vi Độ tương tự của các bài viết Độ tương tự người dùng QUAN TÂM CỦA NGƯỜI DÙNG THEO CHỦ ĐỀ Nhóm 1 Nhóm 3 Nhóm 2 Hình 0.2: Những vấn đề nghiên cứu của luận án Người dùng và cộng đồng người dùng trên các mạng xã hội Người sử dụng hay người dùng (user) trên các mạng xã hội là những người tham gia vào các mạng xã hội đó, họ thiết lập các kết nối với người dùng khác và có thể trao đổi với nhau, đọc tin tức, chơi trò chơi, tham gia vào các nhóm, tạo ra các thông tin, chia sẻ thông tin, chia sẻ dữ liệu trên các mạng xã hội [8] [9] [23] [35] [41] [51] Cộng đồng người dùng theo [4] [9] [35] [41] [54] [64] [111] là một tập hợp người dùng trên một mạng xã hội cùng chia sẻ các sở thích, quan tâm chung về một sự kiện, đối tượng hay chủ đề nào đó. Họ có mối liên kết chặt chẽ với nhau theo cùng một mối quan tâm chung hơn so với những người dùng khác. Mô hình người dùng trên các mạng xã hội Mô hình người dùng (user moderling) là cách thức biểu diễn thông tin cá nhân của người dùng thông qua các đặc trưng mà người dùng thể hiện trên các mạng xã hội. Mô hình người dùng theo các nghiên cứu [8] [9] [135] [18] thường được xây dựng dựa trên các đặc trưng sau của người dùng: 5
Đặc điểm cá nhân hoặc nhân khẩu học (personal characteristics or demographics) Quan tâm và sở thích (interests and preferences) Nhu cầu và mục tiêu (needs and goals) Trạng thái tinh thần và thể chất (mental and physical state) Nền tảng tri thức (knowledge and background) Hành vi của người dùng (user behavior) Ngữ cảnh (context) là những thông tin mô tả đặc trưng của tình huống mà sự việc xảy ra, trên mạng xã hội Đặc điểm tính cách cá nhân (individual traits) Quan tâm của người dùng trên mạng xã hội Chủ đề trên các trang mạng xã hội Hành vi của người dùng trên các mạng xã hội 1.2. Phát biểu bài toán và hướng tiếp cận Phát biểu bài toán và câu hỏi nghiên cứu Bài toán phát hiện các chủ đề quan tâm của người dùng dựa trên hành vi có thể phát biểu như sau: Cho một tập các chủ đề trên một mạng xã hội và một tập hợp người dùng cùng các đặc trưng của họ trên mạng xã hội đó, cần đưa ra danh sách các chủ đề mà những người dùng quan tâm, chú ý đến dựa trên việc phân tích các hành vi đặc trưng của những người dùng đó. Những câu hỏi cần giải quyết của bài toán bao gồm: Đối tượng nghiên cứu được lựa chọn của bài toán là gì? Những người dùng trên các mạng xã hội được biểu diễn như thế nào để phân tích và ước lượng nhằm phát hiện các quan tâm của họ? Các phương pháp hay các kỹ thuật nào sẽ được sử dụng? Các chủ đề quan tâm được xây dựng và biểu diễn như thế nào? Hình 1.1. Minh họa bài toán phát hiện chủ đề quan tâm của người dùng (Nguồn: Dhelm S.N. et al. [47]) 6
Ứng dụng của phát hiện quan tâm của người dùng trên mạng xã hội Theo [132] thì các nghiên cứu dữ liệu xã hội chủ yếu dựa trên ba học thuyết: thuyết tương quan xã hội, thuyết cân bằng và thuyết trạng thái. Các nghiên cứu dựa trên các ứng dụng cho người dùng như phát hiện cộng đồng, phân loại các nhóm người dùng và phát hiện người dùng xấu. Các nghiên cứu dựa trên các mối quan hệ của các người dùng như dự đoán các kết nối của người dùng, dự đoán các kết nối xã hội chặt chẽ và dự đoán các mối quan hệ lâu dài của các nhóm người dùng. Các nghiên cứu dựa trên nội dung của các đối tượng được sinh ra bởi người dùng như các bài toán khuyến nghị người dùng, các bài toán trích chọn đặc trưng và các bài toán phân tích quan điểm. Các hướng tiếp cận của bài toán Theo [10] [54] và [60] thì bài toán phát hiện quan tâm của người dùng trên các mạng xã hội thường được xem xét dựa trên nguồn thông tin được phân tích, cách thức biểu diễn các chủ đề được so sánh, các kỹ thuật được sử dụng để khai thác các mô hình và các phương pháp để đánh giá Các bước xây dựng hồ sơ quan tâm của người dùng Theo [9] và [54] thì quá trình xây dựng hồ sơ quan tâm của người dùng (user interest profile) là quá trình thu thập, trích xuất và biểu diễn cho các chủ đề quan tâm của người dùng. Quá trình này thường có ba giai đoạn: Thu thập dữ liệu, xây dựng đặc trưng và đưa vào các ứng dụng Hướng nghiên cứu của luận án Hình 1.4 mô tả hướng nghiên cứu của luận án với bài toán xây dựng hồ sơ thông tin quan tâm của người dùng gồm hai giai đoạn chính: Giai đoạn thu thập dữ liệu phân tích Giai đoạn xây dựng hồ sơ quan tâm của người dùng Wikipedia Từ vựng Từ vựng Khái niệm và định nghĩa Tính TF.IDF Từ vựng Trọng số của các từ Mạng xã hội Nội dung Véctơ trọng số Độ tương Thẻ đánh dấu tự Véctơ trọng số giữa hai véctơ Bài viết, hành vi Phân tích Hình 1.4: Hướng tiếp cận của luận án 7
CHƯƠNG 2: MÔ HÌNH VÀ QUAN TÂM CỦA NGƯỜI DÙNG THEO NỘI DUNG BÀI VIẾT 2.1. MÔ HÌNH NGƯỜI DÙNG THEO NỘI DUNG BÀI VIẾT 2.1.1. Biểu diễn véctơ bài viết bằng TF.IDF a. Bài viết trên mạng xã hội Bài viết của người dùng trên các mạng xã hội là các bài đăng mà người dùng tạo ra hoặc chia sẻ lại từ các nguồn khác trên mạng Internet, một bài viết trên một mạng xã hội có thể là một video clip, một hoặc một số bức ảnh, một văn bản, hoặc một sự kết hợp những thành phần này. b. Xử lý văn bản ngắn Theo [33] [53] [80] [119] [130] thì phương pháp xử lý cho dữ liệu văn bản ngắn gồm hai bước chính: Thứ nhất, làm sạch và tách từ theo N-gram; Thứ hai, mở rộng ngữ nghĩa (nếu cần), loại bỏ từ dừng và tính trọng số của từ. Nội dung Loại nhiễu Tính trọng số Lưu vào Tách từ N-gram bài viết TF và TF.IDF véctơ Loại bỏ từ dừng Mở rộng ngữ nghĩa bằng Wikipedia Hình 2.3: Quy trình xử lý nội dung bài viết của luận án Các bước tiền xử lý dữ liệu văn bản của bài viết được luận án thực hiện qua các bước sau: làm sạch dữ liệu, tách bài viết thành các từ và thuật ngữ, chuẩn hóa danh sách từ, loại bỏ từ dừng, mở rộng danh sách từ theo Wikipedia Quy trình thêm từ vựng bằng mở rộng ngữ nghĩa cho các bài viết được luận án thực hiện theo Thuật toán 2.1 trong Bảng 2.5 Bảng 2.5: Thuật toán 2.1 (Mở rộng ngữ nghĩa theo Wikipedia) Thuật toán mở rộng từ vựng theo Wikipedia, openWordWiki(x,y) Input: Danh sách từ, thuật ngữ của bài viết ngắn x Output: Danh sách từ, thuật ngữ đã mở rộng của bài viết Thực hiện: W  // Khởi tạo For i=1 to all(x) Begin W[i] W[i]  getDefineWiki(x[i]) ;//Lấy định nghĩa For j2 to 4 do //Tách từ cho định nghĩa y  separateNgram(W[i],j); End For y  y  removeStopWord(y); EndFor Return c. Biểu diễn văn bản bằng véctơ trọng số Định nghĩa 2.1: Cho một tập các văn bản 퓓 ={ , , , }, mỗi một văn bản được biểu diễn bằng một tập các thuật ngữ ={ , , }. Gọi 퓥 ={푣, 푣, , 푣}, 8
là tập hợp các thuật ngữ khác nhau từng đôi một. Khi đó, trọng số của thuật ngữ ∈ 퓥 đối với được tính như sau: 푤 = 푡 ( , )× 푖 ( , 퓓) (2.1) Trong đó, 푡 ( , ) là số lần xuất hiện của thuật ngữ 푡 표푛 và 푖 ( , 퓓) được tính bằng ‖퓓‖ 푖 ( , 퓓) = 푙표 ( ) (2.2) ‖{ |∈ }‖ Để tiện cho việc tính toán, mỗi véctơ được chuẩn hóa về khoảng đơn vị [0,1]. Khi đó có thể định nghĩa văn bản ∈ 퓓 theo véctơ trọng số như sau: Định nghĩa 2.2: Cho một tập các văn bản 퓓 ={ , , , }, mỗi một văn bản được biểu diễn bằng một tập các thuật ngữ ={ , , }. Gọi q là số các thuật ngữ khác nhau từng đôi một trong không gian 퓓. Khi đó, mỗi được biểu diễn bởi một véctơ có q chiều: 풘풊 =(푤, 푤, 푤) trong không gian 퓓. Trong đó, 푤 được tính theo Định nghĩa 2.1. d. Biểu diễn nội dung bài viết bằng véctơ trọng số Định nghĩa 2.3: Một mạng xã hội 퓝 là một bộ bốn: 퓝 = . Trong đó: - 푈 ={ } là tập những người dùng (user) trên mạng xã hội 퓝, là kí hiệu người dùng thứ i trong tập U. - ={푒} là tập các bài đã đăng/đã chia sẻ (entry) trên mạng xã hội 퓝, 푒 là kí hiệu bài đăng thứ i trong tập E. - = { } là tập các nhóm/ cộng đồng người dùng đã tham gia trên mạng xã hội 퓝, là kí hiệu nhóm thứ i trong tập G. - là tập các hành vi của người dùng trên mạng xã hội 퓝, các hành vi được luận án xem xét và phân tích trong chương 4 của luận án Bài viết e trên mạng xã hội 퓝 là một văn bản ngắn được biểu diễn bởi một tập các từ, ký hiệu: 푒 = {푤}, 푖 = 1,2, 푖, 푒 ∈ , với E là tập các bài viết trên mạng xã hội 퓝. Định nghĩa 2.4: Cho một tập các bài viết của người dùng ={푒, 푒, , 푒}, mỗi bài viết được biểu diễn bằng một tập thuật ngữ 푒 ={푒, 푒, 푒}. Gọi q là số thuật ngữ khác nhau từng đôi một trong không gian . Khi đó, mỗi được biểu diễn bởi một véctơ có q chiều: 풘풊 =(푤, 푤, 푤 ) trong không gian E. Trong đó, mỗi 푤 được tính như trong định nghĩa 2.1. d. Các thuật toán tiền xử lý dữ liệu văn bản Thuật toán 2.2: Thuật toán phân tách văn bản và xác định từ, thuật ngữ Thuật toán 2.3: Xây dựng véctơ trọng số cho nội dung các bài viết. 9
Bảng 2.8: Thuật toán 2.2 (Phân tích văn bản và xác định từ, thuật ngữ) Thuật toán 2.2: Phân tích bài viết và xây dựng từ, thuật ngữ getTerm(x,y) Input: Một bài viết trên mạng xã hội Ouput: Danh sách các từ của văn bản, Term 1: xText; y; T1 ; T2 ; W ; T3 ; //Khởi tạo 2: x cleanText(x); // Làm sạch văn bản x 3: x formatText(x); //Chuẩn hóa các từ vựng trong x 4: For i2 to 4 do //Tách từ cho x T1 T1  separateNgram(x,i) ; // N=2,3,4 End For 5: T2  removeStopWord(T1); //Loại bỏ từ dừng 6: If count(T2) 10 then //Mở rộng từ vựng nếu cần Open_word(T2,T3) Else T3 T2; End If 7: Return T3 Bảng 2.9: Thuật toán 2.3 (Xây dựng các véctơ trọng số cho bài viết) Thuật toán 2.3: Tính các véctơ trọng số getWeightWord(x) Input: Danh sách từ, thuật ngữ của bài viết e trên mạng xã hội N Ouput: Véctơ trọng số TF-IDF của bài viết e 1: w; wtfidf; //Khởi tạo 2: For i to count(x) do //Đếm tần suất của các từ khóa trong x w[i] count(x[i]) ; N  tổng số lượng các tài liệu  số lượng các tài liệu mà từ 푤 xuất hiện. If w[i]>=1 then wtfidf[i](1+ 푙표 ) 푙표 else wtfidf[i]0; //Tính TF.IDF End For 3: Return wtfidf; 2.1.2. Biểu diễn người dùng bằng véctơ Mỗi người dùng được biểu diễn bởi một véctơ gồm 푖 thành phần, mỗi thành phần là một véctơ được xây dựng theo định nghĩa 2.4. Ký hiệu như sau: = 풖풊 = 풘풊 , 풘풊 , 풘풊풌풊, 풘풊풌 =(푤, 푤, 푤)| =1, , 푖 trong không gian E. (2.3) Cụ thể mỗi người dùng trên mạng xã hội có thể được biểu diễn như sau: 풘(,, ,), = 풘,, ,, (2.4) . 풘 , , , Với q là số chiều của không gian E trên mạng xã hội đang xem xét. 2.1.3. Độ đo tương tự và độ tương quan giữa hai đối tượng Luận án sử dụng độ đo Cosine để tính độ tương tự giữa hai đối tượng theo các véc tơ biểu diễn của hai đối tượng tương ứng như sau: độ tương tự của u và v được tính bằng: 풖,풗 푠푖 ( , 푣) = (2.5) ‖풖‖∗‖풗‖ 10
Để tính độ tương quan giữa hai đối tượng, luận án sử dụng độ tương quan Pearson theo công thức như sau: ∑()() 표 (풖, 풗) = (2.6) ∑() ∗∑() Trong đó, = ∑ và 푣̅ = ∑ 푣 khi đó, 표 (풖, 풗) là độ tương quan giữa 풖 và 풗. 2.1.4. Độ tương tự giữa hai người dùng theo nội dung bài viết a. Độ tương tự giữa hai bài viết Độ tương tự giữa hai bài viết 푒 và 푒 được tính bằng độ tương tự giữa hai véctơ trọng số tương ứng của 푒 và 푒 như sau: 풆풊풍,풆풋풌 푠푖 풆풊풍, 풆풋풌 = (2.7) ‖풆풊풍‖×풆풋풌 Độ tương tự giữa hai tập bài viết và được tính bằng độ tương tự giữa hai tập các véctơ trọng số tương ứng của và được ký hiệu là: 푠푖 푬풊 , 푬풋 = max ,(푠푖 풆풊풍, 풆풋풌) (2.8) b. Độ tương tự giữa hai người dùng theo nội dung bài viết Định nghĩa 2.5: Cho hai người dùng và với hai tập bài viết và tương ứng trên mạng xã hội 퓝. Độ tương tự của hai người dùng được tính bằng: 푠푖 , = 푠푖 풖풊 , 풖풋 = 푠푖 푬풊 , 푬풋 (2.9) 2.2. MÔ HÌNH QUAN TÂM CỦA NGƯỜI DÙNG THEO CHỦ ĐỀ 2.2.1. Biểu diễn véctơ trọng số của chủ đề Khái niệm về chủ đề như sau: Cho một tập các chủ đề về các lĩnh vực trên mạng xã hội. Khi đó, mỗi một chủ đề sẽ được biểu diễn bởi một tập hợp từ, thuật ngữ đặc trưng để mô tả và diễn giải về chủ đề đó. Giả sử rằng 퓣 ={ , , , } là tập các chủ đề trên mạng xã hội 퓝, trong đó mỗi chủ đề được biểu diễn bằng một tập các từ ={푡, 푡, , 푡} . Định nghĩa 2.6: Cho một tập các chủ đề 퓣 ={ , , , } trên mạng xã hội 퓝, khi đó, mỗi chủ đề được biểu diễn bởi một tập các thuật ngữ hoặc các từ: = {푡, 푡, , 푡} . Gọi 퓥 là tập gồm q từ khác nhau từng đôi một trong tất cả các ∈ 퓣. Khi đó, mỗi tương ứng một véctơ trọng số được ký hiệu như sau: 풕풊 =(푤, 푤, , 푤) (2.10) Trong đó, mỗi 푤 được tính như trong Định nghĩa 2.1 11
2.2.2. Xây dựng các chủ đề trên mạng xã hội Luận án thực hiện lựa chọn các chủ đề bằng cách thống kê các chủ đề trên một số trang tin tức điện tử phổ biến ở Việt Nam và trên thế giới, phương pháp này đã được các nghiên cứu [25] [145] [125]. Các chủ đề phổ biến được thống kê từ 10 trang tin tức điện tử của Việt Nam có lượng người dùng truy cập lớn nhất theo thống kê của cùng với 5 trang tin tức điện tử bằng Tiếng Anh phổ biến trên thế giới của Luận án thu được danh sách gồm 21 chủ đề có tần suất xuất hiện nhiều nhất trên 15 trang tin tức như trong Bảng 2.11 và Bảng 2.12 Thuật toán 2.4: Xây dựng danh sách từ vựng cho chủ đề Thuật toán 2.5: Xây dựng véctơ trọng số cho mỗi chủ đề. Bảng 2.13: Thuật toán 2.4 (Xây dựng danh sách từ vựng cho các chủ đề) Thuật toán 2.4: Xây dựng từ vựng cho các chủ đề, topicWord() Input: Chủ đề t trên mạng xã hội N Ouput: Danh sách các từ vựng của chủ đề t 1: x ; tW  ; //Khởi tạo 2: x  getDefineWiki(t); // Lấy Định nghĩa từ Wikipedia cho t 3: For i2 to 4 do //Tách từ cho x tW  tW  separateNgram(x,i) ; // N=2,3,4 End For 4: tW  removeStopWord(tW); //Loại bỏ từ dừng 5: Return tW; Bảng 2.15: Thuật toán 2.5 (Xây dựng véctơ trọng số cho mỗi chủ đề) Thuật toán 2.5: Xây dựng véctơ trọng số getWeightTopic() Input: Một danh sách từ vựng của chủ đề t Ouput: Véctơ trọng số TF-IDF của chủ đề t 1: w; wtfidftp; //Khởi tạo 2: For i to count(t) do //Đếm tần suất của các từ khóa trong t w[i] count(tW[i]) ; N  số lượng các chủ đề trong T  số lượng các chủ đề mà từ khóa 푤 xuất hiện. If w[i]>=1 then wtfidftp[i](1+ 푙표 ) 푙표 else wtfidftp[i]0; //Tính TF.IDF End For 3: Return w, wtfidftp; Sau khi tính toán xong, luận án thu được một tập gồm 21 véctơ tương ứng với 21 chủ đề chứa danh sách từ và véctơ trọng số tương ứng như công thức (2.11). 풕 ,, ,, 풯 = 풕 ,, ,, (2.11) . 풕 ,, , Trong đó, mỗi 푤 được tính như trong Định nghĩa 2.1 2.2.3. Biểu diễn véctơ nội dung bài viết theo chủ đề Định nghĩa 2.7: 12
Giả sử 푒 ∈ 푒 là một bài viết của người dùng trên mạng xã hội 퓝, được mô tả bởi một tập hợp các từ, khi đó, véctơ trọng số của bài viết 푒 đối với chủ đề được định nghĩa như sau: 풌 풆풊풋 = 푒, 푒, , 푒 (2.12) Trong đó, 푒 = 푡 (푡, 푒)× 푖 (푡, ) với 푡 ∈ 풱 2.2.4. Độ quan tâm của người dùng theo các chủ đề trên mạng xã hội Mức độ liên quan giữa bài viết 푒 của người dùng đối với chủ đề 푡: 훼 = 표 푒, 푡 (2.13) Mức độ liên quan của bài viết 푒 đến p chủ đề trong 퓣 ký hiệu là: 표 푒, =(훼, 훼, , 훼) (2.14) Có thể thấy rằng: (1) Khi số lượng các bài viết của một người dùng về cùng một chủ đề tăng lên thì mức độ quan tâm của người dùng đến chủ đề đó cũng tăng lên. (2) Khi số lượng các người dùng quan tâm đến một chủ đề tăng lên thì mức độ quan tâm của người dùng đến chủ đề đó cũng tăng lên. Định nghĩa 2.8: Hàm số: 푖푛푡: 풰 × 풫( ) × 풯 → [0,1] được gọi là độ đo quan tâm nếu nó thỏa mãn điều kiện sau: 푖푛푡( , 푈, 푡)≤ 푖푛푡(푣, , 푡), đối với mọi 푈, ∈ 푃( ) với 푈 ⊆ Để cho đơn giản khi tính toán và biểu diễn, trong luận án này ký hiệu hàm quan tâm của người dùng đến chủ đề t là 푖푛푡( , 푡). Dễ dàng chứng minh rằng: Mệnh đề 2.8.1: Các hàm số sau: (푖) 푖푛푡 ( , 푡) = ( 표 푒, 푡) (2.15) ∑ ,) (푖푖) 푖푛푡 표 ( , 푡) = (2.16) ‖‖ (푖푖푖) 푖푛푡푆 ( , 푡) = + (2.17) ∑ ∑ ∈풯 ∈풰,∈풯 là các độ đo quan tâm của người dùng đối với các chủ đề. Trong đó, 표 푒, 푡 là mức độ liên quan của bài viết 푒 đến chủ đề t, 푛 là số lượng các bài viết liên quan đến chủ đề t của người dùng trên mạng xã hội 퓝. 2.2.5. Tương tự quan tâm theo chủ đề của người dùng Định nghĩa 2.9: Độ quan tâm của người dùng đến p chủ đề trong 퓣 là một véctơ quan 풕 tâm, được biểu diễn như sau: 풖풊 = ( , , , ) (2.18) Trong đó, mỗi là độ quan tâm của đến chủ đề thứ k, k=1, 2, , p, các được tính theo một trong ba công thức của mệnh đề 2.9.1. Định nghĩa 2.10: 13
Độ tương tự theo các chủ đề quan tâm của hai người dùng , được tính bằng độ tương tự cosine giữa hai véctơ quan tâm đến tất cả các chủ đề theo 풕 풕 풕 풕 풖풊, 풖풋 công thức: 푠푖 , = 푠푖 ( 풖풊, 풖풋)= 풕 풕 (2.19) 풖풊×풖풋 풕 풕 Trong đó, là tích vô hướng của hai véctơ, ‖푿‖ là độ dài của véctơ. Dễ dàng thấy rằng, 푠푖 , nằm trong khoảng [0,1]. CHƯƠNG 3: MÔ HÌNH VÀ QUAN TÂM CỦA NGƯỜI DÙNG DỰA TRÊN BÀI VIẾT MỞ RỘNG 3.1. XÁC ĐỊNH QUAN TÂM CỦA NGƯỜI DÙNG THEO BÀI VIẾT 3.2. MÔ HÌNH BÀI VIẾT MỞ RỘNG 3.2.1. Mô hình bài viết Định nghĩa 3.1: Một bài viết 푒 ∈ trên mạng xã hội 퓝 được biểu diễn bởi năm đặc trưng: 푒 ={ 표푛푡, 푡, 푡 , 푠푒푛푡, 푒 표}. Trong đó: - 표푛푡 là nội dung (content) của bài viết 푒 ∈ , - 푡 là thể loại (category) của bài viết 푒 ∈ , - 푡 là thẻ đánh dấu (tag) của bài viết 푒 ∈ , - 푠푒푛푡 là quan điểm (sentiment) của bài viết 푒 ∈ , - 푒 표 là cảm xúc (emotion) trong bài viết 푒 ∈ . Như vậy, mỗi bài viết 푒 ∈ trên mạng xã hội 퓝, được biểu diễn bởi năm đặc trưng là nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc. Các đặc trưng của bài viết được mô tả chi tiết như sau: Nội dung (Content) của bài viết 푒 ký hiệu là: 표푛푡. Thể loại (Category) của bài viết 푒 ký hiệu là: 푡 Thẻ đánh dấu (Tag) của bài viết 푒 ký hiệu là: 푡 . Quan điểm (Sentiment) của bài viết 푒 ký hiệu là: 푠푒푛푡 Cảm xúc (Emotion) của bài viết 푒 ký hiệu là: 푒 표. Theo định nghĩa 3.1 và dựa trên các đặc trưng đã xem xét thì mỗi bài viết 푒 ∈ có thể biểu diễn một cách hình thức như công thức (3.1): 푒 = ( 표푛푡, 푡, 푡 , 푠푒푛푡, 푒 표), 푖 = 1, 푛,∀푒 ∈ |퓝 (3.1) 3.2.2. Biểu diễn bài viết bằng véctơ Các thành phần được phân tích như Định nghĩa 2.2. Ký hiệu 푬 ={푒, 푒, , 푒} là tập tất các các bài viết đang xét trên mạng xã hội 퓝, khi đó theo Định nghĩa 2.2 ở Chương 2, luận án ký hiệu lần lượt: - là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng nội dung của tất cả các bài viết trong - là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng thể loại của tất cả các bài viết trong 14
- là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng thẻ đánh dấu của tất cả các bài viết trong - là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng quan điểm của tất cả các bài viết trong - là tập tất cả các từ vựng khác nhau từng đôi một của đặc trưng cảm xúc của tất cả các bài viết trong Đặc trưng nội dung: 표푛푡 = 풗 =(푤, 푤, 푤) (3.2) Đặc trưng thẻ đánh dấu: 푡 = 풗 =(푤, 푤, 푤) (3.3) Đặc trưng thể loại: 푡 = 풗 =(푤, 푤, 푤) (3.4) Đặc trưng cảm xúc: 푒 표 = 풗 =(푤, 푤, 푤 ) (3.5) Đặc trưng quan điểm: 푠푒푛푡 = 풗 =(푤, 푤, 푤) (3.6) Mỗi bài viết 푒 ∈ trên mạng xã hội 퓝, được mô hình hóa bởi năm đặc trưng nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc, được biểu diễn bởi một véctơ có năm thành phần như trong công thức (3.7). 표푛푡 = 풗 =(푤 , 푤 , 푤 ), ⎧ ⎪ 푡 = 풗 =(푤, 푤, 푤), 푒 = 푡 = 풗 =(푤, 푤, 푤), (3.7) ⎨ ⎪ 푠푒푛푡 = 풗 =(푤, 푤, 푤 ), ⎩ 푒 표 = 풗 =(푤, 푤, 푤) 3.2.3. Độ tương tự giữa hai bài viết mở rộng a. Mô hình ước lượng tổng quát Độ tương tự giữa hai bài viết 푒, 푒 ∈ trên mạng xã hội 퓝 theo định nghĩa 3.1 được tính như sau: 푠푒, 푒 = 푤 ∗ 푠 표푛푡, 표푛푡 + 푤 ∗ 푠 푡, 푡 +푤 ∗ 푠푡 , 푡 + 푤 ∗ 푠푠푒푛푡, 푠푒푛푡 +푤 ∗ 푠푒 표, 푒 표 (3.8) Trong đó, 푤, 푤, 푤, 푤, 푤 lần lượt là trọng số trên các đặc trưng nội dung, thể loại, thẻ đánh dấu, quan điểm, và cảm xúc của bài viết, thỏa mãn điều kiện: 푤 + 푤 + 푤 + 푤 + 푤 =1. Ước lượng độ tương tự trên từng đặc trưng của bài viết Độ tương tự trên đặc trưng nội dung 풗 ,풗 푠 표푛푡, 표푛푡 = 푠푖 풗 , 풗 = (3.9) 풗 ×풗 Độ tương tự trên đặc trưng thể loại: 풗 ,풗 푠 푡, 푡 = 푠푖 풗 , 풗 = 3.10) 풗 ×풗 15
Độ tương tự trên đặc trưng thẻ đánh dấu: 풗 ,풗 푠푡 , 푡 = 푠푖 풗 , 풗 = (3.11) 풗 ×풗 Độ tương tự trên đặc trưng quan điểm: 풗 ,풗 푠푠푒푛푡, 푠푒푛푡 = 푠푖 풗 , 풗 = (3.12) 풗 ×풗 Độ tương tự trên đặc trưng cảm xúc: 풗 ,풗 푠푒 표, 푒 표 = 푠푖 풗 , 풗 = (3.13) 풗 ×풗 3.3. MÔ HÌNH NGƯỜI DÙNG THEO BÀI VIẾT MỞ RỘNG 3.3.1. Biểu diễn người dùng theo bài viết mở rộng Mỗi người dùng trên mạng xã hội 퓝 được biểu diễn bởi một véctơ gồm thành phần, mỗi thành phần là một véctơ được xây dựng theo công thức 3.7. Ký hiệu như sau: = 풖풊 = 풆풊 , 풆풊 , 풆풊 풊 (3.14) Cụ thể mỗi người dùng trên mạng xã hội có thể được biểu diễn như sau: 표푛푡 = 풗 =(푤, 푤, 푤), ⎛ ⎧ ⎞ ⎪ 푡 = 풗 =(푤, 푤, 푤), ⎜ ⎟ 풆풊 = 푡 = 풗 =(푤, 푤, 푤), ⎜ ⎨ ⎟ ⎜ ⎪푠푒푛푡 = 풗 =(푤, 푤, 푤 ) , ⎟ ⎜ ⎩ 푒 표 = 풗 =(푤, 푤, 푤) ⎟ = ⎜ ⎟ ⎜ ⎟ 표푛푡 = 풗 =(푤 , 푤 , 푤 ), ⎜ ⎧ 풊 ⎟ ⎜ ⎟ ⎪ 푡 풊 = 풗 =(푤, 푤, 푤), ⎜풆 = 푡 = 풗 =(푤 , 푤 , 푤 ), ⎟ ⎜ 풊 풊 풊 ⎟ ⎨푠푒푛푡 = 풗 =(푤 , 푤 , 푤 ) , ⎪ 풊 ⎝ ⎩ 푒 표 풊 = 풗 =(푤, 푤, 푤) ⎠ Với q, p, l, r, t là số chiều của các không gian , , , , trên mạng xã hội đang xem xét. 3.3.2. Độ tương tự giữa hai người dùng theo mô hình bài viết mở rộng Độ tương tự giữa hai tập bài viết và được tính bằng độ tương tự giữa hai tập các véctơ trọng số tương ứng của và được tính như sau: 푠푖 푬풊 , 푬풋 = max ,(푠푖 풆풊풍, 풆풋풌) Trong đó các 푠푖 풆풊풍, 풆풋풌 được tính theo công thức (3.8). Khi đó độ tương tự của hai người dùng được tính bằng: 푠푖 , = 푠푖 풖풊 , 풖풋 = 푠푖 푬풊 , 푬풋 (3.15) 16
3.4. QUAN TÂM CỦA NGƯỜI DÙNG THEO MÔ HÌNH BÀI VIẾT MỞ RỘNG 3.4.1. Biểu diễn bài viết theo chủ đề Gọi 푒 ∈ là một bài viết của người dùng trên mạng xã hội 퓝, được mô tả bởi năm đặc trưng, mỗi đặc trưng là một tập hợp các từ. Khi đó, véctơ trọng số của bài viết 푒 đối với chủ đề được định nghĩa như sau: 풌 풆풊풋 = 푒, 푒, , 푒 (3.16) Trong đó, 푒 = 푤 ∗ 푡 (푡, 푒)× 푖 (푡, ) với 푡 ∈ 풱, 푤, = 1, 5 là trọng số của các đặc trưng tương ứng của bài viết. 3.4.2. Xác định mối tương quan giữa người dùng và các chủ đề Mức độ liên quan giữa bài viết 푒 của người dùng đối với chủ đề 푡: 훼 = 표 푒, 푡 (3.17) Khi đó, mức độ liên quan của bài viết 푒 đến q chủ đề trong 퓣 ký hiệu: 표 푒, 퓣 =(훼, 훼, , 훼) (3.18) 3.4.3. Độ tương tự quan tâm của người dùng theo chủ đề Mức độ quan tâm của người dùng theo các chủ đề: 풕 풖풊 = ( , , , ) (3.19) Độ tương tự của hai người dùng theo các chủ đề: 풕 풕 풕 풕 풖풊, 풖풋 푠푖 , = 푠푖 ( 풖풊, 풖풋)= 풕 풕 (3.20) 풖풊×풖풋 CHƯƠNG 4: HÀNH VI VÀ QUAN TÂM CỦA NGƯỜI DÙNG THEO HÀNH VI TRÊN MẠNG XÃ HỘI 4.1. HÀNH VI CỦA NGƯỜI DÙNG TRÊN MẠNG XÃ HỘI 4.1.1. Hành vi và phân loại các hành vi của người dùng trên mạng xã hội Theo [65] [91] [147] [154] và [104] thì hành vi của người dùng trên các trang mạng xã hội là các cách thức người dùng hoạt động và tương tác với các sự kiện, hiện tượng trên mạng xã hội. Các hành vi này được phân loại theo hành vi cá nhân (individual behavior) và hành vi tập thể (collective behavior). Theo thống kê từ [65] [91] [147] [104], và [132] thì trên một mạng xã hội, các hành vi của một người dùng bất kỳ thường bao gồm: Đăng bài viết (Post) trên trang cá nhân; Thích (Like); Bình luận (Comment); Tham gia hay gia nhập nhóm (Join group); Kết bạn (Add friend); Theo dõi (Follow); Tạo/tham gia các sự kiện (Event); Đánh dấu (Tag); Chia sẻ (Share) 4.1.2. Phát hiện quan tâm của người dùng dựa trên hành vi 4.1.3. Nhóm hay cộng đồng người dùng trên mạng xã hội Định nghĩa 4.1: 17
Một nhóm hay một cộng đồng ∈ trên mạng xã hội N, được đặc trưng bởi ba đặc trưng : = {푛 푒, 푠푡 , 푒푠}. Trong đó: - 푛 푒 là tên (name) của nhóm , - 푠푡 là kiểu (style) của nhóm - 푒푠 là mô tả (description) về nhóm . 4.2. MÔ HÌNH NGƯỜI DÙNG THEO HÀNH VI 4.2.1. Mô hình biểu diễn người dùng Định nghĩa 4.2: Trong mạng xã hội 퓝 = , tập các hành vi của người dùng B trên mạng xã hội đang xem xét bao gồm: - 푃 ={ 표푠푡} tập hành vi đăng/chia sẻ (post) bài viết trên mạng xã hội N của người dùng, là kí hiệu hành vi đăng bài 푖 trong tập P. - 퐿 ={푙푖 푒} tập hành vi thích (like) bài viết trên mạng xã hội N, 푙 là kí hiệu hành vi thích bài viết 푖 trong tập L. - = { 표 푡} tập các bình luận của người dùng trong bài viết trên mạng xã hội đó, là kí hiệu bình luận thứ i trong tập C - 퐽 = {푗표푖푛} tập các hành vi gia nhập nhóm hay cộng đồng người dùng trên mạng xã hội đó, 푗 là kí hiệu hành vi gia nhập nhóm thứ i trong tập J Mỗi người dùng khi biểu diễn theo các hành vi sẽ là một bộ bốn như sau: = Định nghĩa 4.3: P là hành vi đăng bài viết (Post an entry). Theo đó, người dùng ∈ 푈 đăng bài viết 푒 ∈ trên mạng xã hội 퓝được xác định bởi một ánh xạ: : 푈 × → {0,1}, xác định như sau: fu,e = 1 nếu u đăng bài viết e ∈ E fu,e = 0 nếu u không đăng bài viết e ∈E Định nghĩa 4.4: L là hành vi thích bài viết (Like an entry). Theo đó, người dùng ∈ 푈 thích bài viết 푒 ∈ trên mạng xã hội 퓝 được xác định bởi một ánh xạ: : 푈 × → {0,1}, xác định như sau: , 푒 = 1 푛ế 푡ℎí ℎ à푖 푣푖ế푡 푒 ∈ , 푒 = 0 푛ế ℎô푛 푡ℎí ℎ à푖 푣푖ế푡 푒 ∈ Định nghĩa 4.5: Tập các bài viết của người dùng ∈ 푈 đã đăng/chia sẻ trên mạng xã hội 퓝 được định nghĩa như sau: ={푒 ∈ |∀푗, , 푒 = 1} Tập các bài viết 푒 ∈ mà người dùng ∈ 푈 đã thích trên mạng xã hội 퓝 được định nghĩa như sau: ={푒 ∈ |∀푗, , 푒 = 1} 18
Định nghĩa 4.6: C là hành vi bình luận trong bài viết (Comment in an entry). Theo đó, người dùng ∈ 푈 bình luận trong bài viết 푒 ∈ trên mạng xã hội 퓝 được xác định bởi một ánh xạ: : 푈 × → {0,1}, xác định như sau: , 푒 = 1 푛ế ì푛ℎ 푙 ậ푛 푡 표푛 à푖 푣푖ế푡 푒 ∈ , 푒 = 0 푛ế ℎô푛 ì푛ℎ 푙 ậ푛 푡 표푛 à푖 푣푖ế푡 푒 ∈ Định nghĩa 4.7: J là hành vi tham gia nhóm/cộng đồng (Join a group/page). Theo đó, người dùng tham gia vào nhóm được xác định bởi một ánh xạ: : 푈 × → {0,1}, xác định như sau: , = 1 nếu u có tham gia vào nhóm ∈ , = 0 nếu u không tham gia vào nhóm ∈ Định nghĩa 4.8: Tập các nhóm/cộng đồng mà người dùng ∈ 푈 đã tham gia trên mạng xã hội N được Định nghĩa như sau: ={ ∈ |∀ , ( , ) = 1} Theo Định nghĩa 4.2, mỗi người dùng được biểu diễn bởi các hành vi là đăng/chia sẻ bài viết, thích bài viết, bình luận và tham gia vào nhóm hoặc cộng đồng trên mạng xã hội. Hành vi đăng (post) bài viết 푒 ∈ của một người dùng ∈ 푈 trên mạng xã hội 퓝, ký hiệu là: 표푠푡, Hành vi chia sẻ một bài viết cũng được được xếp vào hành vi đăng bài viết bởi vì việc chia sẻ chính là hành vi đăng lại một bài viết, một nội dung nào đó từ chính mạng xã hội. Hành vi thích (like) bài viết 푒 ∈ của một người dùng ∈ 푈 trên mạng xã hội 퓝, ký hiệu là: 푙푖 푒 Hành vi bình luận trong bài viết (comment): Nếu người dùng bình luận trong bài viết đã đăng hoặc chia sẻ của người dùng 푒 ∈ của một người dùng ∈ 푈 trên mạng xã hội 퓝, ký hiệu là: 표 푡, Hành vi tham gia hay gia nhập nhóm (join group) ∈ của một người dùng ∈ 푈 trên mạng xã hội 퓝, ký hiệu là: 푗표푖푛, Khi đó mỗi người dùng được biểu diễn dựa trên các hành vi: = = { 표푠푡, 푙푖 푒, 표 푡, 푗표푖푛 }| ∈ 푈 (4.1) 4.2.2. Biểu diễn mô hình người dùng bằng véc tơ trọng số a. Tính giá trị cho các hành vi - Giá trị của hành vi đăng bài viết = 표푠푡 = 풑풊 = (풆풊 , 풆풊 , 풆풊풏) (4.2) 19
- Giá trị của hành vi thích bài viết = 푙푖 푒 = 풍풊 = (풆풊 , 풆풊 , 풆풊 ) (4.3) - Giá trị của hành vi bình luận trong bài viết = 표 푡 = 풊 = 풆풊 , 풆풊 , 풆풊풑 (4.4) - Giá trị của hành vi gia nhập một nhóm trên mạng xã hội = 푗표푖푛 = 풋풊 =(품 , 품 , , 품풑) (4.5) Mỗi người dùng trên mạng xã hội được biểu diễn bằng một véctơ dựa trên các hành vi có các thành phần như sau: =(풑풊, 풍풊, 풊, 풋풊) (4.6) Nói cách khác có thể biểu diễn người dùng dựa trên các hành vi như sau: = 풑 = (풆 , 풆 , 풆 ), ⎧ 풊 풊 풊 풊풏 ⎪ = 풍풊 = (풆풊 , 풆풊 , 풆풊 ), = ( 표푠푡, 푙푖 푒, 표 푡, 푗표푖푛) = (4.7) ⎨ = 풊 = (풆풊 , 풆풊 , 풆풊풌), ⎪ ⎩ = 풋풊 = 품풊 , 품풊 , 품풊풑 4.2.3. Độ tương tự giữa hai người dùng theo hành vi Mô hình ước lượng tổng quát Giả sử có hai người dùng và trên mạng xã hội N, độ đo tương tự của hai người dùng theo hành vi: 푠( , ) = 푤 ∗ 푠( , ) + 푤 ∗ 푠( , ) +푤 ∗ 푠( , ) + 푤 ∗ 푠( , ) (4.8) Trong đó: 푤, 푤, 푤, 푤, lần lượt là trọng số của hành vi đăng/ chia sẻ bài viết, hành vi thích bài viết, hành vi bình luận trong bài viết và hành vi tham gia một nhóm trên mạng xã hội, và chúng thỏa mãn điều kiện: 푤 + 푤 + 푤 + 푤 =1. 푠( , ) là độ tương tự trên từng hành vi của hai người dùng , . Độ tương tự trên từng hành vi Độ tương tự dựa trên hành vi đăng bài viết: 푠( , )= 푠푖 , = 푠푖 (풑풊 , 풑풌) (4.9) Độ tương tự dựa trên hành vi thích bài viết: 푠( , ) = 푠푖 , = 푠푖 (풍풊 , 풍풌) (4.10) Độ tương tự dựa trên hành vi bình luận trong bài viết: 푆1= 푠푖 , + 푠푖 , Đặt 푆2= 푠푖 , + 푠푖 , 20
Độ tương tự về hành vi bình luận của người dùng và được định nghĩa bằng công thức sau: 푠푖 ( , ) = 푖푛 (1, (0,|푆1− 푆2|)) (4.11) Độ tương tự dựa trên hành vi gia nhập nhóm: 푠푖 ( , ) = 푠푖 , = 푠푖 (풋풊 , 풋풌) (4.12) 4.3. QUAN TÂM CỦA NGƯỜI DÙNG THEO MÔ HÌNH HÀNH VI 4.3.1. Biểu diễn mô hình hành vi người dùng theo không gian chủ đề Mỗi bài viết được xét trong hành vi đăng, hành vi thích, hành vi bình luận và mỗi nhóm người dùng đã tham gia được biểu diễn theo không gian các chủ đề theo công thức (3.16) như vậy mỗi người dùng sẽ được biểu diễn bằng: = 풑 풕 = (풆 , 풆 , 풆 ), ⎧ 풊 풊 풊 풊풏 ⎪ 풕 = 풍풊 = (풆풊 , 풆풊 , 풆풊 ), = 풕 (4.13) ⎨ = 풊 = ( 풊 , 풊 , 풊풌) ⎪ 풕 ⎩ = 풋풊 = 품풊 , 품풊 , 품풊풑 풌 Trong đó,풆풊풋 = 푒, 푒, , 푒 , 푒 = 푡 (푡, 푒)× 푖 (푡, ) với 푡 ∈ 퓣 4.3.2. Xác định chủ đề quan tâm theo hành vi Giả sử rằng 퓣 ={ , , , } là một tập các chủ đề trên mạng xã hội N, khi đó, mức độ liên quan của các hành vi đăng bài viết, thích bài viết và gia nhập của người dùng với các chủ đề trong 퓣 được tính bằng mức độ liên quan của các tập bài viết , , với các chủ đề đang xem xét. Ký hiệu tương ứng là: 풕 풖풊풑풐풔풕 = ( , , , ) (4.12) 풕 풖풊풍풊풌풆 = ( , , , ) (4.13) 풕 풖풊 풐 풕 = ( , , , ) (4.13) 풕 풖풊풋풐풊풏 = ( , , , ) (4.14) Khi đó, mức độ quan tâm của người dùng với các chủ đề trong 퓣 được tính theo công thức: 풕 풕 풕 풕 풖풊 = 푤 ∗ 풖풊풑풐풔풕 + 푤 ∗ 풖풊풍풊풌풆 + 푤 ∗ 풖풊풋풐풊풏 (4.15) Trong đó, 푤, 푤, 푤 là trọng số của các hành vi thỏa mãn 푤 + 푤 + 풕 푤 =1 và các 풖풌 là các độ đo mức quan tâm của người dùng đến các chủ đề trong tập 퓣. 4.3.3. Độ tương tự quan tâm của người dùng theo chủ đề Khi đó độ quan tâm tương tự của hai người dùng theo hành vi dựa trên chủ đề được tình bằng 21
풕 풕 푠푖 ( , )= 푠푖 ( 풖풊, 풖풋) (4.16) 풕 풕 풕 풕 Trong đó các 풖풊, 풖풋 được tính theo công thức (4.15), và 푠푖 ( 풖풊, 풖풋) được tính như công thức (2.16). Từ đó có thể thấy rằng 푠푖 ( , ) nằm trong khoảng [0,1]. 4.5. SO SÁNH VỚI MỘT SỐ MÔ HÌNH KHÁC 4.5.1. Các mô hình so sánh Luận án thực hiện việc so sánh kết quả thực hiện mô hình với 03 mô hình tính toán dựa trên TF.IDF và dữ liệu là văn bản ngắn gồm: Mô hình ước lượng độ quan tâm dựa trên thẻ đánh dấu của Sheng Bin et al. [125]; Mô hình ước lượng phát hiện các chủ đề quan tâm của người dùng dựa trên các Tweet của Hossen M. F. et al. [63] và mô hình ước lượng chủ đề quan tâm dựa trên hành vi đăng bài (post) và hành vi thích (like) của Kim J. Ko et al. [77]. KẾT LUẬN Những kết quả nghiên cứu của luận án - Đề xuất mô hình biểu diễn bài viết của người dùng trên mạng xã hội dựa trên năm đặc trưng là nội dung, thể loại, thẻ đánh dấu, quan điểm và cảm xúc. Mỗi bài viết được tính toán, mở rộng ngữ nghĩa theo Wikipedia và biểu diễn dưới dạng một véctơ có trọng số theo TF.IDF theo các đặc trưng của chúng. - Đề xuất mô hình biểu diễn hành vi của người dùng dựa trên các hành vi đăng/chia sẻ bài viết, hành vi thích bài viết, bình luận trong bài viết và hành vi gia nhập nhóm/cộng đồng trên mạng xã hội. - Đề xuất cách xác định các chủ đề quan tâm của người dùng dựa trên ước lượng độ tương quan giữa các bài viết của người dùng với các chủ đề. Độ tương quan giữa tập hợp các bài viết của người dùng với các chủ đề là mức độ quan tâm của người dùng đến các chủ đề đó trên mạng xã hội. - Đề xuất cách thức ước lượng độ tương tự hai người dùng theo mô hình bài viết và mô hình hành vi. Độ tương tự giữa hai người dùng theo mô hình bài viết được tính dựa trên việc tích hợp có trọng số độ tương tự các đặc trưng của bài viết và giữa hai tập bài viết của người dùng. Độ tương tự giữa hai người dùng theo hành vi cũng được tính dựa trên tích hợp có trọng số độ tương tự giữa các hành vi của người dùng. Hướng nghiên phát triển của luận án Thứ nhất là mở rộng dữ liệu nghiên cứu từ dữ liệu kiểu văn bản sang dữ liệu ảnh, dữ liệu video hoặc các liên kết trong các bài viết của người dùng trên mạng xã hội; Thứ hai là tiếp tục khảo sát, nghiên cứu dữ liệu văn bản nhưng áp dụng các thuật toán có hiệu quả hơn để phân tích hoặc xây dựng các bản thể học (ontology) trong phát hiện quan tâm của người dùng trên mạng xã hội; Thứ ba là vấn đề các quan tâm của người dùng luôn thay đổi theo thời gian, trong luận án chưa đề cập đến yếu tố thời gian khi thu thập dữ liệu mặc dầu các thời điểm thu thập dữ liệu thực đều tiến hành lấy các dữ liệu gần thời điểm đó nhất. 22
DANH MỤC CÁC CÔNG TRÌNH NGHIÊN CỨU TẠP CHÍ KHOA HỌC [1]. Manh Hung Nguyen, Thi Hoi Nguyen. A general model for similarity measurement between objects. International Journal of Advanced Computer Science and Applications (IJACSA), 6(2):235 - 239, 2015. [2]. Thi Hoi Nguyen, Dinh Que Tran, Gia Manh Dam, Manh Hung Nguyen, Estimating the similarity of social network users based on behaviors, Vietnam Journal of Computer Science (2018) 5:165–175, Springer Opens [3]. Nguyễn Thị Hội, Trần Đình Quế, Ước lượng quan tâm người dùng trên mạng xã hội dựa trên tương tự bài viết, Tạp chí Khoa học và Công nghệ - Đại học Đà Nẵng (JST-UD), Trường Đại học Đà Nẵng, ISSN 1859-1531 – Số 7(128). 2018 [4]. Nguyen Thi Hoi, Tran Dinh Que, Estimating user’s interest on social networks based on behaviors, Journal of Science and Technology on Information and Communications, Vol 3, CS.01 (2018), 9-15, ISSN 2525 – 2224 [5]. Dinh Que Tran, Thi Hoi Nguyen, Phuong Thanh Pham, Modeling user’s interests, similarity and trustworthiness based on vectors of entries in social networks, Southeast Asian Journal of Sciences, Vol. 09, No 1 (2020), pp. 01–10 HỘI THẢO KHOA HỌC [6]. Thi Hoi Nguyen, Dinh Que Tran, Gia Manh Dam, and Manh Hung Nguyen. Multi-feature Based Similarity Among Entries on Media Portals, Advances in Information and Communication Technology, Proceedings of the International Conference, ICTA 12 - 2016, Advances in Intelligent Systems and Computing, ISBN 978-3-319-49072-4, Springer International Publishing. Advances in Intelligent Systems and Computing, 538 AISC, pp. 373-382, (2017). [7]. Nguyen, Thi Hoi; Tran, Dinh Que; Dam, Gia Manh; Nguyen, Manh Hung. Integrated Sentiment and Emotion into Estimating the Similarity among Entries on Social Network, 3rd EAI Sep 4, 2017, Springer International Publishing. Lecture Notes of the Institute for Computer Sciences, Social- Informatics and Telecommunications Engineering, LNICST, 221, pp. 242-253, (2018). [8]. Nguyễn Thị Hội, Đàm Gia Mạnh, Trần Đình Quế. Độ tương đồng ngữ nghĩa các bài viết trên mạng xã hội dựa trên Wikipedia, Kỷ yếu Hội thảo Fundamental and Applied IT Research - FAIR’10, Đà Nẵng 08/2017, NXB Khoa học Tự nhiên và Công nghệ. [9]. Nguyễn Thị Hội, Trần Đình Quế. Ước lượng tương tự quan tâm người dùng trên mạng xã hội dựa vào các nhóm tham gia, Kỷ yếu Hội thảo Fundamental and Applied IT Research - FAIR’11, Hà Nội 08/2018, NXB KHTN và CN 23