Khai phá luồng văn bản với kỹ thuật gom cụm

pdf 140 trang Phương Linh 11/04/2025 100
Bạn đang xem 30 trang mẫu của tài liệu "Khai phá luồng văn bản với kỹ thuật gom cụm", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdf0. LUAN AN - VO THI HONG THAM.pdf
  • pdf1. NHUNG DONG GOP MOI (VIET + ANH).pdf
  • pdf2. TOM TAT 1 TRANG (VIET + ANH).pdf
  • pdf3. TOM TAT 24 TRANG (T VIET).pdf
  • pdf4. TOM TAT 24 TRANG (T ANH).pdf

Nội dung tài liệu: Khai phá luồng văn bản với kỹ thuật gom cụm

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG VÕ THỊ HỒNG THẮM KHAI PHÁ LUỒNG VĂN BẢN VỚI KỸ THUẬ T GOM CỤM TĨM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Ngành: Khoa học máy tính Mã số ngành: 9480101 Đồng Nai, năm 2021
  2. Cơng trình được hồn thành tại: Trường Đại học Lạc Hồng Người hướng dẫn khoa học: PGS.TS. Đỗ Phúc Phản biện 1: Phản biện 2: Phản biện 3: Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Trường họp tại Vào hồi giờ ngày tháng năm Cĩ thể tìm hiểu luận án tại thư viện: - Thư viện trường Đại học Lạc Hồng - Thư viện Quốc Gia
  3. MỤC LỤC CHƯƠNG 1: GIỚI THIỆU 1 1.1 Tổng quan về đề tài luận án 1 1.1.1 Bài tốn nghiên cứu và ý nghĩa 1 1.1.2 Thách thức của bài tốn gom cụm luồng văn bản 1 1.1.3 Các vấn đề nghiên cứu 4 1.1.4 Các bài tốn nghiên cứu 4 1.2 Đĩng gĩp của luận án và các cơng trình đã được cơng bố 5 1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu 5 1.3.1 Mục tiêu nghiên cứu 5 1.3.2 Phạm vi nghiên cứu 5 1.3.3 Phương pháp nghiên cứu: 6 1.4 Cấu trúc của luận án 6 CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN 6 2.1 Phương pháp tiếp cận dựa trên mơ hình chủ đề truyền thống 6 2.2 Phương pháp tiếp cận dựa trên mơ hình hỗn hợp động 6 2.3 Phương pháp tiếp cận dựa trên biểu diễn khơng gian vectơ 7 2.4 Mơ hình hĩa chủ đề (Topic modeling) 7 2.5 Mơ hình hỗn hợp dựa trên quy trình Dirichlet (DPMM) 7 2.6 Đồ thị con phổ biến 8 2.7 Mơ hình hĩa sự nổi bật trên luồng văn bản của Kleinberg 8 CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN ĐỒ THỊ TỪ 12 3.1 Phương pháp 12 3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW) 12 3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW) 13 3.1.3 Gom cụm luồng văn bản dựa trên mơ hình hỗn hợp 13 3.2 Thực nghiệm và bàn luận 17 CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN 18 4.1 Phương pháp 18 4.2 Thực nghiệm và bàn luận 20
  4. CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN 22 5.1 Các kết quả đạt được, hạn chế và hướng phát triển 22 5.2 Ý nghĩa học thuật và thực tiễn của luận án 24
  5. MỘT SỐ ĐỊNH NGHĨA Luồng dữ liệu [36]: là một chuỗi các phần tử vơ hạn đếm được. Cấu trúc của các phần tử luồng trong các mơ hình luồng khác nhau sẽ khác nhau. Xử lý luồng là phân tích các luồng dữ liệu đầu vào một cách nhanh chĩng để đưa ra kết quả. Khi xử lý luồng, thời gian là khái niệm trung tâm và mỗi phần tử luồng được liên kết với một hoặc nhiều nhãn thời gian được chỉ định ví dụ như khi phần tử được tạo, hoặc khi phần tử sẵn sàng để xử lý Luồng văn bản[4]: là chuỗi các văn bản được sắp xếp theo thứ tự đến nhanh chĩng và liên tục theo thời gian trong hai dạng chính: tin tức và truyền thơng xã hội. Khai phá văn bản[9]: là khai phá dữ liệu từ các bộ sưu tập dữ liệu văn bản với mục đích là khám phá kiến thức (hoặc thơng tin, mẫu) từ dữ liệu văn bản khơng cĩ cấu trúc hoặc bán cấu trúc. Gom cụm văn bản [33]: là tự động nhĩm các tài liệu dạng văn bản (ví dụ: tài liệu ở dạng văn bản thuần túy, trang web, email, ) thành các cụm (thường gọi là chủ đề) dựa trên sự giống nhau (tương đồng) về nội dung của chúng. Văn bản ngắn (short text): là các đoạn bình luận, trao đổi, nhận xét ngắn trên mạng xã hội với số lượng từ giới hạn (thường cĩ vài từ, vài câu, chiều dài trung bình của văn bản trong các tập dữ liệu ngắn tiêu chuẩn thường khoảng 8 từ) khác với các tài liệu dài như các bài báo, văn bản, tin tức gồm nhiều đoạn văn. Đồ thị con phổ biến (Frequent subgraph/common sub GOW): là đồ thị con cĩ tần số xuất hiện trong các đồ thị biểu diễn văn bản nhiều hơn một ngưỡng cho trước (min support). Khai phá đồ thị con phổ biến: là kỹ thuật dùng để rút trích ra tập hợp các đồ thị con phổ biến của tập văn bản đã cho và dựa trên tập hợp này để biễu diễn đặc trưng phân biệt cho các văn bản của tập văn bản. Quan hệ đồng hiện từ: là mối quan hệ khi các từ cùng xuất hiện với nhau trong văn bản. Trong phạm vi luận án này, mối quan hệ đồng hiện từ là sự xuất hiện cùng nhau của từng cặp từ trong văn bản, giữa 2 từ đứng cạnh nhau trong văn bản được biểu diễn bằng một cung nối (vơ hướng) của đồ thị giữa 2 đỉnh là 2 từ. Sự nổi bật (burst): là khoảng thời gian liên tục mà từ khĩa xuất hiện một cách dồn dập, khác thường trên luồng văn bản. Phát hiện sự nổi bật (burst detection): là quá trình phát hiện ra sự nổi bật. Cụm từ xu thế (tiêu biểu) (trendy keywords): là một tập các từ hàng đầu/tiêu biểu xuất hiện nổi bật trong một sự nổi bật. Các sự nổi bật xu thế (tiêu biểu) (trendy bursts) là tập các sự nổi bật của từ khĩa nào đĩ với trọng số sự nổi bật (burst weight) cao. Trọng số của sự nổi bật (burst weight) được tính dựa vào tổng trọng số của từ khĩa (keyword weight). Trọng số của từ khĩa (keyword weight) được tính dựa vào tổng tần số của từ khĩa xuất hiện trong cùng một sự nổi bật.
  6. 1 CHƯƠNG 1: GIỚI THIỆU 1.1 Tổng quan về đề tài luận án 1.1.1 Bài tốn nghiên cứu và ý nghĩa Là một dạng thức của luồng dữ liệu, một chuỗi vơ hạn các phần tử đếm được [36], luồng văn bản là một loại luồng dữ liệu đặc biệt, trong đĩ dữ liệu là các tài liệu văn bản đến liên tục [4], luồng văn bản là chuỗi các văn bản được sắp xếp theo thứ tự, đến nhanh chĩng và liên tục theo thời gian trong hai dạng chính: tin tức và truyền thơng xã hội. Khai phá văn bản, theo [9], là hoạt động khai thác dữ liệu từ các bộ sưu tập dữ liệu văn bản với mục đích là khám phá kiến thức (hoặc thơng tin, mẫu) từ dữ liệu văn bản khơng cĩ cấu trúc hoặc bán cấu trúc. Vấn đề về khai phá luồng văn bản cũng thu hút nhiều sự quan tâm với nhiều nghiên cứu liên quan như: Xử lý ngơn ngữ tự nhiên, Thu thập thơng tin [34], Phát hiện chủ đề, Định nghĩa từ ngữ, Khai phá thơng tin, Phân tích mạng xã hội [24], Tĩm tắt văn bản [16, 18], Phân tích cảm xúc, Mơ hình khơng gian Vector, Phân lớp văn bản, Gom cụm văn bản, vv Trong các nghiên cứu về khai phá luồng văn bản, gom cụm luồng văn bản là một vấn đề quan trọng trong cộng đồng nghiên cứu cĩ nhiều ứng dụng như phân nhĩm văn bản, sắp xếp tài liệu, phát hiện và theo dõi chủ đề Theo [33], gom cụm văn bản là tự động nhĩm các tài liệu dạng văn bản (ví dụ: tài liệu ở dạng văn bản thuần túy, trang web, email, ) thành các cụm dựa trên sự giống nhau hay tương đồng về nội dung của chúng. Vấn đề gom cụm văn bản cĩ thể được định nghĩa như sau. Cho một tập hợp gồm 푛 tài liệu được ký hiệu là = { 1, 2, , 푛} và một số cụm được xác định trước 퐾 (thường do người dùng thiết lập), được nhĩm thành cụm tài liệu Z={ 1, 2, , } sao cho các tài liệu trong cùng một cụm tương đồng nhau và các tài liệu khác cụm khơng tương đồng nhau. Tùy theo mục đích gom cụm mà sự tương đồng được định nghĩa khác nhau và tùy theo mơ hình gom cụm mà cách thức suy luận cụm dành cho tài liệu cũng khác nhau. Khi gom cụm trên luồng văn bản, số lượng cụm sẽ thay đổi theo thời gian vì văn bản đến trên luồng thay đổi. Do đĩ, khơng thể xác định trước được số cụm. Hiện nay, gom cụm luồng văn bản là một vấn đề cĩ ý nghĩa trong hoạt động khai phá dữ liệu với nhiều ứng dụng mang tính thực tiễn cao như lọc nhĩm tin tức, thu thập văn bản, tổ chức tài liệu, phát hiện và theo dõi chủ đề, gom cụm email 1.1.2 Thách thức của bài tốn gom cụm luồng văn bản Từ xưa đến nay, hầu hết các nghiên cứu về gom cụm văn bản chủ yếu tập trung vào các văn bản tĩnh và dài và khơng thể áp dụng cho các tập ngữ liệu văn bản cĩ tốc độ thay đổi nhanh chĩng, gồm các tài liệu văn bản ngắn như bình luận/bài đăng/microblog trên các
  7. 2 mạng xã hội như: Twitters, Facebook, gom cụm văn bản ngắn (được áp dụng vào nhiều lĩnh vực như đa dạng hĩa kết quả tìm kiếm, phát hiện sự kiện và tĩm tắt tài liệu [37], hệ thống khuyến nghị [10]) khĩ khăn hơn so với phương pháp gom cụm văn bản tĩnh truyền thống do ba đặc tính chính, bao gồm độ dài tài liệu khác nhau (rất ngắn chỉ với vài từ hoặc rất dài), độ rời rạc của đặc trưng dữ liệu văn bản và sự thay đổi nhanh chĩng của các chủ đề trong các lơ tài liệu văn bản khác nhau (đến tuần tự từ các luồng văn bản). Ngồi ra, trong trường hợp dữ liệu văn bản truyền phát nhanh từ các nguồn tài nguyên truyền thơng xã hội, khơng thể áp dụng các kỹ thuật gom cụm văn bản truyền thống để xử lý các bộ sưu tập văn bản đến với tốc độ cao và sự rời rạc của các tập dữ liệu văn bản ngắn này. Gần đây, nhiều nhà nghiên cứu đã chú ý rất nhiều vào các nghiên cứu gom cụm luồng văn bản liên quan để tối ưu hĩa hiệu suất về cả tính chính xác của gom cụm và thời gian xử lý của mơ hình. Mơ hình chủ đề là một trong những cách tiếp cận phổ biến nhất để xử lý tác vụ gom cụm luồng văn bản. Các mơ hình dựa trên mơ hình chủ đề được thiết kế dựa vào giả định rằng các tài liệu văn bản được tạo bởi một mơ hình hỗn hợp. Sau đĩ, bằng cách ước tính các tham số của mơ hình thơng qua nhiều kỹ thuật, chẳng hạn như Lấy mẫu Gibbs (GS), Tuần tự Monte Carlo (SMC), , để rút ra các phân phối chủ đề văn bản trên tập ngữ liệu văn bản. Lấy cảm hứng từ mơ hình Phân bổ tiềm ẩn Dirichlet ban đầu (LDA) [8], một số phần mở rộng đã được đề xuất để giải quyết các tác vụ mơ hình hĩa luồng văn bản, chẳng hạn như các mơ hình nổi tiếng: DTM (năm 2006) [7], TM-LDA (năm 2012) [58], LDM (năm 2015)[45], USTM (năm 2015) [67], ST-LDA (năm 2016) [3], DCT (năm 2016) [35], MStream/MstreamF (năm 2018) [69], BTM (năm 2018) [25], DP-BMM (năm 2020) [12], GSDMM (năm 2020) [1] Các kỹ thuật dựa trên mơ hình hỗn hợp này cố gắng tìm ra các phân phối chủ đề trên các tài liệu trong luồng văn bản đã cho để hồn thành nhiệm vụ gom cụm. Tuy nhiên, các mơ hình dựa trên LDA như DTM, TM-LDA, ST-LDA, khơng thể áp dụng để xử lý các tài liệu văn bản ngắn. Do hạn chế xuất phát từ bản chất của các kỹ thuật dựa trên LDA, mơ hình hỗn hợp tài liệu chủ đề phải cĩ được số lượng từ phổ biến phù hợp từ mỗi tài liệu mới cĩ thể suy ra các chủ đề đạt chất lượng cao. Do đĩ, các mơ hình dựa trên LDA này chỉ cĩ thể đạt được hiệu suất cao với các tài liệu luồng văn bản dài theo ngữ cảnh đủ phong phú. GPU-DMM [16] [32] khai thác kiến thức nền tảng đã học được từ hàng triệu tài liệu bên ngồi để cải thiện mơ hình chủ đề của các văn bản ngắn. Tuy nhiên, mơ hình này là một mơ hình ngoại tuyến (offline). Gần đây, các mơ hình DCT và MStream/MStreamF được đề xuất để vượt qua thách thức khi gom cụm luồng văn bản ngắn, tuy nhiên, các mơ hình này vẫn gặp phải hạn chế chủ yếu bỏ qua các mối quan hệ từ bên trong khi suy ra các phân phối chủ đề từ các tài liệu đã cho. Cĩ hai thách thức chính khi gom cụm luồng văn bản đã được các nhà nghiên cứu tìm hiểu trước kia. Thách thức chính đầu tiên liên quan đến tài liệu ngắn trong các luồng văn
  8. 3 bản, đặc biệt xảy ra trong cách tiếp cận dựa trên mơ hình chủ đề. Thách thức thứ hai trong gom cụm luồng văn bản là thiếu đánh giá mối liên hệ giữa các từ trong văn bản, chẳng hạn sự đồng xuất hiện của các cặp từ hay mối quan hệ ngữ nghĩa giữa các từ , trong khi suy ra chủ đề cho các văn bản của luồng. Hạn chế trong gom cụm luồng văn bản ngắn. Một cơ chế chính để suy ra chủ đề - mỗi chủ đề là phân bố rời rạc của một tập các từ - là sử dụng cách tiếp cận mơ hình chủ đề hay mơ hình hỗn hợp trong gom cụm luồng văn bản chủ yếu dựa vào nội dung (các từ phân tán) của tài liệu. Nội dung của tài liệu trong luồng phải đủ phong phú (cĩ số lượng từ xuất hiện hợp lý) để cĩ thể suy ra đúng phân phối đa thức của chủ đề trên mỗi tài liệu. Do đĩ, với số lượng từ xuất hiện thấp trong tài liệu (chỉ cĩ vài từ), độ chính xác của mơ hình tổng thể sẽ giảm đáng kể. Các nghiên cứu gần đây chứng minh rằng hầu hết các kỹ thuật gom cụm luồng văn bản dựa trên mơ hình chủ đề hay mơ hình hỗn hợp khơng thể đạt được hiệu suất tốt đối với các văn bản ngắn, chỉ cĩ vài từ như nhận xét hoặc blog nhỏ trên mạng xã hội. Đã cĩ nhiều nghiên cứu về gom cụm trên luồng văn bản ngắn [6, 17, 31, 32, 42, 43, 49, 56, 69, 71, 75]. Trên thực tế, một trong những khĩ khăn lớn trong việc gom cụm dữ liệu phát trực tuyến là sự thay đổi nhanh chĩng số lượng các chủ đề theo thời gian, chẳng hạn như các xu hướng “nĩng” hoặc các chủ đề thảo luận thường xuyên trên các mạng xã hội phổ biến như Facebook, Twitter . Do đĩ, phân phối chủ đề của các luồng văn bản luơn biến động theo thời gian do sự thay đổi liên tục các chủ đề. Nhiều văn bản ngắn trong mỗi luồng đến bao gồm các chủ đề khác nhau và cĩ tính chất rời rạc trong cấu trúc thơ của chúng. Trong cách tiếp cận dựa trên mơ hình hĩa chủ đề, việc chọn đúng số cụm cho mỗi lơ tài liệu từ một luồng nào đĩ với sự đa dạng của cấu trúc văn bản và các chủ đề được bao phủ khơng phải là một nhiệm vụ dễ dàng. Hơn nữa, việc áp dụng số lượng chủ đề cố định như cách tiếp cận mơ hình hĩa chủ đề trước đây (vốn là hạn chế của rất nhiều cơng trình chẳng hạn như [44, 74]) cho tất cả các lơ tài liệu trong một luồng văn bản nhất định khơng linh hoạt và khơng thể giải quyết vấn đề chủ đề thay đổi liên tục khi văn bản đến liên tục. Do đĩ, việc xác định những thay đổi về phân bố chủ đề của các tài liệu văn bản cĩ độ dài rất ngắn như bình luận (Facebook), tweet (Twitter), là nhiệm vụ cực kỳ khĩ khăn và thu hút rất nhiều sự quan tâm của nhiều nhà nghiên cứu trong những năm gần đây. Thiếu xem xét mối quan hệ giữa các từ. Mối quan hệ giữa các từ được hiểu ở đây cĩ thể là mối quan hệ của các từ trong các ngữ cảnh cụ thể của văn bản. Bên cạnh những thách thức liên quan đến vấn đề văn bản đến liên tục làm thay các chủ đề cũng thay đổi theo trong gom cụm luồng văn bản ngắn, việc khơng xem xét mối quan hệ giữa các từ cũng là một hạn chế lớn của các phương pháp gom cụm luồng văn bản gần đây. Trong hầu hết các kỹ thuật gom cụm luồng văn bản dựa trên mơ hình chủ đề, các từ của văn bản được đánh giá độc lập mà khơng xem xét các mối quan hệ của chúng trong các ngữ cảnh văn bản cụ thể.
  9. 4 Vốn dĩ tài liệu văn bản là một cấu trúc tự nhiên phức tạp của con người. Tùy thuộc vào cách sử dụng ngơn ngữ, các từ trong mỗi tài liệu được sắp xếp chặt chẽ theo một cấu trúc hệ thống cụ thể. Do đĩ, các thứ tự hoặc tổ hợp từ khác nhau (mối quan hệ giữa các từ) cĩ thể mang các ý nghĩa ngữ nghĩa khác nhau, điều này chắc chắn gây ảnh hưởng đến việc xác định các chủ đề của tài liệu chứa những từ này. Một giả định phổ biến của kỹ thuật gom cụm luồng văn bản dựa trên mơ hình là tập tài liệu cĩ cùng nhĩm từ thơng dụng sẽ cĩ xu hướng được nhĩm cùng chủ đề, kỹ thuật này cịn được gọi là cách biểu diễn theo túi từ (BOW) truyền thống. Hạn chế chính của biểu diễn BOW là phần lớn bỏ qua các mối quan hệ của từ (ví dụ: “con gà” hồn tồn khác “gà con”) và các mối quan hệ (như các từ kết hợp : “Hoa Kỳ”, “vi rút Corona”, ). Do đĩ, lấy mẫu phân phối các từ phổ biến trên các tài liệu trong quá trình suy luận chủ đề mà khơng xem xét mối quan hệ của các từ cĩ thể dẫn đến việc hạ thấp độ chính xác của kết quả gom cụm. Cho nên, việc mở rộng đánh giá mối quan hệ giữa các từ trong các ngữ cảnh khác nhau của văn bản trong quá trình suy luận chủ đề cĩ thể giúp cải thiện chất lượng của kết quả gom cụm luồng văn bản. 1.1.3 Các vấn đề nghiên cứu Từ việc phân tích các hạn chế của các cơng trình nghiên cứu, luận án xác định một số vấn đề nghiên cứu liên quan bao gồm: Vấn đề gom cụm luồng văn bản ngắn; Vấn đề gom cụm luồng văn bản khi số chủ đề thay đổi do văn bản đến liên tục theo thời gian; Vấn đề xét mối quan hệ từ trong gom cụm luồng văn bản; Vấn đề gom cụm trên luồng văn bản tiếng Việt; Vấn đề tiền xử lý nội dung văn bản trước khi tiến hành gom cụm và việc vận dụng các cơ chế rút trích từ khĩa trong tiền xử lý văn bản; Vấn đề phát hiện xu thế của từ thơng qua phát hiện các cụm từ xu thế. Đây là các vấn đề giúp hình thành nên các bài tốn chính của luận án. 1.1.4 Các bài tốn nghiên cứu 1.1.4.1. Bài tốn 1 – gom cụm luồng văn bản theo ngữ nghĩa với đồ thị từ Để giải quyết những thách thức nêu trên, trong bài tốn 1, luận án đề xuất một cách tiếp cận mới về gom cụm luồng văn bản dựa trên mơ hình hỗn hợp, áp dụng đánh giá đồ thị từ (GOW-Graph of Words) xuất hiện trong các tập ngữ liệu văn bản đã cho, gọi là mơ hình GOW-Stream. Biểu diễn tài liệu văn bản dựa trên GOW là một cách tiếp cận NLP nổi tiếng nhằm mục đích biểu diễn tài liệu văn bản thành cấu trúc dựa trên đồ thị trong đĩ các nút đại diện cho tập hợp các từ phân biệt xuất hiện trong tài liệu và các cạnh đại diện cho quan hệ đồng xuất hiện tương ứng giữa các từ này (hai từ xuất hiện gần nhau được thể hiện bằng một cung nối giữa hai đỉnh, mỗi đỉnh là một từ). Trong GOW-Stream, luồng GOW được thiết kế để tận dụng cả hiệu năng về độ chính xác và thời gian xử lý cho các tác vụ gom cụm luồng văn bản bằng cách đánh giá kỹ lưỡng các mối quan hệ từ ngữ trong khi
  10. 5 suy ra các cụm. Kết quả thực nghiệm được so sánh với các thuật tốn cơng bố gần đây, như: DTM[7], Sumblr[50] và MStream[69] bằng các thử nghiệm trên các bộ dữ liệu chuẩn. Các cơng trình [1][2][3][4][5] của nghiên cứu sinh giải quyết bài tốn 1. 1.1.4.2. Bài tốn 2 – Tìm cụm từ xu thế trên luồng dữ liệu văn bản Trong bài tốn 2, luận án đề xuất một hệ thống gọi là TKES (Trendy Keyword Extraction System). Đây là hệ thống hỗ trợ thu thập thơng tin tự động, rút trích từ khĩa tự động, xử lý văn bản Tiếng Việt, hướng đến việc xây dựng và hồn thiện tập dữ liệu văn bản tiếng Việt phục vụ nghiên cứu, thử nghiệm liên quan đến bài tốn gom cụm luồng văn bản. Hệ thống áp dụng kỹ thuật đơn giản TF-IDF vào rút trích từ khĩa cĩ tần số xuất hiện cao, áp dụng một số kỹ thuật huấn luyện mơ hình và các phương pháp đo độ tương đồng của từ khĩa vào tìm từ khĩa tương đồng, cĩ so sánh kết quả từ việc sử dụng nhiều phương pháp đo độ tương đồng. Ngồi ra, hệ thống cũng đề xuất huấn luyện cập nhật mơ hình, đo độ ổn định để đưa vào chạy thực tế. Đĩng gĩp chính của luận án ở bài tốn này là đề xuất thuật tốn phát hiện cụm từ xu thế, các sự nổi bật tiêu biểu của từ khĩa dựa vào ý tưởng của thuật tốn Kleinberg [30]. Cơng trình [6] của nghiên cứu sinh giải quyết bài tốn 2. 1.2 Đĩng gĩp của luận án và các cơng trình đã được cơng bố Sử dụng phương pháp nghiên cứu tổng luận và phương pháp nghiên cứu thực nghiệm và so sánh, luận án cơng bố được 04 bài báo đăng kỷ yếu hội thảo quốc tế (ACM và Springer) và 02 bài báo đăng tạp chí (01 bài thuộc danh mục Scopus/Q3 và 01 bài thuộc danh mục SCIE/Q3). 1.3 Mục tiêu, phạm vi và phương pháp nghiên cứu 1.3.1 Mục tiêu nghiên cứu Với các bài tốn nghiên cứu đã được xác định, luận án đã đặt ra các mục tiêu nghiên cứu cụ thể. Để giải quyết bài tốn 1, các mục tiêu chính được xác lập bao gồm: So sánh các mơ hình gom cụm trên luồng văn bản; Nhận diện các thách thức của các mơ hình; Xác định các tập dữ liệu chuẩn phục vụ cho thực nghiệm; Đề xuất mơ hình mới trong gom cụm luồng văn bản; Cải tiến mơ hình đề xuất. Các nhiệm vụ được thực hiện trong bài tốn 2 gồm: Nghiên cứu phát hiện cụm từ xu thế trên luồng dữ liệu văn bản; Nghiên cứu phát hiện các sự nổi bật tiêu biểu của từ khĩa. 1.3.2 Phạm vi nghiên cứu Thơng qua việc xác định các hạn chế của các cơng trình nghiên cứu trước, xác định được các vấn đề nghiên cứu, hình thành các bài tốn chính cho luận án, với đối tượng nghiên cứu là luồng dữ liệu văn bản ngắn, phạm vi nghiên cứu của luận án được xác lập như sau: (1) Gom cụm trên luồng văn bản ngắn, rời rạc đến từ các mạng xã hội phổ biến
  11. 6 như Facebook, Twitter ; (2) Nghiên cứu đồ thị từ, kỹ thuật khai phá đồ thị con phổ biến, ảnh hưởng của mối quan hệ đồng hiện giữa các cặp từ trong văn bản đến trên luồng đến kết quả gom cụm; (3) Nghiên cứu phát hiện cụm từ xu thế trên luồng dữ liệu văn bản. (4) Nghiên cứu phát hiện các sự nổi bật tiêu biểu trên luồng dữ liệu văn bản. Trong đĩ, các nghiên cứu (1), (2) được thực nghiệm trên dữ liệu tiếng Anh và các nghiên cứu (3), (4) được thực nghiệm trên dữ liệu tiếng Việt. 1.3.3 Phương pháp nghiên cứu: Luận án sử dụng hai phương pháp nghiên cứu: tổng luận, thực nghiệm và so sánh. 1.4 Cấu trúc của luận án Báo cáo luận án được cấu trúc như sau: tĩm tắt, chương 1 - giới thiệu, chương 2 - tổng quan tình hình nghiên cứu, chương 3&4 - 02 bài tốn chính, chương 5 - kết luận, danh mục các bài báo đã cơng bố. CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN 2.1 Phương pháp tiếp cận dựa trên mơ hình chủ đề truyền thống Là cách tiếp cận sớm nhất, là một nhĩm các thuật tốn hỗ trợ khám phá các chủ đề/cấu trúc tiềm ẩn từ các tài liệu văn bản. LDA là một trong những thuật tốn nổi tiếng nhất, biểu diễn các chủ đề ẩn được khám phá dưới dạng tập con của các từ và tài liệu được phân phối thành dạng tập con của các chủ đề ẩn được phân phối, được áp dụng để mơ hình hĩa đặc tính theo thời gian của chủ đề cũng như xử lý sự rời rạc của văn bản. Tuy nhiên, các mơ hình dựa trên LDA yêu cầu phải xác định từ đầu số lượng chủ đề cho tất cả các lơ tài liệu khác nhau trong một luồng nên khơng phù hợp với sự thay đổi của các chủ đề theo thời gian. 2.2 Phương pháp tiếp cận dựa trên mơ hình hỗn hợp động Phương pháp quy trình Dirichlet (DP) được sử dụng rộng rãi để xử lý vấn đề tiến hĩa chủ đề trong gom cụm luồng văn bản, dựa trên mơ hình hỗn hợp để suy ra sự phân phối của các chủ đề/cụm trên các tài liệu sau đĩ lấy mẫu nhiều lần với Gibbs Sampling, Sequential Monte Carlo, để ước tính các tham số của mơ hình, để suy luận sự phân bổ của các chủ đề trên luồng văn bản đã cho, hay nĩi cách khác chủ yếu dựa vào định lý phi tham số Bayes để mơ hình hĩa chủ đề động và tự động khám phá các chủ đề/cụm từ các luồng văn bản rời rạc. Hạn chế tồn tại như DHTM[14] ít hiệu quả khi gom cụm các tài liệu văn bản cĩ độ dài ngắn, DCT[35] khơng thể phát hiện sự phát triển của các chủ đề khi số lượng chủ đề cĩ thể được thay đổi theo thời gian. Gần đây, cĩ một bản nâng cấp mới về gom cụm luồng văn bản độ dài ngắn phụ thuộc vào Mơ hình hỗn hợp quy trình Dirichlet
  12. 7 (DPMM) [70], được gọi là MStream/MStreamF cho phép dự đốn hiệu quả các chủ đề ẩn từ các luồng văn bản cĩ độ dài ngắn cho trước nhưng lại hạn chế trong việc khai phá biểu diễn từ độc lập trong khi suy ra các chủ đề dẫn đến sự mơ hồ về các chủ đề được phát hiện từ các luồng văn bản. 2.3 Phương pháp tiếp cận dựa trên biểu diễn khơng gian vectơ Các luồng được chuyển đổi và biểu diễn dưới dạng vectơ đặc trưng, sau đĩ các độ đo dựa trên khoảng cách cĩ sẵn như độ tương tự Cosin, khoảng cách Euclide, được áp dụng để đo lường sự giống nhau giữa các tài liệu văn bản và các chủ đề đã cho, cĩ hai nhược điểm lớn: thách thức về sự thay đổi chủ đề khi mà số lượng chủ đề cần được chỉ định trước; hạn chế về phải chọn theo cách thủ cơng một ngưỡng tương đồng thích hợp để xác định một tài liệu văn bản mới từ một luồng nhất định sẽ thuộc về một chủ đề cụ thể hay khơng. Hơn nữa, chất lượng của các vectơ được đại diện trong tài liệu cũng bị ảnh hưởng bởi độ dài của tài liệu. Do đĩ cách tiếp cận này ít được quan tâm hơn. 2.4 Mơ hình hĩa chủ đề (Topic modeling) Mơ hình LDA là mơ hình cổ điển nổi tiếng được sử dụng nhiều trong việc phân tích chủ đề văn bản. Mơ hình dựa trên mạng Bayes. Việc tìm chủ đề của văn bản được thực hiện dựa trên việc tính phân bố xác suất cho mỗi từ đặc trưng trong tài liệu. Mỗi chủ đề cĩ xác suất riêng cho từng từ khĩa và phân bố chủ đề được biểu diễn như là sự kết hợp nhiều chủ đề trong văn bản. 2.5 Mơ hình hỗn hợp dựa trên quy trình Dirichlet (DPMM) Đây là một phương pháp tiếp cận được xây dựng chặt chẽ từ mơ hình lý thuyết cĩ nhiều ứng dụng thực tiễn chẳng hạn như dùng trong gom cụm (chủ đề), suy luận chủ đề khi chưa biết chính xác số chủ đề trong ngữ cảnh lượng dữ liệu lớn, đến liên tục trên luồng. Mơ hình này cĩ được xem như là một phương pháp gom cụm nằm trong nhĩm thống kê phi tham số Bayes, mơ hình vẫn cĩ tham số nhưng người sử dụng khơng cần phải thiết lập tham số. Trong một thời gian dài, quy trình Dirichlet là thước đo ngẫu nhiên rời rạc tiêu chuẩn vàng trong phép đo phi tham số Bayes [51]. Quy trình Pitman – Yor cung cấp một sự tổng quát hĩa đơn giản và cĩ thể kiểm sốt được về mặt tốn học, cho phép kiểm sốt rất hiệu quả hoạt động gom cụm. Hai cách trình bày thường được sử dụng của quy trình Pitman – Yor là quy trình bẻ que và quy trình nhà hàng Trung Hoa. Quy trình bẻ que là một biểu diễn mang tính xây dựng rất tiện dụng cho việc triển khai thực tế, trong khi quy trình nhà hàng Trung Hoa mơ tả sự phân bố phân vùng.
  13. 8 2.6 Đồ thị con phổ biến Khai phá đồ thị con phổ biến Với một tập hợp các đồ thị dạng văn bản đã xây dựng ({G1, G2, G|D|}) từ một kho văn bản nhất định (D), với V và E là tập hợp các từ xuất hiện đặc biệt W là các nút của đồ thị và các quan hệ đồng xuất hiện tương ứng của chúng. Kỹ thuật khai phá đồ thị con phổ biến, chẳng hạn như: gSpan, FFSM, vv là kỹ thuật dùng để rút trích ra tập hợp các đồ thị ′ ′ ′ ′ con phổ biến, được ký hiệu là: F = {G1, G2 G|F|}, trong đĩ mỗi đồ thị con phổ biến: Gf = ′ ′ ′ ′ (Vf, Ef), với Vf ∈ V và Ef ∈ E, được xem là đặc trưng phân biệt cho các tài liệu đã cho cĩ ′ chứa đồ thị con Gf. Thuật tốn gSpan Thuật tốn gSpan [9], viết tắt của khai phá mẫu cấu trúc con dựa trên đồ thị (graph- based Substructure pattern mining), được Yan và Han giới thiệu vào năm 2002. Thuật tốn dựa trên phương pháp tiếp cận tăng trưởng theo mẫu (pattern), sử dụng chiến lược tìm kiếm theo chiều sâu để duyệt đồ thị, tìm các ứng cử viên và kiểm tra các đồ thị con phổ biến (xuất hiện thường xuyên). Kể từ đĩ, đã cĩ nhiều cơng trình khoa học sử dụng thuật tốn này hoặc các thuật tốn mở rộng của nĩ để phát hiện các đồ thị con phổ biến trong một tập đồ thị được cho [38, 41]. Thuật tốn gSpan [9] đề xuất phương pháp tìm theo chiều sâu (DFS Code) để xây dựng cây tìm kiếm (DFS Code Tree), để tìm ra mã tìm kiếm tối thiểu. Để cĩ thể xác định xem các đồ thị cĩ đồng dạng với nhau hay khơng, tìm mã tìm kiếm cực tiểu của hai đồ thị và so sánh chúng, nếu hai mã tìm kiếm này bằng nhau thì hai đồ thị là đồng dạng. 2.7 Mơ hình hĩa sự nổi bật trên luồng văn bản của Kleinberg Mơ hình hĩa sự nổi bật. Mơ hình hĩa sự nổi bật theo chuỗi thời gian là những bài tốn thực tế, thu hút rất nhiều sự quan tâm. Cơng trình [19] đã giải quyết những vấn đề này bằng cách sử dụng một mơ hình cĩ một tham số gọi là mơ hình . Một đối tượng được coi là tự tương đồng nếu nĩ tương đồng với một phần của chính nĩ. Luận án xem xét sự tự tương đồng về thời gian. Các đối tượng chuỗi thời gian tự tương đồng này trong thế giới thực cĩ rất nhiều ứng dụng như video, tài liệu, hệ thống tập tin, Ethernet, Tin tức, mạng xã hội, Cĩ nhiều ngữ cảnh khác nhau đối với luồng văn bản được đề cập trong các cơng trình như các bài báo, email, ấn phẩm nghiên cứu và mục đích chính của các cơng trình là thể hiện một số sự nổi bật và hành vi mang tính thứ bậc và cấp bậc. Vì một số từ xuất hiện thường xuyên hơn những từ khác trong những khoảng thời gian nhất định và những tần số này thay đổi theo thời gian, Kleinberg sử dụng một Automát trạng thái khơng xác định để hạ thấp phân phối hàm mũ để phát hiện các mức độ nổi bật khác nhau trong các thang thời gian khác nhau và xem xét khoảng cách giữa hai thơng điệp liên tiếp.
  14. 9 Phát hiện sự nổi bật. Sự gia tăng nhanh chĩng và liên tục trong một sự kiện xác định sự nổi bật trong luồng văn bản. Vì vậy, một sự nổi bật được định nghĩa là khoảng thời gian mà một từ khĩa xuất hiện liên tục và trở nên phổ biến bất thường trên luồng văn bản và việc xác định sự nổi bật được gọi là phát hiện sự nổi bật. Kleinberg là một thuật tốn xác định và gán nhãn trạng thái cho các sự nổi bật. Quy trình sử dụng một Automát hai trạng thái sử dụng phương pháp tính sự nổi bật [5, 19] được sử dụng rộng rãi hơn các phương pháp được đề xuất như phát hiện sự nổi bật cho các sự kiện [46, 60], phương pháp dựa trên thử nghiệm [53], phương pháp phi tham số [5]. Các phương pháp này được áp dụng rộng rãi cho các lĩnh vực khác nhau của luồng văn bản bao gồm các ấn phẩm trực tuyến, blog [73], e-mail [22], và mạng xã hội [64, 73], Cách tiếp cận của Kleinberg. Giả sử cĩ một luồng văn bản ví dụ như một thư mục e-mail lớn về một chủ đề rộng duy nhất. Xác định sự nổi bật như thế nào và giúp ích gì trong việc cấu trúc luồng văn bản này? Đặc điểm nổi trội là những sự nổi bật như vậy tương ứng với những thời điểm mà cường độ thơng điệp đến tăng mạnh, cĩ thể từ vài tuần hoặc vài ngày một lần lên vài giờ hoặc vài phút một lần. Nhưng tỷ lệ lượt đến nĩi chung là rất “dao động (rugged)”: tỷ lệ này thường khơng tăng lên một cách mượt mà và sau đĩ giảm đi, mà biểu hiện sự luân phiên thường xuyên của các cơn sốt nhanh chĩng và các khoảng dừng lâu hơn trong khoảng thời gian gần. Do đĩ, các phương pháp phân tích khoảng cách giữa các lần gửi tin nhắn liên tiếp theo một cách quá đơn giản cĩ thể dễ dàng tập trung chú ý vào việc xác định số lượng lớn các sự nổi bật ngắn, cũng như phân mảnh các sự nổi bật lớn thành nhiều sự nổi bật nhỏ hơn. Hơn nữa, việc liệt kê đơn giản các tập hợp thơng điệp gần nhau chỉ là bước đầu tiên hướng tới cấu trúc phức tạp hơn. Do đĩ, mục tiêu rộng lớn hơn là rút trích cấu trúc tồn cục từ một loại hình giảm mạnh dữ liệu - chỉ xác định các sự nổi bật khi chúng đủ cường độ và theo cách cho phép một sự nổi bật liên tục diễn ra suơn sẻ trên một mẫu (pattern) đến khơng đồng nhất của thơng điệp. Cách tiếp cận của Kleinberg là lập mơ hình luồng bằng cách sử dụng automaton 풜 ở trạng thái khơng xác định, tại bất kỳ thời điểm nào cĩ thể ở một trong các trạng thái cơ bản và phát ra các thơng điệp ở các tốc độ khác nhau tùy thuộc vào trạng thái của mơ hình. Cụ thể, automaton 풜 cĩ một tập hợp các trạng thái tương ứng với tốc độ phát ngày càng nhanh và khởi điểm của một sự nổi bật được báo hiệu bởi một sự chuyển đổi trạng thái - từ trạng thái thấp hơn sang trạng thái cao hơn. Bằng cách ấn định chi phí cho việc chuyển đổi trạng thái, cĩ thể kiểm sốt được tần số của các chuyển đổi đĩ, ngăn chặn các đợt nổi bật rất ngắn và giúp dễ dàng xác định các đợt nổi bật dài hơn dù cho tốc độ của luồng cĩ thay đổi. Khung tổng thể của thuật tốn Kleinberg được đề xuất dựa trên các phương pháp Markov được sử dụng trong việc mơ hình hĩa sự nổi bật trong lưu lượng truy cập mạng, và các mơ hình Markov ẩn.
  15. 10 Việc sử dụng automaton tự động cĩ các trạng thái tương ứng với cường độ cao cung cấp thêm một nguồn để phân tích bổ sung - các sự nổi bật liên quan đến chuyển đổi trạng thái tạo thành một cấu trúc lồng nhau tự nhiên, với một đợt nổi bật dài cường độ thấp cĩ khả năng chứa một số đợt nổi bật cường độ cao hơn bên trong (đệ quy). Đối với một thư mục gồm các e-mail cĩ liên quan, cĩ thể phân rã theo trật tự thời gian, với các tập dài hạn phân rã thành những tập ngắn gọn hơn theo cấu trúc cây tự nhiên. Do đĩ, cây này cĩ thể được xem như là một một cấu trúc tổ chức các tập con trên luồng thơng điệp. Cĩ thể xem thêm các lý thuyết tốn học về automaton ở cơng trình [30]. Ý tưởng thuật tốn Kleinberg trong việc phát hiện sự nổi bật. Thuật tốn xác định các khoảng thời gian khi một sự kiện “mục tiêu” (target) thường xuyên xuất hiện một cách bất thường, hay cịn gọi là “nổi bật”. Thuật tốn cĩ thể được sử dụng để phát hiện các sự nổi bật trong một chuỗi sự kiện liên tục. Cĩ một tập hợp các sự kiện, bao gồm cả các sự kiện “mục tiêu” và khơng phải “mục tiêu” (non-target), được quan sát tại mỗi thời điểm t. Nếu chúng ta xem xét ví dụ về các bài viết, thì các sự kiện “mục tiêu” cĩ thể bao gồm các bài viết cĩ một từ khĩa “mục tiêu” được nhắm đến và các sự kiện khơng phải mục tiêu cĩ thể bao gồm tất cả các bài viết khác khơng bao gồm từ khĩa “mục tiêu” đĩ. Cho: là tổng số sự kiện tại mỗi thời điểm; là tổng số sự kiện đích; Tỷ lệ các sự kiện mục tiêu tại mỗi thời điểm được tính theo cơng thức (2.1): = ⁄ (2.1) Để phát hiện sự nổi bật, các trạng thái khác nhau được giả định tương ứng với các xác suất khác nhau của các sự kiện “mục tiêu”. Một trạng thái cĩ thể cĩ xác suất mục tiêu cao, thấp hoặc trung bình. Nếu giả định rằng chỉ cĩ hai trạng thái cĩ thể xảy ra, thì chúng ta cĩ thể coi trạng thái cĩ xác suất thấp hơn là trạng thái cơ bản và trạng thái cĩ xác suất cao hơn là trạng thái nổi bật. Xác suất cơ sở 0 bằng tỷ lệ tổng thể của các sự kiện “mục tiêu” (theo cơng thức (2.2)). 0 = ⁄ (2.2) trong đĩ r là tổng các sự kiện mục tiêu và d là tổng các sự kiện tại mỗi thời điểm. Xác suất trạng thái bùng nổ “bursty” p1 bằng xác suất cơ sở nhân với một số hằng số s cĩ thể được chọn khác nhau (theo cơng thức (2.3)). Nếu s lớn, xác suất các sự kiện “mục tiêu” cần phải cao để đạt trạng thái bùng nổ “bursty”. 1 = 푆 ∗ 0 (2.3)
  16. 11 Hình 2.1: Tỉ lệ của các sự kiện mục tiêu Hình 2.1 trình bày một ví dụ về tỷ lệ các sự kiện “mục tiêu”. Mục tiêu các sự kiện thường được mong đợi xảy ra với xác suất liên quan đến trạng thái của chúng. Tuy nhiên, tỷ lệ các sự kiện mục tiêu cĩ thể cao hơn hoặc thấp hơn dự kiến do biến số nhiễu (noise) ngẫu nhiên. Với tỷ lệ quan sát được của các sự kiện “mục tiêu”, thuật tốn phát hiện Burst sẽ cĩ thể xác định thời điểm hệ thống cĩ thể ở trạng thái cơ bản hoặc trạng thái nổi bật. Điều này phụ thuộc vào: - Mức độ phù hợp giữa tỷ lệ quan sát được và xác suất mong đợi của mỗi trạng thái. Hệ thống cĩ nhiều khả năng mang một trạng thái hơn nếu tỷ lệ quan sát được càng gần với xác suất mong đợi của trạng thái đĩ. Nĩ được ký hiệu là sigma, được định nghĩa theo cơng thức (2.4): 푡 푡 푡− 푡 (2.4) 휎(𝑖, 푡, 푡) = −⁡ln[( ) ( 푖 (1 − 푖) )] 푡 - Khĩ khăn khi chuyển đổi từ trạng thái trước sang trạng thái tiếp theo. Giữ nguyên trạng thái cũ hoặc trở lại trạng thái thấp hơn khơng tốn kém gì, do đĩ chi phí chuyển đổi, ký hiệu là 휏 = 0. Khi chuyển sang trạng thái cao hơn, phải mất chi phí, do đĩ, chi phí chuyển đổi được định nghĩa theo cơng thức (2.5): 휏 = (𝑖푛푒 푡 − 𝑖 푒푣 ∗ 훾 ∗ ln(푛)) (2.5) với n là số điểm thời gian; và gamma là độ khĩ trong việc chuyển đổi sang các trạng thái cao hơn (các giá trị gamma cao hơn làm cho việc chuyển đổi sang trạng thái bùng nổ hơn khĩ khăn hơn). Tổng chi phí chuyển đổi từ trạng thái này sang trạng thái khác bằng tổng của hai hàm (2.4) và (2.5). Với hàm chi phí, cĩ thể tính được chuỗi trạng thái q tối ưu để giảm thiểu tổng chi phí. Chuỗi trạng thái tối ưu này cĩ thể được tìm thấy với thuật tốn Viterbi bằng cách thực hiện một số bước đơn giản sau đây. Đầu tiên, thuật tốn bắt đầu với việc tính tốn chi phí ở mỗi trạng thái tại 푡⁡ = ⁡1 và chọn trạng thái cĩ chi phí tối thiểu. Sau đĩ, hệ thống sẽ tính tốn chi phí chuyển đổi từ trạng thái hiện tại ở 푡⁡ = ⁡1 sang từng trạng thái cĩ thể cĩ tại 푡⁡ = ⁡2, và lại chọn trạng thái cĩ chi
  17. 12 phí tối thiểu. Các bước này được lặp lại cho tất cả các mốc thời gian để cuối cùng cĩ được một chuỗi trạng thái mà hàm chi phí là nhỏ nhất. Dựa trên trình tự trạng thái, chúng ta biết khi nào hệ thống ở trạng thái tăng cao hoặc trạng thái nổi bật. Thuật tốn cĩ thể được thực hiện cho các sự kiện “mục tiêu” khác nhau để xây dựng khoảng thời gian về những sự kiện phổ biến theo thời gian. Cơng thức (2.6) cĩ thể được sử dụng để ước tính cường độ (hoặc trọng số/chỉ số độ quan trọng) của một sự nổi bật (bắt đầu tại thời điểm t1 và kết thúc tại thời điểm t2 và được gán nhãn 푡1 − 푡2): 푤푒𝑖𝑔ℎ푡 = 푠 푡2 (휎(0, , ) − 휎(1, , )) (2.6) 푡=푡1 푡 푡 푡 푡 Cơng thức này cho thấy chi phí phù hợp giảm bao nhiêu khi nhận được trạng thái nổi bật so với trạng thái cơ bản trong giai đoạn nổi bật. Chi phí phù hợp càng giảm, trọng số càng lớn và sự nổi bật càng mạnh. CHƯƠNG 3: GOM CỤM LUỒNG VĂN BẢN THEO NGỮ NGHĨA DỰA TRÊN ĐỒ THỊ TỪ 3.1 Phương pháp 3.1.1 Biểu diễn đặt trưng văn bản bằng phương pháp túi từ (BOW) Ví dụ về biểu diễn theo lối truyền thống. Giả sử cho tập văn bản ={ 1, 2, 3} gồm các văn bản: 1 = {푤1, 푤2, 푤3}, với 푤1 = , 푤2 = , 푤3 = 2 = {푤1, 푤2, 푤3, 푤4}, với 푤1 = , 푤2 = , 푤3 = , 푤4 = ; 3 = {푤1, 푤2, 푤3, 푤4, 푤5,, 푤6⁡}, với 푤1 = , 푤2 = , 푤3 = , 푤4 = , 푤5 = , 푤6 = ; Phương pháp BOW truyền thống biểu diễn các văn bản như trong Bảng 3.1. Bảng 3.1: Biểu diễn văn bản với BOW truyền thống Văn Chiều dài văn bản Chiều dài văn bản sau khi Biểu diễn a b C d bản ban đầu loại bỏ từ trùng véc tơ 1 1 1 1 0 3 3 [1,1,1,0] 2 1 1 1 1 4 4 [1,1,1,1] 3 2 1 2 1 6 4 [2,1,2,1] Ví dụ về sử dụng TF-IDF để biểu diễn. Với TF-IDF, các văn bản đã cho được biểu diễn như trong Bảng 3.2. Bảng 3.2: Biểu diễn văn bản với BOW và TF-IDF
  18. 13 Chiều dài Chiều dài Biểu diễn véc tơ Văn TF- TF- TF- TF- văn bản văn bản sau bản IDF(a) IDF(b) IDF(c) IDF(d) khi loại bỏ từ trùng 1 0 0 0 0 3 3 [0,0,0,0] 2 0 0 0 0,04 4 4 [0;0;0;0,04] 3 0 0 0 0,03 6 4 [0;0;0;0,03] 3.1.2 Biểu diễn văn bản bằng đồ thị từ (GOW) Kỹ thuật đồ thị hĩa văn bản Text2graph. Biểu diễn tài liệu văn bản (d) thành cấu trúc dựa trên đồ thị, được ký hiệu là: Gd ⁡= (Vd, Ed) với tập hợp các nút (Vd) và các cạnh (Ed) đại diện cho tập hợp các từ phân biệt, như W = {w1, w2 w|W|}. Các đồ thị cĩ thể cĩ hướng hoặc vơ hướng. Luận án sử dụng đồ thị vơ hướng và phương pháp biểu diễn mối quan hệ đồng xuất hiện của từng cặp từ trong văn bản làm nền tảng để biểu diễn văn bản. Đồ thị con phổ biến là đặc trưng cho tài liệu. Áp dụng kỹ thuật khai phá đồ thị con phổ biến (gSpan, FFSM ) để tìm tập đồ thị con phổ biến, được ký hiệu là: F = ′ ′ ′ ′ ′ ′ ′ ′ {G1, G2 G|F|}, trong đĩ mỗi đồ thị con phổ biến: Gf = (Vf, Ef), với Vf ∈ V và Ef ∈ E, được ′ xem là đặc trưng phân biệt cho các tài liệu đã cho cĩ chứa đồ thị con Gf. So với biểu diễn đặc trưng văn bản theo túi từ (BOW), việc sử dụng các GOW con phổ biến mang tính ngữ nghĩa hơn do khả năng nắm bắt các mối quan hệ đồng xuất hiện của các cặp từ (n-gram với n=1) được áp dụng vào mơ hình đề xuất. Biểu diễn tài liệu kết hợp BOW và GOW. Kết hợp với biểu diễn dựa trên BOW cổ điển, một tài liệu (d) bây giờ được phân rã thành bộ giá trị sau (như thể hiện trong cơng thức (3.1)): ⟨Wd: Nd|Fd⟩ (3.1) Với: Wd và Nd, là tập hợp các từ duy nhất trong tài liệu với tần số được biểu diễn dưới w dạng vectơ Nd, trong đĩ Nd là tần số xuất hiện của w cụ thể trong tài liệu đã cho hay w Nd = ∑w∈d Nd ; Fd là tập các đồ thị con phổ biến của . Đồ thị con phổ biến của mỗi tài liệu khơng trùng, tần suất là 1. 3.1.3 Gom cụm luồng văn bản dựa trên mơ hình hỗn hợp Gom cụm luồng văn bản với mơ hình hỗn hợp. Mỗi tài liệu dt chỉ được chọn với a một chủ đề phù hợp nhất zt, do đĩ cho hai chủ đề khác nhau, a và b với a ≠ b và zt = a a a b b b b a b {d1, d2 dn} và zt = {d1, d2 dn} (mỗi tài liệu dt , dt ∈ Dt) là tài liệu tương ứng của từng a b cụm, ta cĩ: zt ∩ zt = ∅. Chủ đề ở đây sẽ là phân bố của từ, tài liệu và đồ thị con phổ biến như trình bày ở phần phía sau biểu diễn chủ đề dựa trên GOW.
  19. 14 Quy trình Dirichlet & lược đồ Poly-Urn. Là quy trình phi tham số dùng để mơ hình hĩa dữ liệu, hỗ trợ để đưa ra một mẫu 풩 từ phân phối G với các phân phối nền G0⁡đã cho, được ký hiệu là: G~DP(α, G0) với α là siêu tham số tập trung để kiểm sốt sự phân phối của việc rút ra từng mẫu 풩. Để rút ra một mẫu tuần tự: {풩0, 풩1 풩푛} từ phân phối G, định lý lược đồ Poly-Urn được áp dụng như sau (như thể hiện trong cơng thức (3.2)): α ∑n−1 δ(풩 − 풩 ) (3.2) 풩 |풩 ~ + k=1 n k n 1:n−1 α + n − 1 α + n − 1 Trong đĩ: n là số lần rút ra từ phân phối , δ( ) là hàm chỉ thị, trong đĩ δ( ) = 1 khi = 0, ngược lại δ( ) = 0. Lặp lại n lần rút ra từ phân phối , chúng ta cĩ thể nhận một tập hợp 퐾 giá trị đặc biệt, trong đĩ 퐾 < 푛 để phân chia n lần rút ra 퐾 chủ đề. Các lần rút ra của phân phối G được biểu diễn bằng cách áp dụng Nguyên lý Nhà hàng Trung Hoa (CRP) và quá trình ∞ stick-breaking minh họa tính chất của phân phối G là: (풩) = ∑k=1 θ δ(풩푛 − ∞ 풩 ) 푣ớ𝑖⁡풩 ~풩0. Trọng số hỗn hợp θ θ = {θ }k=1 được xây dựng bằng cơng thức phân phối GEM (Griffiths, Engen và McCloskey) của DP là: θ~GEM(α). Sau đĩ, cấu trúc stick- breaking được áp dụng cho quá trình tạo ra mơ hình DPMM như sau (như thể hiện trong cơng thức (3.3)): θ|α~GEM(α) (3.3) 풩k|β~Dirichlet(β), k → ∞⁡ zd|θ~Mult(θ), k → ∞⁡ { }∞ d|zd, 풩k k=1~prob(d|풩zd) Trong đĩ: z đại diện cho cụm sinh ra tài liệu (d), prob(d|풩zd ) là xác suất phân phối mà một tài liệu nhất định (d) được sinh ra bởi một cụm z, được định nghĩa là: ∏ prob(d|풩zd) = w∈d Mult(w| 풩zd ). Hình 3.1: Mơ hình sinh của GOW-Stream Hình 3.2: Mơ hình sinh của MStream Từ cơng thức (3.3) đã cho, Bayes giả định là việc tạo ra các từ (Wd) trong mỗi tài liệu ( ) là độc lập với một chủ đề z đã biết mà ( ) được gán. Sau đĩ, việc rút ra các mẫu liên tiếp cĩ thể được thực hiện bằng CRP. Phương pháp này giả định rằng xác suất phân phối của các từ trong mỗi tài liệu được đánh giá một cách độc lập mà khơng cần xem xét vị trí của chúng cũng như các mối quan hệ đồng xuất hiện. Hình 3.1 là mơ hình biểu diễn đặc trưng dạng đồ thị của GOW-Stream hay cịn gọi là mơ hình sinh của GOW-Stream. Mơ hình GOW-Stream được cải tiến từ mơ hình MStream (Hình 3.2) Mơ hình GOW-Stream
  20. 15 Biểu diễn chủ đề dựa trên GOW Véc tơ chủ đề được cấu trúc như sau (như cơng thức (3.4)): ⃗⃗⃗ (3.4) 〈퐟퐳: 퐟퐳, nz: n⃗⃗⃗⃗z , mz〉 ⃗⃗ Trong đĩ: fz: fz, biểu thị cho số lượng GOW con phổ biến được rút trích, được gán cho chủ đề z và tần số xuất hiện tương ứng của chúng; nz: n⃗⃗⃗⃗z , thể hiện số từ được gán cho chủ đề z và tần số xuất hiện tương ứng của chúng; mz, là số lượng tài liệu được gán cho chủ đề z. Biểu diễn vector chủ đề này cĩ các thuộc tính bao gồm: cĩ thể thêm vào và cĩ thể bỏ ra, được mơ tả như sau (như thể hiện trong cơng thức (3.5)-a và (3.5)-b): 퐠 퐠 퐠 퐟퐳 = 퐟퐳 + 퐅퐝 , ∀퐠 ∈ 퐝 퐟퐳 = 퐟퐳 + 퐅퐝 w w w (3.5) nz = nz + Nd , ∀w ∈ d (a) nz = nz + Nd mz = mz + 1 퐠 퐠 퐠 퐟퐳 = 퐟퐳 − 퐅퐝 , ∀퐠 ∈ 퐝 퐟퐳 = 퐟퐳 − 퐅퐝 w w w nz = nz − Nd , ∀w ∈ d (b) nz = nz − Nd mz = mz − 1 g w Trong đĩ: fz và nz , lần lượt là tần số của đồ thị con phổ biến 𝑔 và tần số từ w trong g chủ đề ; Fd là số lần xuất hiện của đồ thị con phổ biến g trong tài liệu . Mỗi đồ thị con g w phổ biến 𝑔 chỉ xuất hiện một lần trong mỗi tài liệu, do đĩ giá trị của Fd luơn là 1; Nd là số lần xuất hiện của từ w trong tài liệu ; Fd và Nd, lần lượt là số đồ thị con phổ biến và số lượng từ trong tài liệu đã cho . Suy diễn chủ đề trong mơ hình GOW-Stream Dùng kỹ thuật suy luận cụm động chủ yếu dựa trên DPMM[70] để đạt được xác suất ⃗ ⃗⃗ tài liệu chọn một chủ đề hiện cĩ , được ký hiệu là: prob(zd = z|z ¬d, d, α, β). Với d là các tài liệu từ luồng dưới dạng vectơ và z⃗ là tập các chủ đề được ghi lại, xác suất được tính theo tỷ lệ như sau (như thể hiện trong cơng thức (3.6)): ⃗ ⃗ (3.6) prob(zd = z|z ¬d, d, α, β) ∝ prob(zd = z|z ¬d, α). prob(d|zd = z, dz,¬d, β) Trong đĩ, z ¬d, là tập hợp các chủ đề được ghi lại khơng chứa tài liệu được cho ; ⃗ dz,¬d, là tập hợp các tài liệu được gán cho chủ đề và khơng chứa tài liệu đã cho . Thêm tài liệu vào một chủ đề hiện cĩ. Như đã cho trong cơng thức (3.6), phần đầu tiên của cơng thức này: prob(zd = z|z ¬d, α) cho biết xác suất tài liệu (d) chọn một chủ đề (z) sau khi được đưa ra chủ đề gán cho các tài liệu khác ngoại trừ tài liệu hiện tại (d). Để đạt được phân phối xác suất của phần đầu tiên, luận án áp dụng các kỹ thuật suy luận của các mơ hình chủ đề dựa trên DP cổ điển. Phần đầu tiên của cơng thức (3.6) được tính như sau (xem cơng thức (3.7)):
  21. 16 m prob(z = z|z , α) ∝ z,¬d (3.7) d ¬d D − 1 + αD Trong đĩ, D là số lượng tài liệu tổng thể trong lơ phát trực tuyến hiện tại; mz,¬d là số tài liệu trong chủ đề hiện tại (z), ngoại trừ tài liệu (d). Hình 3.3: Lưu đồ thuật tốn GOW-Stream ⃗ Đối với phần thứ hai của cơng thức (3.6): prob(d|zd = z, dz,¬d, β), phần này xem xét sự liên quan giữa đồ thị con phổ biến (g) và các từ (w) trong một chủ đề nhất định (z) và tài liệu (d) cĩ thể được suy ra thêm như sau (xem cơng thức (3.8)): 퐠 w 퐅 Nd w 퐝 퐠 (3.8) ∏w∈d ∏j=1(nz,¬d + β + j − 1) ∏퐠∈퐝 ∏퐣= (퐟퐳,¬퐝 + 훃 + 퐣 − ) prob(d|z = z, d⃗ , β) = + d z,¬d Nd 퐅퐝 ∏i=1(nz,¬d + Wβ + i − 1) ∏퐢= (퐧퐳,¬퐝 + 퐅훃 + 퐢 − ) Trong đĩ, W và F là đại diện cho các tập hợp các từ xuất hiện và các đồ thị con phổ w g biến trong các bộ sưu tập tài liệu hiện tại (D); nz,¬d và fz,¬d là số lượng từ xuất hiện và GOW con phổ biến trong chủ đề (z) được cho, khơng chứa tài liệu được cho (d). Thêm tài liệu vào một chủ đề mới. Đối với phương pháp suy luận chủ đề động dựa trên DPMM trong trường hợp số lượng chủ đề là vơ hạn, nên áp dụng phép biến đổi θ~GEM(α) thành θ~GEM(αD). Do đĩ, xác suất của một chủ đề mới (K + 1), với K là số chủ đề hiện tại, được tạo cho một tài liệu được cho (d) được thay đổi bằng cách sửa đổi của phần đầu tiên (cơng thức (3.9) tại mục (a)) và phần thứ hai (cơng thức (3.9) tại mục (b)) của cơng thức (3.6) như sau: 훼 (3.9) prob(z = z|z , α) ∝ d ¬d D − 1 + αD (a) w g Nd Fd (b) ∏w∈d ∏j=1(β + j − 1) ∏g∈d ∏j=1(β + j − 1) prob(d|z = K + 1, d⃗ , β) = + d z,¬d Nd Fd ∏i=1(Wβ + i − 1) ∏i=1(Fβ + i − 1)
  22. 17 Trong đĩ, K là số chủ đề hiện tại đã được khám phá từ luồng văn bản nhất định; αD và β là số giả (pseudo) của tài liệu và số lần xuất hiện của mỗi từ và các đồ thị con phổ biến trong chủ đề mới được tạo thứ (K + 1). Hình 3.3 trình bày lưu đồ thuật tốn. 3.2 Thực nghiệm và bàn luận Tập dữ liệu và chỉ số đánh giá. Sử dụng hai tập dữ liệu chuẩn được gán nhãn trong thế giới thực: Google-News (GN); Tweets (Tw); Tập dữ liệu tổng hợp (GN-T, Tw-T). Sử dụng hai độ đo đánh giá chính là NMI và F1. So sánh với ba thuật tốn gom cụm luồng văn bản hiện đại: DTM (tiếp cận mơ hình chủ đề động, “số lượng chủ đề cố định”), Sumblr (tiếp cận dựa trên độ tương đồng gom cụm văn bản cĩ độ dài ngắn, “số lượng chủ đề cố định”) và MStream (mơ hình hỗn hợp, gom cụm văn bản cĩ độ dài ngắn, đánh giá độc lập với từ, bỏ qua các mối quan hệ giữa các từ). Thực nghiệm thiết lập mặc định của từng mơ hình. Số lần lặp lại cho mỗi lơ tài liệu đến đều được định cấu hình là 10, mỗi tập dữ liệu nhất định được chia thành 16 lơ tài liệu khác nhau, mỗi lơ tài liệu được chạy 10 thử nghiệm độc lập cho mỗi mơ hình và báo cáo kết quả trung bình. Kết quả thực nghiệm và bàn luận. Nhiệm vụ gom cụm trên luồng văn bản. Thử nghiệm nhiệm vụ gom cụm văn bản với cả hai tập dữ liệu 10 lần cho mỗi mơ hình và báo cáo kết quả trung bình với độ lệch chuẩn, dùng độ đo NMI và F1. Nhìn chung, GOW- Stream được đề xuất luơn đạt được độ chính xác cao hơn. Tốc độ của mơ hình. Phần này thực hiện 2 thử nghiệm. Với thử nghiệm về xử lý suy luận chủ đề (khơng xét quá trình biểu diễn đặc trưng văn bản và tìm đồ thị con phổ biến) đã chứng minh rằng sự kết hợp giữa đánh giá từ độc lập và đánh giá đồ thị con phổ biến trong khi suy ra các chủ đề từ các luồng văn bản cĩ tốc độ nhanh hơn. Với thử nghiệm cả quá trình tổng thể, mơ hình GOW-Stream chậm hơn Mstream do tốn nhiều chi phí hơn cho quá trình tìm đồ thị con phổ biến. Độ ổn định của mơ hình. Kết quả thử nghiệm chứng minh rằng mơ hình đề xuất này đạt được sự cân bằng về độ chính xác của kết quả trong phạm vi 7-10 lần lặp cho mỗi lơ tài liệu, đáp ứng sự ổn định về độ chính xác của kết quả khá nhanh. Độ nhạy của siêu tham số đối với mơ hình. Kết quả thực nghiệm cho thấy rằng mơ hình GOW-Stream đạt được hiệu suất ổn định về độ chính xác với các giá trị khác nhau của cả siêu tham số 훼 và 훽, chứng minh được tính hiệu quả cũng như tính ổn định của mơ hình.
  23. 18 CHƯƠNG 4: PHÁT HIỆN CỤM TỪ XU THẾ TRÊN LUỒNG VĂN BẢN 4.1 Phương pháp Giới thiệu Dựa trên ý tưởng của Kleinberg, nghiên cứu đề xuất phương pháp tìm cụm từ xu thế trên luồng dữ liệu văn bản và cài đặt tính năng tìm các xu hướng thời sự và theo dõi sự phát triển của các chủ đề theo thời gian cho hệ thống TKES (Trendy Keyword Extraction System), một hệ thống mới mà luận án đề xuất sử dụng kỹ thuật phát hiện sự nổi bật (Burst) để phát hiện các cụm từ xu thế (trendy words) trên luồng văn bản. Bên cạnh đĩ, hệ thống TKES cũng đề xuất thuật tốn xếp hạng sự nổi bật để từ đĩ cĩ thể tìm ra các sự nổi bật tiêu biểu (trendy bursts) hàng đầu của từ khĩa. Mơ hình hĩa sự nổi bật trên luồng văn bản của Kleinberg. Giả sử cĩ một luồng văn bản ví dụ như một thư mục e-mail lớn về một chủ đề rộng duy nhất. Xác định sự nổi bật như thế nào và giúp ích gì trong việc cấu trúc luồng văn bản này? Cách tiếp cận của Kleinberg là lập mơ hình luồng bằng cách sử dụng automát 풜 ở trạng thái khơng xác định, tại bất kỳ thời điểm nào cĩ thể ở một trong các trạng thái cơ bản và phát ra các thơng điệp ở các tốc độ khác nhau tùy thuộc vào trạng thái của mơ hình. Cụ thể, automát 풜 cĩ một tập hợp các trạng thái tương ứng với tốc độ phát ngày càng nhanh và khởi điểm của một sự nổi bật được báo hiệu bởi một sự chuyển đổi trạng thái - từ trạng thái thấp hơn sang trạng thái cao hơn. Bằng cách ấn định chi phí cho việc chuyển đổi trạng thái, cĩ thể kiểm sốt được tần số của các chuyển đổi đĩ, ngăn chặn các đợt nổi bật ngắn và giúp dễ dàng xác định các đợt nổi bật dài hơn dù cho tốc độ của luồng cĩ thay đổi. Khung tổng thể của thuật tốn Kleinberg được đề xuất dựa trên các phương pháp Markov được sử dụng trong việc mơ hình hĩa sự nổi bật trong lưu lượng truy cập mạng, và các mơ hình Markov ẩn. Hệ thống TKES. Bao gồm ba mơ-đun chính: Bộ thu thập dữ liệu, Bộ xử lý dữ liệu (với 2 bước chính: Tiền xử lý và Xử lý) và Bộ hiển thị dữ liệu. Kiến trúc của hệ thống như sau, đầu tiên dữ liệu được thu thập bởi bộ thu thập thơng tin và được chuyển đến bộ xử lý. Ở đây, dữ liệu được tổ chức theo cấu trúc cây. Tiếp theo, bộ xử lý thực hiện hai nhĩm thuật tốn chính: nhĩm đầu tiên bao gồm các thuật tốn xử lý văn bản, bao gồm tách từ trong văn bản tiếng Việt, loại bỏ từ dừng. Nhĩm thuật tốn này chịu trách nhiệm xử lý, tính tốn và lưu trữ kết quả. Nhĩm thứ hai bao gồm các thuật tốn làm hết hạn dữ liệu đã lỗi thời, loại bỏ các từ dừng khỏi hệ thống, sử dụng cửa sổ trượt thời gian, bao gồm một số thuật tốn như Wjoin, PWJoin, vv Cuối cùng, bộ hiển thị trực quan dữ liệu tương tác với người dùng thơng qua giao diện trực quan và cho phép người dùng xem, sắp xếp và lưu dữ liệu kết quả theo yêu cầu của họ.
  24. 19 Trong hệ thống TKES, dữ liệu văn bản đến liên tục hàng ngày được thu thập, xử lý và sau đĩ cĩ thể được được lưu trữ, kết xuất thành các kho ngữ liệu văn bản. Hệ thống xác định một đối tượng được gọi là Bài viết (Tiêu đề, Tác giả, Mơ tả, Nội dung) đại diện cho mỗi bài viết trong luồng văn bản. Các bài viết được nhĩm theo Ngày, Hạng mục nên mỗi Chuyên mục cĩ n Bài viết. Hệ thống sử dụng cấu trúc cây để lưu dữ liệu đến (cũng cĩ thể sử dụng bộ nhớ ngồi nếu cần), sau đĩ thực hiện một số hoạt động tiền xử lý bao gồm phân đoạn văn bản, dừng loại bỏ từ dừng/hư từ. Để phát hiện các cụm từ bùng phát, hệ thống trước tiên thực hiện tính tốn tầm quan trọng của từ khĩa sử dụng kỹ thuật TF-IDF, tìm các từ khĩa tương đồng. Kết quả theo yêu cầu của người dùng cĩ thể được hiển thị trực quan sử dụng đồ thị.Hình 4.1 mơ tả trình tự thực hiện xử lý tìm cụm từ xu thế, từ dữ liệu đầu vào là các bài báo đã qua xử lý và tập từ khĩa được rút trích từ dữ liệu đầu vào này, hệ thống tính tốn dựa trên nhãn thời gian của chúng. Sự nổi bật được xem là khoảng thời gian mà từ khĩa xuất hiện liên tục, đơn vị thời gian được xét ở đây là đơn vị ngày. Hình 4.1: Trình tự xử lý Rút trích cụm từ xu thế Hình 4.2 mơ tả cấu trúc lưu trữ để tính tốn các sự nổi bật. Từ các từ khĩa được rút trích, nghiên cứu này sử dụng kỹ thuật phát hiện sự nổi bật của từ khĩa để giải quyết bài tốn đặt ra. Hình 4.2: Cấu trúc lưu trữ dùng để phát hiện sự nổi bật Mơ tả thuật tốn Lấy ý tưởng từ thuật tốn của Kleinberg [30], nghiên cứu đề xuất một phương pháp phù hợp để xử lý phát hiện sự nổi bật nhằm giải quyết bài tốn đặt ra. Phương pháp này phát hiện sự nổi bật dựa trên thuật tốn Kleinberg, thực hiện tính tốn trọng số từ khĩa KeywordWeight (tổng tần số của tất cả các lần xuất hiện của một từ khĩa trong một sự nổi bật). Trọng số này phục vụ cho việc phát hiện các sự nổi bật tiêu biểu của từ khĩa (cĩ trọng số xuất hiện của từ khĩa cao) cũng như chọn ra được danh sách các từ khĩa nổi bật tiêu biểu hàng đầu (trendy keywords).
  25. 20 4.2 Thực nghiệm và bàn luận Tính năng phát hiện sự nổi bật của một từ khĩa Luận án thực hiện thử nghiệm trên dữ liệu là các bài báo được hệ thống thu thập từ các trang Tin tức trực tuyến trong 1 năm với tổng số gần 80.000 bài viết. Thuật tốn dựa trên ý tưởng của Kleinberg được sử dụng để phát hiện các Burst trong tập dữ liệu. Thời gian được quy ước là liên tục theo đơn vị ngày. Thử nghiệm thực hiện tìm mức độ liên tục của một sự kiện (một từ khĩa xuất hiện trong một bài báo tại một thời điểm). Cĩ nghĩa là, đối với một từ w nhất định, hệ thống tìm xem w cĩ thu hút được sự chú ý hay khơng trong dịng văn bản bằng cách: 1. Chọn các bài báo cĩ từ 푤. 2. Sắp xếp các mục này theo thứ tự ngày. 3. Áp dụng thuật tốn cho các mục này. 4. Xuất kết quả, bài báo ở trạng thái Burst, trọng số bùng phát (nếu cần). Bảng 4.5 thể hiện kết quả về các khoảng thời gian nổi bật từ khĩa “Facebook”. Mỗi sự nổi bật Burst (BurstID, Start, End, Burst weight) được phân biệt bởi một mã số phân biệt (BurstID) được tính từ 1, thời gian bắt đầu, thời gian kết thúc và trọng số của Burst cho biết chỉ số về mức độ quan tâm của người dùng đối với từ khĩa này. Trọng số Burst của từ khĩa được tính bằng cách tổng tất cả các giá trị tần suất từ khĩa trong một Burst. Vì vậy, trọng số càng cao thì mức độ quan tâm đối với từ khĩa càng cao. Bảng 4.1: Các sự nổi bật của từ khĩa “Facebook” Từ khĩa Mã số Burst Bắt đầu Kết thúc Trọng số nổi bật Facebook 1 03-21-2018 03-24-2018 46 Facebook 2 03-26-2018 03-29-2018 22 Facebook 3 04-03-2018 04-04-2018 78 Facebook 4 04-06-2018 04-08-2018 69 Bảng 4.1 phát hiện từ khĩa “Facebook” đã xuất hiện trong các bài báo từ ngày 21 tháng 03 đến ngày 08 tháng 04, năm 2019. Cĩ thể thấy rằng “Facebook” trở nên phổ biến nhất trong 02 ngày từ 03 tháng 04 đến 04 tháng 04. Sau đĩ, mọi người tiếp tục nhắc đến Facebook từ ngày 06 đến ngày 08 tháng 04. Do đĩ, phát hiện sự nổi bật cĩ thể giúp người dùng theo dõi xu hướng, độ “nĩng” của các từ khĩa. Như chúng ta đã biết, lý do tại sao “Facebook” trở nên được quan tâm với tần số cao trong các giai đoạn trên là do vụ việc rị rỉ thơng tin người dùng liên quan đến cuộc bầu cử Tổng thống Trump tại Hoa Kỳ. Hệ thống được xây dựng cũng hỗ trợ người dùng xem kết quả một cách trực quan (như được thấy trong Hình 4.3).
  26. 21 Hình 4.3: Phát hiện sự nổi bật đối với từ khĩa “Facebook” Lựa chọn các từ thu hút sự chú ý trong một khoảng thời gian Mục tiêu của thử nghiệm này là chọn các từ khĩa tượng trưng, tiêu biểu cho những gì xảy ra trong một khoảng thời gian trong luồng tài liệu. Danh sách các từ được lập bằng cách: 1. Chọn các bài viết bao gồm từ w và tìm xem cĩ sự nổi bật của từ khĩa này hay khơng. Nếu cĩ nhiều sự nổi bật, chọn sự nổi bật cĩ trọng số lớn nhất. 2. Nếu cĩ một sự nổi bật, lưu từ và khoảng thời gian nổi bật của từ. 3. Rút trích tất cả các từ liên quan của các bài báo xuất hiện trong khoảng thời gian nổi bật vừa xác định. 4. Sắp xếp theo trọng số, chọn top-n và xuất kết quả. Bảng 4.2 trình bày top-5 từ khĩa trong giai đoạn bùng phát 03-04-2018 đến 04-04- 2018 xếp theo giá trị trọng số từ cao tới thấp. Bảng 4.2: Xác định danh sách từ xu thế chung với từ khĩa “Facebook” Từ khĩa Giai đoạn nổi bật Trọng số Cấm 04/03/2018 - 04/04/2018 101,9 Lưu_trữ 04/03/2018 - 04/04/2018 89,4 Quản_trị 04/03/2018 - 04/04/2018 88 Nhà_tù 04/03/2018 - 04/04/2018 52,2 Chính_phủ 04/03/2018 - 04/04/2018 31,6 Thực nghiệm và bàn luận về các giải thuật Đo thời gian xử lý của bộ thu thập dữ liệu. Kết quả thực nghiệm chứng minh rằng hệ thống thu thập các bài viết trong khoảng thời gian ngắn. Đo thời gian xử lý thêm dữ liệu vào cơ sở dữ liệu đồ thị. Kết quả cho thấy việc thêm dữ liệu vào cơ sở dữ liệu đồ thị mất rất ít thời gian, chỉ trong khoảng một phút.
  27. 22 Đo thời gian xử lý của bộ xử lý dữ liệu. Kết quả cho thấy bộ xử lý dữ liệu tiêu tốn thời gian nhất. Mất khoảng 20 phút, 2 giờ và 8 giờ để xử lý dữ liệu hàng ngày, hàng tuần và hàng tháng. So sánh thời gian xử lý trên dữ liệu cĩ số lượng và kích thước khác nhau. Kết quả cho thấy số lượng bài viết là lý do chính của vấn đề tốn thời gian. Dựa trên kết quả này, hệ thống cĩ cơ hội được cải thiện về tốc độ đối với bộ xử lý thơng qua việc thực hiện các nghiên cứu sâu hơn cĩ liên quan. So sánh dữ liệu kết quả chạy các phiên bản TF-IDF khác nhau. Kết quả cho thấy rằng nhiều từ khĩa cĩ cùng giá trị trọng số tần số, do đĩ việc sắp xếp và lọc khi chọn từ khĩa hàng đầu tạo ra sự khác biệt giữa các kết quả đầu ra. Nhiều từ khĩa cĩ cùng tần số là do việc làm trịn các giá trị tần số của chúng. Vì vậy, chúng ta cần phải cẩn thận khi làm trịn các giá trị này và cần thiết lập tiêu chí rõ ràng để chọn các từ khĩa cĩ cùng tần số. Tính tốn thời gian huấn luyện mơ hình tìm từ khĩa tương đồng. Thực nghiệm tính tốn thời gian xử lý dựa trên 3 hoạt động chính bao gồm hoạt động huấn luyện mơ hình, hoạt động tìm kiếm từ liên quan và huấn luyện mơ hình đáp ứng thực tế. Với hoạt động huấn luyện mơ hình, Kết quả cho thấy mơ hình huấn luyện bổ sung ít tốn thời gian hơn so với huấn luyện mới mơ hình mới. Tính tốn thời gian tìm từ liên quan. Kết quả cho thấy thời gian xử lý tìm kiếm từ khĩa liên quan phụ thuộc vào số lượng từ khĩa. Càng nhiều từ khĩa, càng mất nhiều thời gian để xử lý. Tính tốn thời gian rút trích các cụm từ xu thế. Kết quả cho thấy mối tương quan giữa số lượng bài báo được thu thập mỗi ngày và thời gian xử lý phát hiện sự nổi bật. Nĩi chung, thời gian xử lý tỷ lệ thuận với số lượng bài báo. Do đĩ, khi số lượng từ khĩa xuất hiện tăng theo thời gian, việc tính tốn phát hiện Burst mất nhiều thời gian hơn. Do đĩ, các giải pháp lưu trữ hoặc hết hạn dữ liệu trong quá khứ cần được thực hiện trong tương lai gần để tối ưu hĩa thời gian xử lý của hệ thống. Các tập dữ liệu của hệ thống. Hệ thống cho phép kết xuất và thay đổi định dạng của các tập dữ liệu văn bản theo nhu cầu nghiên cứu. CHƯƠNG 5: KẾT LUẬN & HƯỚNG PHÁT TRIỂN 5.1 Các kết quả đạt được, hạn chế và hướng phát triển Phần nghiên cứu tổng quan của luận án đã: Lược sử các cơng trình liên quan đến hướng nghiên cứu của đề tài và các bài tốn đặt ra từ đĩ giúp mang lại cái nhìn tổng thể đối với vấn đề đang nghiên cứu; Tìm hiểu các kỹ thuật nền tảng của vấn đề nghiên cứu; Phân tích điểm mạnh yếu của các nghiên cứu liên quan từ đĩ quyết định bài tốn và các phương án giải quyết; So sánh các giải pháp hiện cĩ sử dụng cùng cách tiếp cận từ đĩ tìm
  28. 23 ra ưu điểm và hạn chế của từng giải pháp; Cập nhật liên tục cho đến thời điểm hiện tại các nghiên cứu liên quan từ đĩ thấy được sự phát triển liên tục của hướng nghiên cứu; Hoạt động của các nhĩm nghiên cứu đầu ngành, các chuyên gia nổi tiếng trong cộng đồng nghiên cứu thuộc lĩnh vực nghiên cứu liên quan được theo dõi và nêu rõ. Cĩ thể nĩi, bài tốn 1 cũng là bài tốn chính của luận án và đã thể hiện được những đĩng gĩp quan trọng, cụ thể như sau: Đề xuất một cách tiếp cận mới về gom cụm luồng văn bản dựa trên mơ hình hỗn hợp, áp dụng đánh giá đồ thị từ (GOW) xuất hiện trong tập ngữ liệu văn bản đã cho; Thực hiện đánh giá các mối quan hệ từ trong khi suy ra các cụm; Đề xuất một cách tiếp cận áp dụng văn bản n-gram vào đồ thị hĩa văn bản (text2graph) với kỹ thuật khai phá đồ thị con phổ biến (FSM) để rút trích các đồ thị con phổ biến từ kho ngữ liệu văn bản đã cho; Sử dụng kỹ thuật rút trích đồ thị con phổ biến trong mỗi tài liệu văn bản để hỗ trợ quá trình ước tính phân phối của các chủ đề trên tài liệu; Xử lý hiệu quả tác vụ gom cụm luồng văn bản ngắn bằng cách kết hợp cả đánh giá từ độc lập (các từ riêng biệt trong mỗi tài liệu) và từ phụ thuộc (các từ cùng xuất hiện trong các đồ thị con phổ biến); Kết hợp đánh giá dựa trên các đồ thị con phổ biến và đánh giá từ một cách độc lập trong quá trình suy luận chủ đề của mơ hình hỗn hợp quy trình Dirichlet (DPMM) để nâng cao kết quả gom cụm văn bản từ luồng dữ liệu; Giải quyết các thách thức liên quan đến sự thay đổi chủ đề tự nhiên của luồng văn bản và cịn cải thiện được độ chính xác và và thời gian xử lý gom cụm so với các mơ hình dựa trên đánh giá độc lập từ trước đĩ khi so sánh hiệu quả của GOW-Stream với các thuật tốn hiện đại gần đây, như: DTM, Sumblr và Mstream. Điểm mạnh của GOW-Stream là cĩ hiệu suất tốt hơn các thuật tốn hiện đại được cơng bố gần đây như: DTM, Sumblr và Mstream. GOW-Stream, cĩ thời gian xử lý gom cụm tốt, tuy nhiên phải tốn thời gian hơn cho quá trình đồ thị hĩa văn bản và tìm đồ thị con phổ biến. Hướng phát triển được đề nghị là: xem xét tối ưu hĩa mơ hình như biểu diễn văn bản bằng các dạng đồ thị phức tạp hơn, áp dụng một số cách biểu diễn đặc trưng mới như xem xét thêm ngữ nghĩa về thời gian, lấy kết quả từ nghiên cứu phát hiện cụm từ xu thế vào cải tiến biểu diễn đặc trưng văn bản; Xem xét các phương pháp khác để biểu diễn mối quan hệ của từ trong văn bản; Xem xét mở rộng việc triển khai mơ hình GOW-Stream trên mơi trường xử lý phân tán chủ yếu được thiết kế để xử lý luồng dữ liệu dạng văn bản quy mơ lớn và tốc độ cao, chẳng hạn như Apache Spark Streaming. Ngồi ra, mơ hình đề xuất cĩ thể được sử dụng để cải thiện hiệu suất của các ứng dụng khai thác văn bản khác, chẳng hạn như phân định từ ngữ (word sense disambiguation) [57], khai thác bình luận [72] và các nhiệm vụ theo chuỗi thời gian [23]. Hơn thế nữa, nhiều nghiên cứu gần đây cũng áp dụng hiệu quả học sâu (deep learning) vào cải thiện kết quả gom cụm như [2, 11, 27, 28,
  29. 24 47, 59, 63, 68], [13, 15, 20, 21, 26, 29, 39, 40, 48, 52, 54, 55, 61, 62, 65, 66]. Thiết nghĩ đây cũng là một hướng phát triển cho luận án. Bài tốn thứ 2 đề xuất hệ thống TKES với đĩng gĩp chính là đề xuất thuật tốn phát hiện các sự nổi bật của từ khĩa dựa trên thuật tốn Kleinberg, một thuật tốn đã được chứng minh tính hiệu quả và đã được tin tưởng ứng dụng vào nhiều lĩnh vực. Cụ thể nghiên cứu đã đề xuất thuật tốn phát hiện sự nổi bật, các cụm từ xu thế, các sự nổi bật tiêu biểu. Để xây dựng hệ thống TKES, luận án cũng sử dụng TF-IDF để tìm từ khĩa, sử dụng mạng Nơ ron để huấn luyện mơ hình tìm tập từ khĩa tương đồng, sử dụng mơ hình Skip-gram, các độ đo so sánh độ tương đồng như Cosine, Euclidean, Manhattan, Minkowski, Jaccard, các kỹ thuật tiền xử lý dữ liệu văn bản tiếng Việt. Các kết quả thực nghiệm của nghiên cứu bao gồm: tính tốn thời gian xử lý, so sánh thời gian xử lý giữa các giải pháp và giữa các tập dữ liệu khác nhau; Thu thập các tập dữ liệu nguồn và kết xuất kết quả thành các tập dữ liệu phục vụ cho các nghiên cứu liên quan. Hướng phát triển được đề xuất như sau: Nghiên cứu, cấu trúc lại các tập dữ liệu theo dạng chuẩn chung để cơng bố; Hồn thiện đáp ứng yêu cầu người dùng vào nhiều nền tảng khác nhau như Smart phone, Web để cĩ thể đáp ứng triển khai thực tiễn; Sử dụng kết quả nghiên cứu phát hiện cụm từ xu thế để nâng cao hiệu quả của mơ hình GOW-Stream trong việc nắm bắt thêm xu hướng của các từ trong văn bản đến từ luồng khi thực hiện gom cụm. 5.2 Ý nghĩa học thuật và thực tiễn của luận án Về học thuật, luận án đã đề xuất được mơ hình mới. Mơ hình GOW-Stream thể hiện được tính ưu việt khi so sánh với các thuật tốn hiện đại gần đây. Hệ thống TKES cũng cĩ đĩng gĩp mới là đề xuất thuật tốn phát hiện các cụm từ xu thế và cĩ tiềm năng ứng dụng vào việc tối ưu hĩa mơ hình GOW-Stream đã đề xuất. Các cơng trình nghiên cứu trong luận án gồm 04 bài báo hội nghị quốc tế (Springer/ACM) và 02 bài báo tạp chí quốc tế (01 bài thuộc Scopus-Q3 và 01 bài thuộc SCIE-Q3). Về thực tiễn, các mơ hình, thuật tốn đề xuất đều cĩ thể ứng dụng trong nhiều lĩnh vực, hệ thống được xây dựng cĩ ý nghĩa thực tiễn cao, phục vụ nhu cầu khai phá thơng tin của đơng đảo người dùng trong thời đại cách mạng cơng nghiệp 4.0 như hiện nay.
  30. TÀI LIỆU THAM KHẢO 1. Agarwal Neha, Sikka Geeta, and Awasthi Lalit Kumar, Evaluation of web service clustering using Dirichlet Multinomial Mixture model based approach for Dimensionality Reduction in service representation. Information Processing & Management, 2020. 57(4): p. 102238. 2. Aljalbout Elie, et al., Clustering with deep learning: Taxonomy and new methods. arXiv preprint arXiv:1801.07648, 2018. 3. Amoualian Hesam, et al. Streaming-lda: A copula-based approach to modeling topic dependencies in document streams. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016. 4. Antonellis Panagiotis, et al., Efficient Algorithms for Clustering Data and Text Streams, in Encyclopedia of Information Science and Technology, Third Edition. 2015, IGI Global. p. 1767-1776. 5. Bakkum Douglas J, et al., Parameters for burst detection. Frontiers in computational neuroscience, 2014. 7: p. 193. 6. Bicalho Paulo, et al., A general framework to expand short text for topic modeling. Information Sciences, 2017. 393: p. 66-81. 7. Blei David M and Lafferty John D. Dynamic topic models. in Proceedings of the 23rd international conference on Machine learning. 2006. 8. Blei David M, Ng Andrew Y, and Jordan Michael I, Latent Dirichlet Allocation. Journal of machine Learning research, 2003. 3(Jan): p. 993-1022. 9. Cai Yanli and Sun Jian-Tao, Text Mining, in Encyclopedia of Database Systems, L. Liu and M.T. ƯZsu, Editors. 2009, Springer US: Boston, MA. p. 3061-3065. 10. Cami Bagher Rahimpour, Hassanpour Hamid, and Mashayekhi Hoda, User preferences modeling using dirichlet process mixture model for a content-based recommender system. Knowledge-Based Systems, 2019. 163: p. 644-655. 11. Chen Gang, Deep learning with nonparametric clustering. arXiv preprint arXiv:1501.03084, 2015. 12. Chen Junyang, Gong Zhiguo, and Liu Weiwen, A Dirichlet process biterm-based mixture model for short text stream clustering. Applied Intelligence, 2020: p. 1-11. 13. Curiskis Stephan A, et al., An evaluation of document clustering and topic modelling in two online social networks: Twitter and Reddit. Information Processing & Management, 2020. 57(2): p. 102034. 14. Du Nan, et al. Dirichlet-hawkes processes with applications to clustering continuous-time document streams. in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2015. 15. Duan Tiehang, et al. Sequential embedding induced text clustering, a non- parametric bayesian approach. in Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2019. Springer. 16. Erkan Günes and Radev Dragomir R, Lexrank: Graph-based lexical centrality as salience in text summarization. Journal of Artificial Intelligence Research, 2004. 22: p. 457-479. 17. Finegan-Dollak Catherine, et al. Effects of creativity and cluster tightness on short text clustering performance. in Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016.
  31. 18. Fisher David, et al., Evaluating ranking diversity and summarization in microblogs using hashtags. University of Massachusetts, Boston, MA, Technical Report, 2015. 19. Fung Gabriel Pui Cheong, et al. Parameter free bursty events detection in text streams. in Proceedings of the 31st international conference on Very large data bases. 2005. VLDB Endowment. 20. Guo Xifeng, et al. Improved deep embedded clustering with local structure preservation. in IJCAI. 2017. 21. Guo Xifeng, et al. Deep clustering with convolutional autoencoders. in International conference on neural information processing. 2017. Springer. 22. Heydari Atefeh, et al., Detection of review spam: A survey. Expert Systems with Applications, 2015. 42(7): p. 3634-3642. 23. Hu Jun and Zheng Wendong. Transformation-gated LSTM: Efficient capture of short-term mutation dependencies for multivariate time series prediction tasks. in 2019 International Joint Conference on Neural Networks (IJCNN). 2019. IEEE. 24. Hu Xia and Liu Huan, Text analytics in social media. Mining text data, 2012: p. 385-414. 25. Hu Xuegang, Wang Haiyan, and Li Peipei, Online Biterm Topic Model based short text stream classification using short text expansion and concept drifting detection. Pattern Recognition Letters, 2018. 116: p. 187-194. 26. Jiang Zhuxi, et al., Variational deep embedding: An unsupervised and generative approach to clustering. arXiv preprint arXiv:1611.05148, 2016. 27. Jindal Vasu. A personalized Markov clustering and deep learning approach for Arabic text categorization. in Proceedings of the ACL 2016 Student Research Workshop. 2016. 28. Kampffmeyer Michael, et al., Deep divergence-based approach to clustering. Neural Networks, 2019. 113: p. 91-101. 29. Kim Jaeyoung, et al., Patent document clustering with deep embeddings. Scientometrics, 2020: p. 1-15. 30. Kleinberg Jon, Bursty and hierarchical structure in streams. Data Mining and Knowledge Discovery, 2003. 7(4): p. 373-397. 31. Li Chenliang, et al., Enhancing topic modeling for short texts with auxiliary word embeddings. ACM Transactions on Information Systems (TOIS), 2017. 36(2): p. 1- 30. 32. Li Chenliang, et al. Topic modeling for short texts with auxiliary word embeddings. in Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. 2016. 33. Li Hua, Text Clustering, in Encyclopedia of Database Systems, L. Liu and M.T. ƯZsu, Editors. 2009, Springer US: Boston, MA. p. 3044-3046. 34. Liang Shangsong and de Rijke Maarten, Burst-aware data fusion for microblog search. Information Processing & Management, 2015. 51(2): p. 89-113. 35. Liang Shangsong, Yilmaz Emine, and Kanoulas Evangelos. Dynamic clustering of streaming short documents. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016. 36. Margara Alessandro and Rabl Tilmann, Definition of Data Streams, in Encyclopedia of Big Data Technologies, S. Sakr and A.Y. Zomaya, Editors. 2019, Springer International Publishing: Cham. p. 648-652.
  32. 37. Nguyen Hai-Long, Woon Yew-Kwong, and Ng Wee-Keong, A survey on data stream clustering and classification. Knowledge and information systems, 2015. 45(3): p. 535-569. 38. Nguyen Tri and Do Phuc. Topic discovery using frequent subgraph mining approach. in International Conference on Computational Science and Technology. 2017. Springer. 39. Park Jinuk, et al., ADC: Advanced document clustering using contextualized representations. Expert Systems with Applications, 2019. 137: p. 157-166. 40. Peters Matthew E, et al., Deep contextualized word representations. arXiv preprint arXiv:1802.05365, 2018. 41. Pham Phu, Do Phuc, and Ta Chien DC. GOW-LDA: Applying Term Co-occurrence Graph Representation in LDA Topic Models Improvement. in International Conference on Computational Science and Technology. 2017. Springer. 42. Qiang Jipeng, et al. Topic modeling over short texts by incorporating word embeddings. in Pacific-Asia Conference on Knowledge Discovery and Data Mining. 2017. Springer. 43. Qiang Jipeng, et al., Short text clustering based on Pitman-Yor process mixture model. Applied Intelligence, 2018. 48(7): p. 1802-1812. 44. Quan Xiaojun, et al. Short and sparse text topic modeling via self-aggregation. in Twenty-fourth international joint conference on artificial intelligence. 2015. 45. Quan Xiaojun, et al., Latent discriminative models for social emotion detection with emotional dependency. ACM Transactions on Information Systems (TOIS), 2015. 34(1): p. 1-19. 46. Romsaiyud Walisa. Detecting emergency events and geo-location awareness from twitter streams. in The International Conference on E-Technologies and Business on the Web (EBW2013). 2013. The Society of Digital Information and Wireless Communication. 47. Shah Setu and Luo Xiao. Comparison of deep learning based concept representations for biomedical document clustering. in 2018 IEEE EMBS international conference on biomedical & health informatics (BHI). 2018. IEEE. 48. Shaham Uri, et al., Spectralnet: Spectral clustering using deep neural networks. arXiv preprint arXiv:1801.01587, 2018. 49. Shi Tian, et al. Short-text topic modeling via non-negative matrix factorization enriched with local word-context correlations. in Proceedings of the 2018 World Wide Web Conference. 2018. 50. Shou Lidan, et al. Sumblr: continuous summarization of evolving tweet streams. in Proceedings of the 36th international ACM SIGIR conference on Research and development in information retrieval. 2013. 51. Teh Yee Whye, Dirichlet Process. 2010. 52. Tian Kai, Zhou Shuigeng, and Guan Jihong. Deepcluster: A general clustering framework based on deep learning. in Joint European Conference on Machine Learning and Knowledge Discovery in Databases. 2017. Springer. 53. Vlachos Michail, et al. Identifying similarities, periodicities and bursts for online search queries. in Proceedings of the 2004 ACM SIGMOD international conference on Management of data. 2004. ACM. 54. Wan Haowen, et al., Research on Chinese Short Text Clustering Ensemble via Convolutional Neural Networks, in Artificial Intelligence in China. 2020, Springer. p. 622-628.
  33. 55. Wang Binyu, et al., Text clustering algorithm based on deep representation learning. The Journal of Engineering, 2018. 2018(16): p. 1407-1414. 56. Wang Wu, et al. Learning latent topics from the word co-occurrence network. in National Conference of Theoretical Computer Science. 2017. Springer. 57. Wang Yinglin, Wang Ming, and Fujita Hamido, Word sense disambiguation: A comprehensive knowledge exploitation framework. Knowledge-Based Systems, 2020. 190: p. 105030. 58. Wang Yu, Agichtein Eugene, and Benzi Michele. TM-LDA: efficient online modeling of latent topic transitions in social media. in Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. 2012. 59. Wang Zhiguo, Mi Haitao, and Ittycheriah Abraham, Semi-supervised clustering for short text via deep representation learning. arXiv preprint arXiv:1602.06797, 2016. 60. Weng Jianshu and Lee Bu-Sung, Event detection in twitter. ICWSM, 2011. 11: p. 401-408. 61. Xie Junyuan, Girshick Ross, and Farhadi Ali. Unsupervised deep embedding for clustering analysis. in International conference on machine learning. 2016. 62. Xu Dongkuan, et al. Deep co-clustering. in Proceedings of the 2019 SIAM International Conference on Data Mining. 2019. SIAM. 63. Xu Jiaming, et al., Self-taught convolutional neural networks for short text clustering. Neural Networks, 2017. 88: p. 22-31. 64. Yamamoto Shuhei, et al., Twitter user tagging method based on burst time series. International Journal of Web Information Systems, 2016. 12(3): p. 292-311. 65. Yang Bo, et al. Towards k-means-friendly spaces: Simultaneous deep learning and clustering. in international conference on machine learning. 2017. PMLR. 66. Yang Min, et al., Cross-domain aspect/sentiment-aware abstractive review summarization by combining topic modeling and deep reinforcement learning. Neural Computing and Applications, 2020. 32(11): p. 6421-6433. 67. Yang Zaihan, et al. Parametric and non-parametric user-aware sentiment topic models. in Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2015. 68. Yi Junkai, et al., A novel text clustering approach using deep-learning vocabulary network. Mathematical Problems in Engineering, 2017. 2017. 69. Yin Jianhua, et al. Model-based clustering of short text streams. in Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018. 70. Yin Jianhua and Wang Jianyong. A model-based approach for text clustering with outlier detection. in 2016 IEEE 32nd International Conference on Data Engineering (ICDE). 2016. IEEE. 71. Yin Jianhua and Wang Jianyong. A text clustering algorithm using an online clustering scheme for initialization. in Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016. 72. Yuan Chunyuan, et al. Learning review representations from user and product level information for spam detection. in 2019 IEEE International Conference on Data Mining (ICDM). 2019. IEEE. 73. Zhang Yun, Hua Weina, and Yuan Shunbo, Mapping the scientific research on open data: A bibliometric review. Learned Publishing, 2018. 31(2): p. 95-106.
  34. 74. Zuo Yuan, et al. Topic modeling of short texts: A pseudo-document view. in Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016. 75. Zuo Yuan, Zhao Jichang, and Xu Ke, Word network topic model: a simple but general solution for short and imbalanced texts. Knowledge and Information Systems, 2016. 48(2): p. 379-398.
  35. DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ Tạp chí quốc tế 1. [CT5] Hong, Tham Vo Thi, and Phuc Do (2021). “TKES: A Novel System for Extracting Trendy Keywords from Online News Sites”. In: Journal of the Operations Research Society of China (ISSN: 2194- 6698) ( (Scopus/Q3 indexed) 2. [CT6] Hong, Tham Vo Thi, and Phuc Do (2020). “GOW-Stream: a novel approach of graph-of-words based mixture model for semantic- enhanced text stream clustering”. In: Intelligent Data Analysis (ISSN: 1571-4128). ( (accepted for publication – 2020, September). (SCIE/Q3 indexed) Kỷ yếu Hội nghị quốc tế 1. [CT1] Hong, T. V. T., & Do, P. (2018, February). Developing a graph- based system for storing, exploiting and visualizing text stream. In Proceedings of the 2nd International Conference on Machine Learning and Soft Computing (pp. 82-86). ( 2. [CT2] Hong, T.V.T. and Do, P., (2018, October). SAR: A Graph-Based System with Text Stream Burst Detection and Visualization. In International Conference on Intelligent Computing & Optimization (pp. 35-45). Springer, Cham. ( 3. [CT3] Hong, T.V.T. and Do, P., (2019, October). A Novel System for Related Keyword Extraction over a Text Stream of Articles. In International Conference on Intelligent Computing & Optimization (pp. 409-419). Springer, Cham. ( 4. [CT4] Hong, T.V.T. and Do, P., (2019, October). Comparing Two Models of Document Similarity Search over a Text Stream of Articles from Online News Sites. In International Conference on Intelligent Computing & Optimization (pp. 379-388). Springer, Cham. (