Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xư ly vân đê viết tắt tiếng Việt
Bạn đang xem 30 trang mẫu của tài liệu "Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xư ly vân đê viết tắt tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.
File đính kèm:
1. NGUYEN NHO TUY. Toan van LA.pdf
2. NGUYEN NHO TUY. Tom Tat LA_Viet.pdf
3. NGUYEN NHO TUY. Tom Tat LA_Anh.pdf
4. NGUYEN NHO TUY. Dong Gop Moi Cua LA.pdf
5. NGUYEN NHO TUY. Trich Yeu LA.pdf
Nội dung tài liệu: Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xư ly vân đê viết tắt tiếng Việt
- BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN NHO TÚY NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm 2020
- Công trình được hoàn thành tại: ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS. TS. PHAN HUY KHÁNH Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ trước Hội đồng chấm luận án cấp Đại học Đà Nẵng họp tại: Đại học Đà Nẵng Vào hồi giờ Ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam; - Trung tâm Thông tin Học liệu và Truyền thông, ĐHĐN.
- 1 MỞ ĐẦU 1. Tính cấp thiết của đề tài Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử dụng chữ viết tắt (CVT) với mong muốn là rút gọn thời gian, công sức. CVT là một vấn đề tuy không lớn, không hẳn là mới mẻ nhưng có lẽ ai cũng gặp phải khi đọc hiểu một văn bản. Cùng một CVT, người ta có thể đọc hiểu theo nhiều cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ quan của mình. Thực tế cuộc sống và giao tiếp làm nảy sinh tìm hiểu ý nghĩa CVT là gì. Trong ngôn ngữ tự nhiên (NNTN), xu hướng thể hiện văn bản, lời nói ngắn gọn, đơn giản, nhưng chuyển tải lượng thông tin lớn mà viết tắt trở thành một hiện tượng phổ biến trong nhiều thứ tiếng khác trên thế giới, được sử dụng rộng rãi trong nhiều lĩnh vực, nhiều chuyên ngành khác nhau. Vấn đề xử lý tiếng Việt (XLTV) đã được triển khai nghiên cứu từ năm 1990. Gần đây có các công trình XLTV, nghiên cứu khử nhập nhằng trong một vài lĩnh vực: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập; xử lý nhập nhằng trong tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; nghiên cứu biểu diễn ngữ cảnh trong triển khai CVT dùng tiếp cận học máy, thực hiện chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc Tuy vậy, đến nay chưa có công trình nào nghiên cứu một cách hệ thống và đầy đủ về CVT tiếng Việt. Trong bối cảnh chung của XLTV, trên cơ sở thực trạng sử dụng CVT trong thực tiễn, ta nhận thấy rằng NNTN luôn biến đổi và phát triển không ngừng; trong đó sự hình thành CVT có thể xem như là phương thức biến đổi từ vựng, hình thành nền từ ngữ mới, kèm với
- 2 đó những biến đổi ngữ nghĩa CVT. Do đó, để góp phần giải quyết các bài toán trong XLTV, đề tài đặt vấn đề cần thiết phải tìm hiểu và nghiên cứu: tiếp cận vấn đề ngữ nghĩa, nhập nhằng ngữ nghĩa, xử lý, nhận dạng CVT, hướng đến xây dựng môi trường khai thác khả dụng, phát triển CVT bởi nó liên tục biến tấu, thay đổi và luôn có nhu cầu sử dụng trong thực tiễn. Đề tài của luận án được chọn để nghiên cứu: “Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt”. Đề tài được tập trung nghiên cứu các vấn đề cơ sở khoa học về ngôn ngữ học, ngữ nghĩa học, xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, ngữ nghĩa, biến đổi ngữ nghĩa, hiện tượng nhập nhằng trong tiếng Việt Từ đó xây dựng các ứng dụng khai thác CVT, đề xuất giải pháp xử lý nhập nhằng CVT trong văn bản. 2. Mục tiêu và nhiệm vụ đề tài Nghiên cứu tiếng Việt về phương diện ngôn ngữ học, hiện tượng nhập nhằng tiếng Việt, nhập nhằng CVT; nhu cầu sử dụng CVT trong thực tế, từ đó hiểu được tri thức CVT. Xây dựng nguồn tài nguyên CVT tiếng Việt, phát hiện và đề xuất quy tắc tạo sinh, giúp khắc phục sửa lỗi, biểu diễn nhất quán. Xây dựng ứng dụng khai thác CVT; đồng thời khử nhập nhằng, giúp cho việc sử dụng CVT chuẩn hoá, góp phần phát triển ngôn ngữ. Công bố kho ngữ liệu chuẩn CVT, hình thành hệ thống khai thác CVT tiếng Việt, triển khai ứng dụng thực nghiệm, đánh giá. 3. Đối tượng và phạm vi nghiên cứu Nghiên cứu về bản chất NNTN, tiếng Việt; các phương pháp, kỹ thuật và công cụ xử lý NNTN, phương pháp khử nhập nhằng.
- 3 Đối tượng nghiên cứu là tri thức các chuyên gia ngôn ngữ, xử lý NNTN, tin học; CVT trong văn bản, sách, báo, web site; sự hình thành CVT trong NNTN ở tất cả các lĩnh vực đời sống xã hội. Về lý thuyết, nghiên cứu xử lý NNTV, XLTV, chủ yếu xử lý văn bản, hiện tượng nhập nhằng, vấn đề ngữ nghĩa. Về nghiên cứu sử dụng CVT, đề tài không hạn chế phạm vi, nhưng tập trung vào lĩnh vực khoa học, công nghệ và kỹ thuật, có tham khảo CVT tiếng Anh và một số ngôn ngữ khác. Về môi trường phát triển ứng dụng, chủ yếu là xây dựng kho ngữ liệu, xây dựng ứng dụng, hình thành môi trường khai thác CVT, cài đặt thử nghiệm. Phạm vi giới hạn lĩnh vực viễn thông, CNTT. 4. Phương pháp nghiên cứu Khảo sát thực tế: Khảo sát sử dụng CVT trong văn bản, Internet, quy định ngữ pháp, thực tiễn; kết hợp phương pháp phỏng vấn trực tiếp một số chuyên gia. Nghiên cứu lý thuyết: Lý thuyết ngôn ngữ học, xử lý NNTN, phương pháp tách từ, xây dựng từ điển, kỹ thuật xây dựng máy tìm kiếm, xây dựng vị từ, hàm, cơ sở luật và máy suy diễn. Nghiên cứu thực nghiệm: Các kỹ thuật tìm kiếm, xây dựng thuật toán và công cụ dựa trên giải pháp đã được đề xuất. 5. Cấu trúc của luận án Nội dung chính gồm 5 chương, phần kết luận và phụ lục: Chương 1 nghiên cứu tổng quan, những nhân tố làm cho ngôn ngữ biến đổi và phát triển, tiếp cận vấn đề ngữ nghĩa và nhập nhằng ngữ nghĩa. Tìm hiểu sự biến đổi phát triển ngôn ngữ tiếng Việt. Chương 2 tiếp cận sự hình thành CVT tiếng Việt; xây dựng các quy tắc tạo sinh CVT, làm rõ dấu hiệu nhận biết CVT trong văn bản.
- 4 Xây dựng hệ thống khai thác CVT tiếng Việt (AMES) dựa trên ý tưởng hệ sinh thái phần mềm. Chương 3 nghiên cứu xây dựng nguồn tài nguyên CVT tiếng Việt, phương pháp thu thập dữ liệu CVT, thực nghiệm thuật toán tìm kiếm CVT mới trên mạng Internet. Chương 4 trình bày kết quả xây dựng công cụ khai thác CVT tiếng Việt, thực nghiệm hình thành hệ thống khai thác CVT: thư viện viết tắt, từ điển trên máy di động, xây dựng công cụ tư vấn đặt tên thương hiệu Brandname cho doanh nghiệp. Chương 5 phân tích, xử lý nhập nhằng CVT. Xây dựng máy suy diễn nhận diện CVT trong văn bản. Tiếp cận xử lý nhập nhằng CVT dựa vào chỉ số tần suất xuất hiện CVT và triển khai ứng dụng. 6. Đóng góp chính của luận án Luận án đã có 4 nhóm đóng góp khoa học và ứng dụng. 1) Phát hiện và xây dựng kho ngữ liệu chữ viết tắt. 2) Tổng kết các quy tắc hình thành CVT, xây dựng hệ thống khai thác CVT (Abbreviations Management Exploit System - AMES). 3) Góp phần xử lý nhập nhằng chữ viết tắt tiếng Việt. 4) Xây dựng các ứng dụng khai thác CVT: từ điển CVT trên máy tính, điện thoại di động , đề xuất chuẩn hóa sử dụng CVT ở phạm vi quốc gia. Luận án tiếp tục phát triển, nghiên cứu: Trao đổi hợp tác với nhà nghiên cứu chuyên ngành ngôn ngữ học, chuẩn hóa quy tắc hình thành CVT, tối ưu các, hàm, các luật, máy suy diễn nhận diện CVT. Nghiên cứu công cụ tắt hóa văn bản, cải tiến thuật toán. Bổ sung thêm đánh giá độ đo khoa học chuẩn (Recall, Precision)
- 5 CHƯƠNG 1: VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT 1.1. NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1.1. Ngôn ngữ và xử lý ngôn ngữ 1.1.3. Các loại hình ngôn ngữ 1.1.4. Xử lý ngôn ngữ tự nhiên 1.1.5. Vấn đề xử lý tiếng Việt 1.2. NGỮ NGHĨA VÀ NHẬP NHẰNG NGỮ NGHĨA TIẾNG VIỆT 1.2.1. Ngữ nghĩa và ngữ nghĩa học Ngữ nghĩa: Ngữ nghĩa (meaning), hay nghĩa của từ là những liên hệ được xác lập trong nhận thức của con người giữa từ với những cái mà từ chỉ ra (những cái mà từ làm tín hiệu cho chúng). Nghĩa của từ không tồn tại trong sự vật hiện tượng, không tồn tại trong ý thức, bộ óc con người. Nghĩa của từ tồn tại trong trong từ, nói rộng ra là tồn tại trong hệ thống ngôn ngữ. 1.2.2. Phân tích nghĩa của từ 1.2.3. Sự biến đổi của từ vựng và ngữ nghĩa Phương thức viết tắt xuất hiện các từ ngữ mới: Như trên đã đề cập, con đường hình thành từ ngữ mới thông qua nhiều phương thức, cấu tạo nên từ ngữ mới bằng các chất liệu và quy tắc sẵn có trong ngôn ngữ dân tộc, trong đó có phương thức viết tắt. 1.2.4. Nhập nhằng ngữ nghĩa trong tiếng Việt Một số hiện tượng nhập nhằng Xử lý nhập nhằng trong tiếng Việt: Hiện tượng nhập nhằng xảy ra khi: Một từ thường có nhiều hơn một nghĩa, có biểu hiện hiểu lầm, mơ hồ ngữ nghĩa của từ. Trong tiếng Anh, có nhiều công trình nghiên cứu trước đây giải quyết nhập nhằng ngữ
- 6 nghĩa đã được thực hiện. Trong tiếng Việt, gần đây có nhiều công trình nghiên cứu: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập; xử lý nhập nhằng trong tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn bản, nghiên cứu đề xuất giải quyết vấn đề khử nhập nhằng trong bài toán tách từ tiếng Việt. 1.3. CHỮ VIẾT TẮT TRONG CUỘC SỐNG 1.3.1. Chữ viết tắt là gì 1.3.2. Lịch sử hình thành chữ Quốc ngữ 1.3.3. Tìm hiểu về lịch sử chữ viết tắt 1.3.4. Sử dụng chữ viết tắt 1.3.5. Chữ viết tắt trong tiếng Việt 1.4. NGỮ NGHĨA CHỮ VIẾT TẮT 1.4.1. Khái niệm ngữ nghĩa chữ viết tắt Ngữ nghĩa chữ viết tắt: là những liên hệ được xác lập trong nhận thức của con người giữa những cái mà CVT chỉ ra (những cái mà CVT làm tín hiệu cho chúng). Nghĩa của CVT không tồn tại trong sự vật hiện tượng, không tồn tại trong ý thức, bộ óc con người. Nghĩa của CVT tồn tại trong trong CVT, nói rộng ra là tồn tại trong hệ thống ngôn ngữ mà trong đó CVT đã hình thành. 1.4.2. Biến đổi ngữ nghĩa chữ viết tắt Các phương thức biến đổi ngữ nghĩa chữ viết tắt 1.4.3. Nhập nhằng chữ viết tắt Hiện tượng nhập nhằng của CVT sinh ra bởi các tính chất: Sự đa nghĩa, khó tìm nghĩa đúng, hợp lý; sử dụng tùy tiện, không theo quy luật; khó xác định mục đích trong văn bản.
- 7 1.4.4. Xử lý nhập nhằng chữ viết tắt Luận án đặt ra vấn đề xử lý nhập nhằng CVT theo hai hướng: 1) Sử dụng mặt tích cực nhập nhằng CVT. 2) Từng bước khử bỏ sự nhập nhằng CVT. 1.4.5. Đề xuất nghiên cứu chữ viết tắt tiếng Việt Tựu trung, đến nay chưa có công trình nào nghiên cứu một cách hệ thống và đầy đủ về CVT tiếng Việt, chưa chỉ ra được mối liên hệ dựa trên cơ sở lý thuyết ngôn ngữ học và vấn đề CVT và nhập nhằng CVT tiếng Việt. Ta thấy rằng ngôn ngữ tự nhiên, trong đó có tiếng Việt, luôn biến đổi và phát triển không ngừng. Chữ viết tắt cũng là một hướng làm biến đổi chữ viết, có thể được xem là cải tiến chữ viết. Hệ thống từ vựng của ngôn ngữ luôn biến đổi phát triển, trong đó phương thức viết tắt, tạo lập các CVT làm xuất hiện các từ ngữ mới. Luận án này đặt vấn đề nghiên cứu bốn vấn đề lớn sau đây: 1) Tiếp cận vấn đề CVT tiếng Việt trên phương diện thực tế và nhu cầu sử dụng trong cuộc sống, vấn đề ngữ nghĩa CVT dựa trên lý thuyết của ngôn ngữ học. Tìm hiểu sự hình thành CVT và các quy tắc tạo sinh CVT. 2) Xây dựng hệ thống khai thác CVT tiếng Việt, cung cấp cho NSD, sử dụng CVT ngày càng thuận tiện, có tính gợi mở, hợp tác trao đổi các vấn đề đã và đang nghiên cứu, cùng tạo ra môi trường học tập và trao đổi thông tin các vấn đề liên quan đến CVT. 3) Xây dựng nguồn tài nguyên CVT tiếng Việt, phương pháp thu thập dữ liệu và triển khai thực nghiệm. 4) Xây dựng các công cụ khai thác CVT và xử lý nhập nhằng CVT tiếng Việt trong văn bản và triển khai thực nghiệm.
- 8 CHƯƠNG 2. XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT 2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT 2.1.1. Mô hình sự hình thành chữ viết tắt Các tình huống hình thành CVT tiếng Việt có thể biểu diễn qua mô hình: 2.1.2. Đặc điểm hình thành chữ viết tắt tiếng Việt 2.1.3. Quy tắc hình thành chữ viết tắt tiếng Việt 1) Quy tắc 1: Viết tắt theo từ 2) Quy tắc 2: Ghép âm hay ghép tiếng 3) Quy tắc 3: Ghép theo từ có nghĩa 4) Quy tắc 4: Sử dụng chữ cái viết phụ 5) Quy tắc 5: Kết hợp tiếng nước ngoài 6) Quy tắc 6: Mượn chữ viết tắt tiếng nước ngoài 7) Quy tắc 7: Viết tắt ngẫu nhiên 8) Quy tắc 8: Quy tắc viết tắt mã hóa 9 ) Quy tắc 9: Quy tắc viết tắt trong CSDL
- 9 2.1.4. Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt Yếu tố về số lượng ký tự, dấu thanh, âm tiết Những trường hợp không nên viết tắt Quy định ngữ pháp chữ viết tắt tiếng Việt Dấu hiệu nhận biết chữ viết tắt tiếng Việt trong văn bản: 2.2. TÌM HIỂU HỆ SINH THÁI PHẦN MỀM 2.2.1. Hệ sinh thái phần mềm là gì 2.2.2. Mô hình hóa hệ sinh thái phần mềm (SECO) 2.2.3. Đặc điểm một hệ sinh thái phần mềm 2.2.4. Lợi ích ứng dụng hệ sinh thái phần mềm 2.3. HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES) 2.3.1. Hệ thống khai thác phần mềm 2.3.2. Đề xuất xây dựng hệ thống khai thác chữ viết tắt Hệ thống khai thác chữ viết tắt là tập hợp thông tin nghiên cứu, sản phẩm phần mềm cập nhật, xử lý, hiệu chỉnh, tạo sinh, khai thác và ứng dụng về CVT tiếng Việt nhằm thực hiện trao đổi thông tin, dữ liệu với các hệ thống thông tin; đồng thời thực hiện cung cấp và trao đổi với người sử dụng thông qua một phương thức thống nhất trên nền tảng web tại bất kỳ thời điểm nào và từ bất kỳ đâu. 2.3.3. Mô hình hệ thống khai thác chữ viết tắt Mô hình hệ thống khai thác CVT, viết tắt là AMES (Abbreviations Management Exploit System). Cụ thể như trang kế. 2.4. THỰC NGHIỆM XÂY DỰNG AMES 2.4.1. Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt 2.4.2. Xây dựng công cụ khai thác chữ viết tắt Thực nghiệm xây dựng công cụ khai thác CVT, bao gồm:
- 10 Xây dựng công cụ ứng dụng CVT vào chỉ mục tìm kiếm, khai thác CSDL, ứng dụng CVT đề xuất bộ mã danh mục quốc gia. Xây dựng thư viện và từ điển tra cứu trực CVT, công cụ tư vấn đặt CVT thương hiệu (brandname) cho doanh nghiệp. 2.4.3. Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt Luận án tiếp cận các hướng xử lý nhập nhằng CVT tiếng Việt: Hướng thứ nhất, xử lý nhập nhằng CVT thực nghiệm văn bản trong lĩnh vực chuyên ngành viễn thông: xây dựng vị từ và hàm nhận diện CVT trong văn bản; đề xuất xây dựng cơ sở luật, thuật toán nhận diện và xử lý nhập nhằng CVT. Hướng tiếp cận khác để xử lý nhập nhằng là đề xuất dựa vào phương pháp thống kê chỉ số tần suất xuất hiện CVT. Chỉ số tần suất xuất hiện CVT cũng là cơ sở cho phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa và nhận diện CVT.
- 11 CHƯƠNG 3. XÂY DỰNG NGUỒN TÀI NGUYÊN CHỮ VIẾT TẮT 3.1. XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT 3.1.1. Mô hình quan hệ dữ liệu 3.1.2. Triển khai cài đặt 3.2. GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT 3.2.1. Thu thập dữ liệu thủ công 3.2.2. Thu thập dữ liệu tự động 1) Cập nhật CVT mới từ tập tin Word 2) Cập nhật CVT mới tự động từ Internet 3.2.3. Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới Ý tưởng thuật toán: Máy tìm kiếm CVT nhận một URL, gửi yêu cầu đến Web Server, nhận lại một trang HTML tương ứng với mỗi URL; xử lý tập tin theo kiểu xử lý chuỗi để bóc tách nội dung văn bản cần tìm, lọc ra CVT mới, so sánh với CVT trong CSDL để lưu hoặc không, hoặc có những đánh giá cần thiết khác, thuật toán đặt tên là SENVA - máy tìm kiếm chữ viết tắt tiếng Việt mới (Search Engines for New Vietnamese Abbreviations). 3.2.4. Thực nghiệm cài đặt thuật toán SENVA Upload chương trình lên máy chủ: Gõ lệnh thực thi máy tìm kiếm trên thanh Address theo dạng thức: Kết quả sẽ được nhận được là danh sách liên kết được duyệt trên trang chủ. Phần sau là các CVT tìm thấy được được đánh số thứ tự, mỗi CVT có trích chọn nghĩa CVT, đánh giá trùng lặp dữ liệu hay
- 12 không và hiển thị câu, đoạn có chứa CVT - xem như ngữ cảnh sử dụng CVT, để phục vụ cho biên tập dữ liệu. 3.3. ỨNG DỤNG KHAI THÁC DỮ LIỆU CHỮ VIẾT TẮT 3.3.1. Sử dụng chữ viết tắt trong CSDL chuyên ngành Giải pháp sử dụng CVT - chỉ mục tìm kiếm: Đối với các CSDL chuyên trách phục vụ cho các ĐTV tìm kiếm, tra cứu thông tin phục vụ nhu cầu của khách hàng, cần sử dụng CVT làm chỉ mục tìm kiếm để tăng hiệu năng khai thác theo các bước: 1) Lập trường chỉ mục CVT 2) Xây dựng các quy tắc chuyển đổi CVT 3) Xây dựng các hàm tạo sinh CVT chuyển đổi CVT 4) Chỉ mục CSDL và cài đặt chương trình 5) Khai thác CSDL dựa trên CVT Áp dụng thực tiễn giải pháp Xây dựng CSDL: Áp dụng giải pháp xây dựng lại CSDL 108 bằng cách bổ sung trường dữ liệu CVT mới làm trường chỉ mục tìm kiếm Xây dựng ứng dụng Đánh giá kết quả: Hiệu năng tìm kiếm sử dụng trường CVT làm chỉ mục và gõ giá trị CVT giúp giảm thời gian gõ phím 45%; tăng hiệu năng làm việc ĐTV lên 133%, làm tăng năng suất lao động, giảm thiểu tắc nghẽn. Mở rộng giải pháp: Thực hiện mở rộng Đài 108 Đà Nẵng cung cấp dịch vụ 108 cho toàn khu vực miền Trung và Tây Nguyên với 20 tỉnh. Mở rộng ra đối với các CSDL khác cho người chuyên trách tìm kiếm, tra cứu thông tin: Tổng đài dịch vụ hành chính công, CSDL hỗ
- 13 trợ và chăm sóc khách hàng nhiều ngành nghề khác nhau, danh mục sách - tác giả trong thư viện online 3.3.2. Ứng dụng chữ viết tắt trong xây dựng CSDL danh mục Xây dựng CSDL danh mục trong Hệ thống ĐHSXKD chuyên ngành. Đề xuất ứng dụng CVT quy định bộ mã chuyên ngành VT- CNTT. Chuẩn hóa dữ liệu cho CSDL danh mục, áp dụng cho toàn mạng lưới VT- CNTT của doanh nghiệp. Trong đó, các dữ liệu mã hóa sử dụng CVT thường phải thỏa mãn các điều kiện: (1) CVT mã hóa được một tổ chức ban hành, có phạm vi, giới hạn áp dụng. (2) CVT mã hóa là duy nhất, không trùng lặp để tránh nhập nhằng. (3) CVT mã hóa thường dùng thêm các ký tự theo một quy luật định sẵn. 3.3.3. Đề xuất sử dụng CVT trong bộ mã danh mục quốc gia Nhà nước cần có cơ quan nghiên cứu ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử dụng CVT để có tính gợi nhớ, dễ hiểu, dễ sử dụng, nhất là đối với đội ngũ chuyên gia thiết kế CSDL, lập trình viên, bảo trì, bảo dưỡng phần mềm, tạo điều kiện trao đổi chia xẻ thông tin, khai thác CSDL quốc gia được dễ dàng và đồng bộ. Bảng CSDL danh mục quốc gia chuyên ngành: ST Kiểu Tên trường Cấu trúc T dữ liệu 1 ID_XYZ C ID là mã hóa sử dụng quy tắc hình thành CVT (ví dụ quy tắc 1, 2 ) 2 ND_XYZ C Tên chi tiết XYZ danh mục 3 SOHOA_XYZ C Mã số hóa khác như mã vạch,
- 14 3.4. ĐÁNH GIÁ KẾT QUẢ 3.4.1. Kết quả xây dựng kho ngữ liệu chữ viết tắt cập Tỷ lệ % cập nhật nhật Tổng Loại Chữ viết tắt thuộc lĩnh vực cập nhật thủ công tự cộng Tự động động Công nghệ thông tin và 1 754 350 1104 32% truyền thông Chính phủ, tổ chức chính trị 2 301 120 421 29% xã hội Khoa học công nghệ, kỹ 3 273 253 526 48% thuật 4 Quân sự 202 120 322 37% 5 Y học 253 255 508 50% 6 Giáo dục 301 2.378 2.679 89% 7 Tài chính, thương mại 403 140 543 26% 8 Tài nguyên môi trường 163 130 293 44% 9 Giao tiếp cộng đồng 121 125 246 51% 10 Tôn giáo 0 150 150 100% 11 Tên riêng 0 75 75 100% 12 Khác 0 120 120 100% Tổng cộng 2.771 4.216 6.987 60% 3.4.2. Đánh giá kết quả Phân tích kết quả, đánh giá các phương pháp, đánh giá cài đặt chương trình. Thuật toán SENVA có thể được mở rộng, phát triển thành máy thống kê, đánh giá tần số, tần suất sử dụng CVT. Điều này giúp ích cho việc biên soạn những từ điển theo tần suất sử dụng, phục vụ cho việc đánh giá từ vựng tiếng Việt.
- 15 CHƯƠNG 4. XÂY DỰNG CÔNG CỤ KHAI THÁC CHỮ VIẾT TẮT 4.1. XÂY DỰNG THƯ VIỆN CHỮ VIẾT TẮT 4.1.1. Lựa chọn công cụ lập trình 4.1.2. Thiết kế chương trình 4.1.3. Kết quả xây dựng thư viện chữ viết tắt 4.2. CÔNG CỤ TƯ VẤN CHỮ VIẾT TẮT THƯƠNG HIỆU 4.2.1. Tin nhắn thương hiệu là gì Tin nhắn thương hiệu: Doanh nghiệp thường sử dụng thương hiệu của mình trong ấn phẩm truyền thông, hoặc sử dụng tin nhắn đến máy di động khách hàng thông qua dịch vụ tin nhắn thương hiệu (Short Message Services Brandname), gọi tắt là SMS BrandName. 4.2.2. Các bước xây dựng công cụ tư vấn đặt tên Brandname 1) Bước 1: Xây dựng CSDL quản trị Brandname; tích hợp vào hệ thống CSDL kho ngữ vựng chữ viết tắt. 2) Bước 2: Xây dựng quy tắc tạo sinh chữ viết tắt Brandname, mô phỏng dùng công cụ lập trình tạo sinh. 3) Bước 3: Xây dựng công cụ phần mềm quản lý SMS Brandname, công cụ tư vấn doanh nghiệp đặt tên và quản trị Brandname. 4) Bước 4: Triển khai áp dụng vào thực hiện hoạt động kinh doanh, cung cấp cho khách hàng sử dụng tin nhắn SMS Brandname. 4.2.3. Thuật toán CSBCOM đặt tên tin nhắn thương hiệu Ý tưởng thuật toán Tư vấn đặt tên tin nhắn thương hiệu cho doanh nghiệp, công ty - Consultant SMS brandname to the company (CSBCOM): 1) Phân tích chuỗi tên doanh nghiệp thành k chuỗi con: n1, nk.
- 16 2) Với từng chuỗi ni , tìm cách đưa ra các CVT, bằng cách học dữ liệu CVT trong một tập huấn luyện lưu trữ các CVT có thể có của chuỗi ni . Nếu đã có các CVT thì đưa ra sử dụng, nều không có các CVT, thì thành lập các CVT của chuỗi ni (theo các quy tắc tạo sinh CVT); đồng thời lưu vào tập huấn luyện sử dụng lần sau. 3) Sau khi xử lý từng chuỗi ni, thực hiện tổ hợp kết quả theo thứ tự các chuỗi n1, nk để đề xuất các CVT có thể có. 4) So khớp trong bảng NGHIA_CVT_DATBIET hiển thị các nghĩa tích cực, nghĩa tiêu cực, để giúp NSD có thể có diễn dịch ý nghĩa tích cực hay tiêu cực, từ đó chọn lọc CVT làm các Brandname. 4.2.4. Cài đặt chương trình, kết quả thử nghiệm Ứng dụng thực nghiệm góp phần xây dựng Hệ thống khai thác chữ viết tắt AMES. AMES từng bước hướng đến thỏa mãn các tính chất đặc trưng của hệ sinh thái phần mềm: Tính kế thừa, Tính ổn định và Tính mở; đồng thời hướng đến một phương thức thống nhất trao đổi thông tin AMES với các hệ thống thông tin khác. 4.3. XÂY DỰNG TỪ ĐIỂN CHỮ VIẾT TẮT TRÊN MÁY DI ĐỘNG 4.3.1. Thiết kế cơ sở dữ liệu và chức năng chương trình Cơ sở dữ liệu: Công cụ hỗ trợ quản trị CSDL là SQLite Expert Personal 4.2 (64bit). Ngôn ngữ lập trình sử dụng Java Android Studio cùng với hệ thống phần mềm giả lập máy di động Genymotion. Thiết kế chương trình: chạy thường trú, sử dụng tính năng copy trên máy di động. Khi người dùng cần tra cứu trực tiếp CVT trên file văn bản, email, tin nhắn, web site , nhấn màn hình cảm ứng trên cụm CVT để chọn khối, sau đó chọn copy vào vùng
- 17 nhớ đệm, chương trình sẽ lấy dữ liệu CVT trong vùng nhớ đệm, NSD nhấn vào biểu tượng tra cứu, chương trình kích hoạt tìm kiếm CVT và hiển thị dữ liệu tra cứu khung cửa sổ phía, sau đó có thể đóng cửa sổ hiển thị tra cứu CVT và tiếp tục công việc. 4.3.2. Đồng bộ dữ liệu với thư viện chữ viết tắt 4.3.3. Đề xuất thuật toán SAOM-FTS xây dựng từ điển Search abbreviations on mobile devices - used Full Text Search (SAOM -FTS). SAOM-FTS là thuật toán tìm kiếm chữ viết tắt trên di động - sử dụng FTS 4.3.4. Cài đặt và kết quả thực nghiệm 4.4. ĐÁNH GIÁ KẾT QUẢ 4.4.1. Đánh giá kết quả thực nghiệm AMES 4.4.2. Đánh giá AMES đặc tả theo mô hình UML Tổng hợp kết quả xây dựng AMES:
- 18 Bảng kết quả so sánh các tác nhân AMES và SECO Chú Tác nhân Tác nhân của Công cụ thực nghiệm thích của SECO AMES của AMES Xây dựng, lập trình phần mềm, công cụ khai Software Đơn vị phát triển thác, cung cấp giao diện (1) developer phần mềm kết nối, trao đổi thông tin State, Ngôn ngữ học, Quy tắc tạo sinh CVT, standards chuyên gia tư vấn, các hàm API, phương (2) and Quy định ngữ pháp cập nhật tự động, certificatio pháp CVT, quy đánh giá tần số tần suất ns bodies tắc tạo sinh CVT Nhà cung cấp hạ Server lưu trữ hàm API: tầng tài nguyên, 10.59.10.250:81/CSSbil Nature đường truyền, (3) source.asmx; không gian lưu Kết nối Internet trữ NSD từ điển trên di Người sử dụng, động, web site; NSD di Software người mua, đặt động nhận tin nhắn (4) users hàng/thuê phần (brandname) từ nhà mềm (SaaS) cung cấp dịch vụ. Nhà cung cấp Sử dụng Công cụ tư vấn dịch vụ hợp tác sử tin nhắn Brandname, Software dụng hệ thống hợp đồng các DN để (5) vendor phần mềm, cung cung cấp tin nhắn cho cấp cho NSD dịch NSD đầu cuối di động. vụ đầu cuối AMES hình thành cung cấp môi trường khai thác CVT cho 5 tác nhân, được hợp tác phát triển, có mối liên quan mật thiết lẫn nhau trong cùng một hệ thống khai thác phần mềm, vì lợi ích chung và riêng của hệ thống phần mềm đem lại cho mỗi một tác nhân.
- 19 CHƯƠNG 5. XỬ LÝ NHẬP NHẰNG CHỮ VIẾT TẮT 5.1. NHẬN DIỆN TÌNH HUỐNG SỬ DỤNG CHỮ VIẾT TẮT 5.1.1. Ngữ cảnh sử dụng chữ viết tắt 5.1.2. Vấn đề nhận diện chữ viết tắt trong văn bản 5.1.3. Xây dựng mô hình nhận diện chữ viết tắt trong văn bản 5.1.4. Giải pháp xử lý nhập nhằng chữ viết tắt 5.2. XÂY DỰNG VỊ TỪ VÀ HÀM NHẬN DIỆN CHỮ VIẾT TẮT 5.2.1. Xây dựng các miền dữ liệu 5.2.2. Xây dựng vị từ và hàm 5.2.3. Nhận diện hiện tượng nhập nhằng CVT trong văn bản 5.3. XÂY DỰNG CƠ SỞ LUẬT NHẬN DIỆN CHỮ VIẾT TẮT 5.3.1. Xây dựng cơ sở luật 5.3.2. Xây dựng máy suy diễn nhận diện chữ viết tắt 5.3.3. Thuật toán nhận diện và xử lý nhập nhằng chữ viết tắt 5.3.4. Kết hợp cơ sở luật nhận diện CVT với xử lý nhập nhằng 5.4. TẦN SỐ CHỮ VIẾT TẮT VÀ GIẢI PHÁP XỬ LÝ NHẬP NHẰNG 5.4.1. Tần số chữ viết tắt 5.4.2. Xây dựng khái niệm tần số, khái niệm tần suất chữ viết tắt Khái niệm tần số sử dụng CVT trên Internet Khái niệm tần suất xuất hiện CVT tiếng Việt trên Internet Tần suất xuất hiện CVT tiếng Việt trên Internet là tỷ số giữa tần số sử dụng CVT trên môi trường Internet và tổng các tần số sử dụng của các CVT trong bảng thống kê tần số sử dụng CVT đang xem xét
- 20 trong một đơn vị thời gian, một phạm vi thống kê nào đó. Hay nói cách khác, với một bảng số liệu thống kê các chữ viết tắt có N giá trị nhưng chỉ có k giá trị khác nhau x1, x2, ,xk. Giá trị chữ viết tắt xi xuất hiện ni lần (1 ≤ i ≤ k), ni là tần số của chữ viết tắt xi ni Tỉ số fi = N là tần suất xuất hiện của của chữ viết tắt xi , với: n1 + n2 + + nk = N ; f1 + f2 + + fk = 1 Hoặc nói cách khác: Tỉ số fi = *100 được gọi là tần suất xuất hiện của của chữ viết tắt xi , với: n1 + n2 + + nk = N ; f1 + f2 + + fk = 100 5.4.3. Giải pháp đánh giá tần số, tấn suất chữ viết tắt Giải pháp đánh giá tần số CVT tiếng Việt trên Internet Giải pháp đánh giá tần suất xuất hiện CVT tiếng Việt trên Internet: 1) Bước 1: Sắp xếp dữ liệu tần số sử dụng CVT. 2) Bước 2: Chọn lọc các CVT trùng lặp, đa nghĩa. 3) Bước 3: Lựa chọn phạm vi tần số xuất hiện để thực hiện tính toán tần suất xuất hiện CVT theo công thức: fi = *100. Trong đó: N: Tổng số các CVT giống nhau nhưng có ngữ nghĩa khác nhau, ni là tần số sử dụng của chữ viết tắt xi 4) Bước 4: Sắp xếp CVT theo giá trị fi giảm dần, lưu trữ, nhận xét, công bố.
- 21 5) Bước 5: Sau một chu kỳ (3 hoặc 6 tháng), lặp lại các bước 2, 3, 4. 6) Bước 6: So sánh dữ liệu, đánh giá sự biến động giá trị tần suất xuất hiện sau một chu kỳ thời gian. 5.4.4. Xây dựng thuật toán AFVAI và triển khai thực nghiệm Thuật toán ghi nhận, đánh giá tần số CVT trên Internet (Assessment frequency Vietnamese abbreviations on the Internet, viết tắt là AFVAI). Thuật toán AFVAI Input: File dữ liệu CVT, phạm vi tìm kiếm trên yahoo.com Output: File dữ liệu tần số sử dụng CVT theo các tiêu chí. Begin Open CSDL làm việc trung gian Thiết lập các tiêu chí, phạm vi tìm kiếm Lựa chọn và Khởi động trình duyệt. Repeat Read CVT của file đầu vào Truyền tham số trình duyệt tìm kiếm giá trị CVT trong phạm vi, tiêu chí Open tệp HTML sau khi kết quả tìm kiếm trả về Read file HTML Dùng Biểu thức chính quy tìm giá trị số " (.*) kết quả " So khớp và Lưu giữ giá trị vào bảng theo phạm vi tương ứng, Lưu giữ ngày tìm kiếm Until Hiển thị Bảng kết quả; Lưu kết quả vào File End.
- 22 5.4.5. Kết quả thực nghiệm và đánh giá Ví dụ: Kết quả tính toán tần suất chữ viết tắt PT trong phạm vi N_VN1 tại 2 thời điểm khác nhau: Ngày 15/3/2016 Ngày 25/03/2016 TT Chữ viết tắt N_VN1 Tần suất % N_VN1 Tần suất % 1 Phương trình (PT) 382 63 385 63,1 2 Phát triển (PT) 182 30 184 30,2 3 Phương Thanh (PT) 16 2,9 17 2,8 4 Phát thanh (PT) 14 2,5 15 2,5 5 Phương thức (PT) 9 1,5 9 1,5 6 Phạm trù (PT) 0 0,0 0 0,0 Tổng cộng 603 100 610 100 PT 333.000 345.000 Sự tương quan giữa tần suất xuất hiện CVT (là thương hiệu, nhãn hiệu) có thể đưa ra chỉ số để dự đoán thị phần, mức độ phát triển thương hiệu, nhãn hiệu. Bảng: Tương quan tần suất CVT và thị phần dịch vụ: Tần suất Thị phần So sánh STT NGHIAVIET N_VN1 % % Prec 1 Viettel 687.000 32,2 43,5 0,43 2 MobiFone 688.000 32,3 31,8 0,50 3 VinaPhone 489.000 22,9 17,5 0,57 4 Vietnamobile 127.000 6,0 4,1 0,59 5 GMobile 140.000 6,6 3,2 0,67 2.131.000 100 100
- 23 Biểu đồ tần suất CVT là thương hiệu di động trên Internet: Doanh nghiệp có thể tham khảo chỉ số tần suất xuất hiện CVT để đánh giá việc quảng bá, truyền thông của mình. 5.4.6. Ứng dụng kết quả xử lý nhập nhằng chữ viết tắt 1) Sự tăng/giảm tần suất cho thấy bước phát triển và sử dụng CVT, có ý nghĩa trong tư vấn doanh nghiệp phát triển truyền thông. 2) Với mỗi phạm vi sử dụng, tần số xuất hiện CVT giúp tư vấn chọn lựa phương thức truyền thông để đạt hiệu quả mong đợi. 3) Sự tương quan giữa chúng cho phép dựa vào tần suất xuất hiện CVT đưa ra chỉ số lượng hóa trong phát triển thương hiệu doanh nghiệp. 4) Chỉ số tần suất xuất hiện: Cho phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa, nhận diện CVT dựa trên chỉ số tần suất CVT. Các CVT có chỉ số tần suất fi cao được ưu tiên gán ngữ nghĩa tương ứng, tính phổ dụng CVT càng cao.
- 24 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Qua quá trình thực hiện mục tiêu nghiên cứu đã đặt ra, luận án đã có 7 đóng góp khoa học và ứng dụng thực tiễn: 1) Xây dựng kho ngữ liệu CVT tiếng Việt, cập nhật từ nhiều nguồn dữ liệu, được chuẩn hóa và phân lớp. 2) Xây dựng 9 quy tắc tạo sinh CVT, từng bước chuẩn hóa việc sử dụng CVT, góp phần phát triển ngôn ngữ tiếng Việt. 3) Xây dựng hệ thống khai thác và xử lý chữ viết tắt tiếng Việt (Abbreviations Management Exploit System - AMES). 4) Tiếp cận xử lý nhập nhằng chữ viết tắt: Xây dựng 27 vị từ điều khiển, 12 hàm xử lý chuỗi, 12 luật trong cơ sở luật, xây dựng máy suy diễn nhận diện CVT. 5) Từ nguồn tài nguyên CVT tiếng Việt, tạo lập từ điển CVT trên máy tính, máy điện thoại di động, Web site thư viện CVT, có sự đồng bộ dữ liệu với nhau. 6) Xây dựng các ứng dụng khác như: Máy tìm kiếm CVT mới, công cụ quảng bá thương hiệu Brandname, tư vấn đặt tên Brandname cho doanh nghiệp. 7) Xây dựng công cụ thống kê CVT và đề xuất chuẩn hóa sử dụng CVT ở phạm vi quốc gia, doanh nghiệp. Luận án có những hạn chế: Xử lý nhập nhằng CVT chỉ giới hạn trong chuyên ngành VT-CNTT; một số thuật toán và hàm chưa tối ưu. Luận án tiếp tục phát triển, nghiên cứu: Trao đổi hợp tác với nhà nghiên cứu chuyên ngành ngôn ngữ học, chuẩn hóa quy tắc hình thành CVT, tối ưu các, hàm, các luật, máy suy diễn nhận diện CVT. Nghiên cứu công cụ tắt hóa văn bản, cải tiến các thuật toán
- 25 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ [1] Nguyen Nho Tuy, Phan Huy Khanh. Abbreviations Applicationin 108 VNPT Service Exploitation in Da Nang City, IJISET (International Journal of Innovative Science, Engineering & Technology) Vol. 3 Issue 1, January 2016. [2] Nguyễn Nho Túy, Phan Huy Khánh. Giải pháp ứng dụng chữ viết tắt chỉ mục cơ sở dữ liệu phục vụ tìm kiếm khai thác dữ liệu, Tạp chí KHCN ĐHĐN, Số 9(106).2016, trang 97-101. [3] Nguyễn Nho Túy, Phan Huy Khánh, Đặng Huy Hòa. Đánh giá tần số sử dụng chữ viết tắt tiếng Việt trên Internet, Tạp chí KHCN ĐHĐN, Số 9(106). 2016, trang 81-86. [4] Nguyen Nho Tuy, Phan Huy Khanh. Developing database of Vietnamese abbreviations and some applications, Nature of Computation and Communication, Springer, ICTCC2016, Kien Giang, pp 373-383. [5] Nguyen Nho Tuy, Phan Huy Khanh. New Automatic Search and Update Algorithms of Vietnamese Abbreviations, World of Computer Science and Information Technology Journal (WCSIT),Vol. 6, No. 1, 1-7, 2016. [6] Nguyễn Nho Túy, Phan Huy Khánh, Lê Văn Anh. Giải pháp tư vấn đặt tên và sử dụng tin nhắn thương hiệu cho doanh nghiệp. Kỷ yếu Hội nghị Quốc gia lần thứ X về Nghiên cứu cơ bản và ứng dụng CNTT (FAIR), Đà Nẵng 2017, tr. 226-232. [7] Nguyễn Nho Túy, Phan Huy Khánh. Xây dựng môi trường khai thác chữ viết tắt tiếng Việt, Kỷ yếu hội thảo khoa học quốc gia CITA2017, Đà Nẵng 2017, trang 160-167. [8] Nguyễn Nho Túy, Phan Huy Khánh, Nguyễn Thị Minh Tuyết. Một góc nhìn về sự hình thành CVT, hướng đến xây dựng CSDL và khai thác dữ liệu CVT tiếng Việt. Kỷ yếu Hội thảo Quốc tế “Ngôn ngữ học Việt Nam - những chặng đường phát triển và hội nhập quốc tế”, ĐHSP Đà Nẵng, 2018, trang 1021- 1035.