Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

pdf 253 trang Phương Linh 04/04/2025 100
Bạn đang xem 30 trang mẫu của tài liệu "Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt", để tải tài liệu gốc về máy hãy click vào nút Download ở trên.

File đính kèm:

  • pdfLuanan_ Ngo Hoang Huy.pdf
  • pdfThong tin dong gop LA_ Ngo Hoang Huy.pdf
  • pdfTom Tat LATS Ngo Hoang Huy.pdf

Nội dung tài liệu: Nghiên cứu đặc trung tín hiệu và ràng buộc ngôn điệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Ngô Hoàng Huy NGHIÊN CỨU CÁC ĐẶC TRƯNG TÍN HIỆU VÀ RÀNG BUỘC NGÔN ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG TỔNG HỢP VÀ NHẬN DẠNG TIẾNG VIỆT Chuyên ngành: Cơ sở Toán học cho Tin học Mã số: 62 46 01 10 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Lương Chi Mai 2. PGS.TS. Ngô Quốc Tạo Hà Nội – 2016 1
  2. Công trình được hoàn thành tại: Viện Hàn lâm Khoa Học và Công Nghệ Việt Nam Học viện Khoa học và Công nghệ Người hướng dẫn khoa học: PGS.TS. Lương Chi Mai PGS.TS. Ngô Quốc Tạo Phản biện 1: TS. Trịnh Anh Tuấn Phản biện 2: TS. Nguyễn Phú Bình Phản biện 3: PGS.TS. Vũ Kim Bảng Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Học viện họp tại: . Vào hồi giờ ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam. - Thư viện Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. 2
  3. Phạm vi, nội dung, phương pháp nghiên cứu và kết cấu luận án Cấu trúc tổng thể của luận án được chỉ ra trong Hình 1.2 và các chương còn lại của luận án được tổ chức như sau: Chương 1. Tổng quan về tổng hợp và nhận dạng tiếng nói. Chương 2. Xử lý tiếng nói và các mô hình học máy. Chương 3. Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng việt. Chương 4. Kết hợp tham số cấu âm, formant và thanh điệu để nâng cao chất lượng nhận dạng tiếng Việt. Phụ lục 3
  4. Luận án Tổng hợp tiếng nói Chương 1. tổng quan về Nhận dạng tiếng nói tổng hợp và nhận dạng Các công trình đã xuất bản tiếng nói. liên quan Chương 2. xử lý tiếng nói và các mô hình học máy. Xử lý tiếng nói Mô hình dự báo CART. Mô hình Markov ẩn (HMM, Hidden Markov Model) Chương 3. Dự báo trường độ, âm lượng và tổng hợp thanh điệu tiếng việt Khảo sát một số đặc tính âm học tiếng Việt Dự báo thông tin trường độ, âm lượng của âm tiết tiếng Việt trong ngữ cảnh câu, thử nghiệm đánh giá trong hệ thống tổng hợp Chương 4. kết hợp tham số tiếng Việt theo phương cấu âm, formant và thanh pháp ghép nối điệu để nâng cao chất lượng nhận dạng tiếng Việt Nhận dạng thanh điệu tiếng Việt. Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0 Hệ th ống nhận dạng tiếng Việt nhúng 4
  5. CHƯƠNG 1. TỔNG QUAN VỀ TỔNG HỢP VÀ NHẬN DẠNG TIẾNG NÓI. Chương này trình bày khái niệm tổng hợp và nhận dạng tiếng nói, khái quát về phạm vi ứng dụng của nhận dạng, tổng hợp tiếng nói trong cuộc sống. Trong chương này, các phương pháp tiếp cận nhận dạng, tổng hợp tiếng nói hiện đại, so sánh những ưu, nhược điểm của từng phương pháp cũng được giới thiệu, từ đó đề xuất sử dụng các đặc trưng ngôn điệu để nâng cao chất lượng nhận dạng và tổng hợp tiếng Việt. Phần tiếp theo của chương này, luận án đề cập đến những kiến thức cơ bản,liên quan đến xử lý tiếng nói, trích chọn đặc trưng và các mô hình học máy được sử dụng trong luận án gồm HMM và CART. 1.1. Tổng hợp tiếng nói Hình 1. 1. Hệ thống TTS tổng quát. Nói chung quá trình Tổng hợp tiếng nói bao gồm các giai đoạn chính: i) Chuẩn hóa văn bản và phân tích câu - xử lý ngôn ngữ tự nhiên. ii) Chuyển văn bản sang đơn vị tiếng nói. iii) Dự báo ngôn điệu. iv) Sinh tiếng nói. Câu tổng hợp chưa thay đổi trường độ/âm lượng “Tôi đang học nói tiếng Việt” Thay đổi trường độ/âm lượng của câu tổng hợp Hình 1. 2. Xử lý ngôn điệu tiếng Việt 5
  6. 1.2. Nhận dạng tiếng nói Độ phức tạp của hệ thống nhận dạng tiếng nói thường phụ thuộc vào các yếu tố cơ bản sau : - Môi trường thu nhận tín hiệu. - Tập từ vựng được sử dụng. - Sự phụ thuộc vào người nói. - Kiểu phát âm (rời rạc, kết nối, liên tục). Hình 1.3. Liệt kê các kiểu hệ thống nhận dạng tiếng nói. - Tài nguyên hệ thống. Bảng 1. 1. Các loại nhận dạng tiếng nói Chế độ nói : liên tục. Từ vựng : vừa và nhỏ. Người nói : phụ thuộc và độc lập người nói. Kiểu nói : tự nhiên và mệnh lệnh Môi trường thu nhận tín hiệu Độ chính xác nhận dạng trong các môi trương như : nhà ở-văn phòng; trong ô tô; trong môi trường công nghiệp; nguồn âm có khoảng cách với mic là rất khác nhau, nguyên nhân do tín hiệu nhiễu, tiếng vang gây ra. Bảng 1. 2. Phân loại môi trường theo mức nhiễu Môi trường Độ nhiễu nhà ở-văn phòng [20dB,30dB] ô tô [-5dB, 10dB] Môi trường tự nhiên-công nghiệp [-5dB, 10dB] Tập từ vựng Căn cứ vào số lượng từ nhận dạng mà người ta chia các hệ thống sử dụng công nghệ nhận dạng tiếng nói làm ba loại: số lượng từ vựng nhỏ (30-100), số lượng từ vựng trung bình (100- 500), và số lượng từ vựng lớn (> 500). Sự phụ thuộc người nói Trong hệ thống nhận dạng phụ thuộc người nói, chủ thể tương tác với hệ thống phải là người có dữ liệu tiếng nói trong tập dữ liệu huấn luyện ban đầu của hệ thống. Đối với hệ thống nhận dạng độc lập người nói, người tương tác với hệ thống có thể là bất kỳ. Hệ thống này đòi hỏi phải có một nguồn dữ liệu tiếng nói kích thước lớn của nhiều người nói. Khả năng nhận dạng chính xác của hệ thống độc lập người nói thấp hơn hệ thống phụ thuộc người nói. Tài nguyên hệ thống Tài nguyên hệ thống chủ yếu gồm năng lực tính toán và dung lượng bộ nhớ . Các chip thường chỉ đủ đáp ứng yêu cầu tính toán chấm tĩnh, như vậy hệ thống nhận dạng nếu không được thiết kế tốt thì độ chính xác sẽ bị suy giảm hoặc không đáp ứng được yếu tố thời gian thực. CHƯƠNG 2. XỬ LÝ TIẾNG NÓI VÀ CÁC MÔ HÌNH HỌC MÁY 6
  7. Chương này trình bày tổng quan về các thuật toán khử nhiễu, mô hình học máy HMM và CART 2.1. Xử lý tiếng nói Một số loại nhiễu trong môi trường thực : - Nhiễu hướng (Directional noise) : nhiễu từ hướng như âm TV, giọng nói v.v - Nhiễu khuếch tán (Diffuse noise): nhiễu môi trường, nền v.v - Vang (Reverberation) : nhiễu do trễ khi phản xạ tường, trần nhà v.v - Nhiễu thiết bị : quạt tản nhiệt, cơ cấu chấp hành, mang cả tính hướng và khuếch tán. Hình 2. 1. Quá trình hình thành tiếng nói nhiễu Huấn luyện HMM : Nhận dạng với HMM: Đầu vào gồm T frame các đặc trưng MFCC. Đầu vào gồm T frame các đặc trưng Bước 1: Xác định đãy trạng thái tối ưu bằng MFCC. thuật toán Viterbi: Giải mã theo Viterbi để xác định tập T nhãn, và đãy trạng thái tối ưu ứng với bộ T S ({ st } t 1 ) arg max log p ( O t  , W ) t 1 tham số mô hình HMM đã cho: T Bước 2: Hiệu chỉnh lại tham số mô hình T (W , S { st } t 1 ) arg max log p ( O t , s t ) T t 1 * HMM:  arg max logp ( Ott , s , W ) t 1 Bước 3: Đặt =*, lặp lại tới khi mô hình hội tụ. Đặc trưng MFCC Các hệ nhận dạng tiếng nói thường tách đặc trưng từ tín hiệu bằng cách:chia tín hiệu thành các đoạn độ dài 5-15 ms, mỗi đoạn gọi là một khung (frame). Mỗi frame sẽ cho đặc trưng là một vector và đặc trưng của toàn bộ tín hiệu sẽ là một dãy vector. MFCC là phương pháp trích đặc trưng (theo thang tần số mel, không phải theo Hz) dựa trên đặc điểm cảm thụ tần số âm của tai người: tuyến tính đối với tần số nhỏ hơn 1kHz và phi tuyến đối với tần số trên 1kHz. Việc tính đặc trưng MFCC có sơ đồ như sau 7
  8. Hình 2. 2. Các băng lọc dạng tam giác Kỹ thuật cộng chồng đồng bộ cao độ tần số cơ bản – PSOLA PSOLA (Pitch Synchronous Overlap Add) là phương pháp tổng hợp dựa trên sự phân tích một tín hiệu thành một chuỗi các tín hiệu thành phần, được sử dụng để thay đổi giá trị đường F0 và trường độ trực tiếp trên dạng sóng tiếng nói. 2.2. Mô hình dự báo CART Các cây CART tự nó đã bao gồm các câu hỏi yes/no về các điểm đặc trưng và cuối cùng đưa ra một mật độ xác suât, khi dự đoán các giá trị xác thực (cây phân loại), hoặc một độ lệch tiêu chuẩn khi dự báo các giá trị liên tục (cây hồi quy). Các kỹ thuật tốt có thể được sử dụng để xây dựng một cây tối ưu từ tập dữ liệu huấn luyện. Chương trình được phát triển liên kết với Festival, gọi là Wagon, cung cấp một phương thức cơ bản nhưng đủ mạnh cho việc xây dựng cây. 2.3. Mô hình Markov ẩn (HMM, Hidden Markov Model) Mô hình Markov ẩn được mở rộng khái niệm từ mô hình Markov bằng cách mỗi trạng thái được gắn với một hàm phát xạ quan sát (observation distribution). Ngoài quá trình ngẫu nhiên chuyển giữa các trạng thái, tại mỗi trạng thái còn có một quá trình ngẫu nhiên sinh ra một quan sát. Như vậy trong Mô hình Markov ẩn có một quá trình ngẫu nhiên kép, trong đó có một quá trình ngẫu nhiên không quan sát được. Tập các quan sát O được sinh ra bởi dãy các trạng thái S1, S2, , SN của mô hình, mà dãy các trạng thái này là không thấy được, đó chính là lý do mô hình được gọi là mô hình Markov ẩn (hidden). Mô hình HMM là một máy trạng thái sinh ra dãy quan sát thời gian rời rạc. Tại mỗi đơn vị thời gian (frame), sự thay đổi trạng thái HMM theo xác suất chuyển trạng thái, sau đó sinh ra dãy quan sát Ot tại thời điểm t theo phân bố xác suất đầu ra của trạng thái hiện tại. Một HMM N trạng thái định nghĩa bởi phân bố xác N suất chuyển trạng thái A {aij }i, j 1 , phân bố xác suất N output B {bj (o)} j 1 , phân bố xác suất trạng thái khởi N tạo  { i }i 1 . Ta kí hiệu  (A, B,) là bộ tham số của mô hình. Nhận dạng tiếng nói với mô hình Markov ẩn Các hệ thống nhận dạng dựa trên HMM thường sử dụng đặc trưng chuẩn MFCC và quy trình huấn luyện và nhận dạng theo thuật toán sau: 8
  9. Bảng 2. 1. Thuật toán nhận dạng tiếng nói dựa trên HMM với đặc trưng MFCC. Huấn luyện HMM : Nhận dạng với HMM: Đầu vào gồm T frame các đặc trưng MFCC. Đầu vào gồm T frame các đặc trưng Bước 1: Xác định dãy trạng thái tối ưu bằng MFCC. thuật toán Viterbi: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho: T Bước 2: Hiệu chỉnh lại tham số mô hình T (W , S { st } t 1 ) arg max log p ( O t , s t ) T t 1 * HMM:  arg max logp ( Ott , s , W ) t 1 Bước 3: Đặt =*, lặp lại tới khi mô hình hội tụ. T T S ({ st } t 1 ) arg max log p ( O t  , W ) t 1 CHƯƠNG 3. DỰ BÁO TRƯỜNG ĐỘ, ÂM LƯỢNG VÀ TỔNG HỢP THANH ĐIỆU TIẾNG VIỆT 9
  10. Vấn đề tổng hợp tiếng Việt giọng tự nhiên hiện nay vẫn là một vấn đề phức tạp do tiếng nói tự nhiên hàm chứa rất nhiều hiện tượng ngôn điệu như trường độ, âm lượng và thanh điệu. Chuyên đề này trình bày các đặc trưng tiếng nói phù hợp với đặc thù ngôn ngữ tiếng Việt, các đặc trưng ngữ âm như thanh điệu, trường độ và formant để đạt được hiệu quả nâng cao chất lượng Tổng hợp và nhận dạng tiếng Việt như: Nghiên cứu về các phương pháp tổng hợp và nhận dạng tiếng nói và cách trích chọn các đặc trưng của đối tượng cần nhận dạng. Nghiên cứu về các mô hình ngôn điệu, phân tích đặc trưng tiếng Việt. Nghiên cứu các luật ngôn điệu, đặc trưng tín hiệu để nâng cao chất lượng tổng hợp và nhận dạng tiếng Việt. Hình 3. 1. Sơ đồ của một hệ thống tổng hợp tiếng nói ghép nối. Quy luật biến đổi thanh điệu trong ngữ cảnh Bảng 3. 1. Trường độ nguyên âm trong kết hợp với thanh điệu CTV nam Thanh điệu Trường độ (ms) Huyền Ngang Ngã Sắc Hỏi Nặng 10
  11. Nguyên âm [i] 371 363 313 256 267 158 [e] 332 324 301 257 233 184 [] 357 352 301 258 220 178 [] 331 328 300 274 254 176 [] 339 333 276 276 254 167 [a] 322 317 271 290 222 159 [u] 341 333 275 258 247 186 [o] 345 331 291 289 257 197 [] 367 333 288 291 228 160 Biểu đồ 3.2: Trường độ nguyên âm kết hợp với thanh điệu CTV nữ Trường độ nguyên âm kết hợp với thanh điệu 400 350 300 Huyền 250 Ngang Ngã 200 Sắc Trường độ 150 Hỏi Nặng 100 50 0 i ê e ư ơ a u ô o Nguyên âm Bảng 3. 2. Trường độ nguyên âm trong kết hợp với thanh điệu CTV nữ Thanh điệu Trường độ (ms) Huyền Ngang Ngã Sắc Hỏi Nặng Nguyên âm [i] 379 328 314 260 259 202 [e] 415 353 298 286 276 216 [] 368 346 283 299 280 185 [] 394 354 272 264 257 199 [] 408 363 305 272 288 195 [a] 407 351 312 288 266 171 11
  12. [u] 380 371 289 280 274 187 [o] 404 364 322 294 266 227 [] 370 367 294 273 259 165 Quy luật biến đổi formant của nguyên âm trong ngữ cảnh. Bảng 3. 3. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu CTV Nam Nguyên Ngang Huyền Ngã Hỏi Sắc Nặng âm F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 [i] 291 2231 315 2307 314 2407 309 2445 311 2452 299 2512 [e] 394 2239 401 2195 495 2284 428 2211 443 2263 464 2207 [] 598 2304 571 2274 676 2348 626 2270 640 2322 661 2269 [] 399 1296 710 1659 384 1292 429 1377 386 1321 395 1299 [] 453 1290 874 1860 591 1308 487 1286 522 1319 580 1297 [a] 994 1749 920 1719 970 1716 968 1688 924 1687 943 1714 [u] 466 2125 504 1656 405 1140 398 1014 402 1137 390 984 [o] 456 963 568 1437 489 918 514 1056 539 1229 478 894 [] 793 1116 808 1052 856 1115 801 1051 849 1138 831 1120 Bảng 3. 4. Vùng tần số formant trung bình của các nguyên âm kết hợp với thanh điệu CTV Nữ Nguyên Ngang Huyền Ngã Hỏi Sắc Nặng âm F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 F1 F2 [i] 312 2881 350 2780 363 2933 334 2913 337 2945 366 2968 [e] 516 2420 493 2395 570 2334 486 2446 510 2488 510 2421 [] 685 2569 618 2539 677 2515 688 2608 702 2604 708 2556 [] 353 1303 379 1288 430 1330 379 1235 401 1274 425 1205 [] 548 1225 530 1321 632 1304 532 1312 547 1281 567 1298 [a] 897 1937 846 1630 833 1652 821 1740 863 1743 844 1606 [u] 345 811 365 619 397 701 370 652 379 649 403 698 [o] 509 979 455 790 546 891 450 817 466 800 483 830 [] 744 1216 709 1154 693 1084 719 1164 718 1113 751 1085 Cách điệu hóa đường F0 của âm tiết tiếng Việt. Trong [10][11] các tác giả đã sử dụng phương pháp bình phương tối thiểu để cách điệu hóa tuyến tính đường F0 của các thanh điệu tiếng Việt trong ngữ lưu. Các tác giả đã đi đến kết luận là rất khó để cách điệu hóa tuyến tính đường F0 của một số thanh điệu tiếng Việt như thanh nặng và thanh ngã. Tuy nhiên chúng tôi vẫn tổng hợp được các thanh nặng (cho âm tiết không tận cùng bằng p-t- c/ch) và thanh ngã từ các âm tiết mang thanh điệu – thanh ngang (thanh không dấu). Với các âm 12
  13. tiết tiếng Việt tận cùng bằng p-t-c/ch thì thanh sắc được tổng hợp từ cùng âm tiết gốc nhưng có thanh điệu nặng. Hình 3. 2. Thanh không dấu (âm a) Hình 3. 3. Thanh huyền được cách điệu từ từ một dãy các giá trị F0 đo được 204,208,201,200,196,196,192,192,189,185,182,179,179,170,170. Hình 3. 4. Thanh sắc được cách điệu từ một dãy các giá trị F0 đo được 222,222,209,209,209,209,209,213,213,218,218,228,238,238,256,270,295,346. 13
  14. Hình 3. 5. Thanh nặng được cách điệu từ các giá trị F0 đo được 213,217,222,213,213,208,185,185,80,80. Hình 3. 6. Thanh hỏi được cách điệu từ một dãy giá trị F0 đo được 150,179,188,200,207,208,201,197,192,184,177,174,177,177,179,188,191,184,163,1 50 Để cách điệu hóa thanh điệu, chúng tôi không sử dụng phương pháp cách điệu hóa tuyến tính như [10][11] mà sử dụng mô hình Xu [68] đã được sử dụng rộng rãi cho tiếng Trung Quốc phổ thông –Mandarin. Mô hình Xu để mô hình hóa đường tần số cơ bản F0 của các thanh điệu trong ngữ cảnh (dùng cho các ngôn ngữ có thanh), mô hình này đã áp dụng được cho tiếng Mandarin. F t e t at b , như vậy F0 được tạo ra từ sự kết hợp của 2 thành phần xấp xỉ: Thành phần xấp xỉ tuyến tính: at b Thành phần phân rã hàm mũ của sai số xấp xỉ: e t 14
  15. Việc tính các hệ số của mô hình Xu khi cho trước giá trị đường F0 cũng sử dụng phương pháp bình phương tối thiểu, thay vì tìm các hệ số a,b, , ta xác định các hệ số a,b, k (k=e-) bằng n 1 2 phép cực tiểu hóa như sau:  F0,ii 1 a( i 1) b k F 0, ai b min (3.1) i 1 n ở đó n là số frame của đoạn tiếng nói, F là giá trị đường F0 của đoạn tiếng nói. 0,ii 1 Phương pháp cách điệu hóa sử dụng mô hình của Xu được xây dựng như sau : Bước 1 : Chọn âm tiết gốc có thanh điệu – thanh ngang, thanh nặng cho các âm tiết tận cùng p-t- c/ch, xác định giá trị đường F0 của âm tiết. Bước 2 : Biên tập giá trị đường F0 của thanh điệu cần tổng hợp. Sử dụng mô hình Xu để khớp các tham số a,b,k (các thanh không dấu, huyền, sắc, nặng có một bộ tham số a,b,k, các thanh hỏi và ngã có 2 bộ tham số a,b, k. Thanh sắc của âm tận cùng p-t-c/ch cũng có một tham số a,b,k) Bước 3 : Sử dụng thuật toán PSOLA tổng hợp âm tiết với thanh điệu xác định từ âm tiết gốc (nếu âm tiết gốc không tận cùng là p-t-c/ch thì âm tiết gốc mang thanh điệu –thanh ngang, trường hợp ngược lại thì âm tiết gốc mang thanh điệu là thanh nặng.) Hình 3. 7. Biên tập đường F0 của dấu ngã và tổng hợp dấu ngã. Các kết quả tổng hợp thanh điệu cho tất cả các loại âm tiết tiếng Việt như Chỉ có nguyên âm Không có phụ âm đầu Kết thúc là bán nguyên âm. Kết thúc là p-t-c/ch 15
  16. đã được thực hiện và kiểm tra với sự cộng tác của các nhà nghiên cứu ngữ âm học như Vũ Kim Bảng, Vũ Thị Hải Hà Viện ngôn ngữ, Viện Hàn lâm KHXH Việt Nam đều đưa đến kết luận là âm nghe rõ, không bị hiện tượng rè, thanh điệu tổng hợp nghe rõ ràng, giữ được đường nét đặc trưng thanh điệu tương ứng. Tổng hợp thanh điệu tiếng Việt trong ngữ lưu Trong [42] chúng tôi đã trình bày kết quả tổng hợp ðýờng thanh ðiệu trong ngữ lýu bằng mô hình Fujisaki theo hướng tiếp cận phân tích – tổng hợp. Để phân tích đường nét F0, một công cụ phân tích các tham số của mô hình Fujisaki được sử dụng Fb được đặt bằng 96 Hz cho giọng nam và 210 Hz cho giọng nữ. α và β cho cả giọng nam và nữ được lần lượt đặt bằng 2 Hz và 25 Hz. Các bước tiến hành phân tích bao gồm: Tính đường nét F0. Lựa các chọn lệnh ngữ câu nói. Dựa vào thanh điệu của các âm tiết để lựa chọn các lệnh thanh điệu phù hợp. Điều chỉnh các tham số sao cho đường nét F0 sinh ra xấp xỉ tốt đường nét F0 thực. Tổng hợp lại câu nói với đường nét thanh điệu mới sử dụng phương pháp PSOLA. Cảm nhận bằng tai câu nói tổng hợp, so sánh với câu nói gốc và điều chỉnh lại. Các kết quả phân tích cơ sở dữ liệu cho thấy, các thanh ngang, sắc, ngã được biểu diễn bằng một lệnh thanh điệu dương, thanh huyền và hỏi được biểu diễn bằng một lệnh thanh điệu âm, thanh nặng không cần lệnh thanh điệu. Bảng 3. 5. Biểu diễn các 6 thanh điệu tiếng Việt bằng các lệnh thanh điệu Thanh điệu Biểu diễn bằng lệnh thanh điệu Ngang Một lệnh thanh điệu dương ở trước âm tiết Sắc Mộtlệnh thanh điệu dương Hỏi Một lệnh thanh điệu âm Huyền Một lệnh thanh điệu âm Ngã Một lệnh thanh điệu dương Nặng Một dùng lệnh thanh điệu Các câu được phân tích chỉ sử dụng một lệnh ngữ cho cả câu, phù hợp với hiện tượng trong câu nói, người nói th ường lên giọng ở đầu câu và hạ giọng ở cuối câu. Tuy nhiên trong tiếng Việt hiện tượng này không rõ rệt như ở các ngôn ngữ khác nên cường độ của lệnh ngữ này không lớn. 16
  17. Hình 3. 8. Kết quả phân tích thanh điệu tiếng Việt bằng mô hình Fujisaki Thanh ngã và thanh sắc được biểu diễn bằng môt lệnh ngữ điệu dương phù hợp với nhận xét về sự giống nhau giữa 2 thanh này trong phần trước. Thanh hỏi có đường nét F0 đi xuống, đến giữ a thanh, đường nét F0 lại đi lên, thanh này giống thanh T3 (low tone) của tiếng Trung và được biểu diễn bằng một lệnh thanh điệu âm giống như trường hợp của tiếng Trung. Bảng 3. 6. Giá trị trung bình và độ lệch chuẩn của các tham số Fujisaki cho các thanh điệu. Thanh Aa T1rel T2rel 1 .218 -.09 .86 2 .523 .61 1.04 3 .556 .53 1.11 4 -.341 .45 .91 5 -.132 .37 1.07 6 .00 - - 6’ -.378 .42 .70 2’ .617 .16 .84 Quy định thời gian đơn giản được xây dựng bằng thực nghiệm. Các kết quả được thể hiện trong Bảng 3.6 và 3.7. Thời gian được đo bằng 10 đơn vị mi li giây. Kết quả thống kê cho thấy thời gian của âm phụ thuộc nhiều hơn nữa về thanh điệu hơn vị trí. Âm với thanh điệu 3, 6 'và 2' ngắn hơn những âm khác. Kết quả cho thấy các đường bao F0 được tạo ra bởi các mô hình Fujisaki nói chung làm việc tốt cho câu tiếng Việt. Phân lớp thanh điệu trong ngữ cảnh câu Trong [4] chúng tôi đã trình bày cách phân lớp thanh điệu trong ngữ lưu. Cách tiếp cận này dùng phương pháp lượng tử hóa các dạng đường thanh điệu để quy về một số lớp thanh điệu có đường nét đặc trưng cho mỗi lớp. Sau khi lượng tử hóa dùng cây quyết định khảo sát sự chuyển lớp của các thanh điệu dựa trên thông tin văn bản. Từ đó đưa ra những khảo sát hiện tượng biến thanh trong tiếng Việt nhằm cải tiến ngôn điệu trong hệ tổng hợp tiếng Việt. Số lượng các dạng đường thanh điệu trong câu liên tục tăng lên rất nhiều lần so với âm tiết rời rạc, để phân cụm các đường thanh điệu về một số lớp, dùng phương pháp lượng tử hóa tập các đường thanh điệu mẫu quy về một số lớp hữu hạn. Số lớp này lớn hơn số các đường thanh 17
  18. điệu tiếng Việt 6 thanh. Trong luận án chỉ xét sự biến thiên đường thanh điệu trong 3 âm tiết liên tục. CSDL Tập các Phân Codeboo âm và gán véc tơ F0 cụm k nhãn văn bản huấn luyện LBG Chỉ số CSDL Véc tơ F0 âm tiết vào Bộ lượng codebook tử hóa âm tiết (lớp thanh biến điệu) thanh Hình 3. 9. Sơ đồ khối chung của quá trình huấn luyện và phân lớp các đường thanh điệu sử dụng Cơ sở dữ liệu tiếng nói huấn luyện mô hình dự báo Cơ sở dữ liệu gồm hơn 1250 câu tiếng nói đọc bởi phát thanh viên chuyên nghiệp, giọng Hà Nội, đã được sử dụng trong phần thực nghiệm này. Tập câu được ghi âm với tần số lấy mẫu là Fs=22050Hz, đơn kênh, độ phân giải một mẫu là 16bit. Để tăng độ chính xác của giá trị ngôn điệu được dự báo như trường độ và âm lượng của âm tiết trong câu tổng hợp, chúng tôi đã tiến hành phân tích các tham số thống kê chi tiết của các giá trị này trong các ngữ cảnh âm vị khác nhau của cơ sở dữ liệu câu huấn luyện như được tóm tắt ở các bảng dưới đây: Bảng 3. 7. Bảng độ dài âm vị không tính ngữ cảnh Tên âm vị Tần suất Độ dài min Độ dài max Trung bình Độ lệch (s) (s) chuẩn a 2280 0.021855 0.646632 0.119814 0.066424 iz 1948 0.016414 0.390000 0.078273 0.043617 m 710 0.025538 0.245256 0.085783 0.033361 aw 828 0.024235 0.242580 0.077581 0.029928 mz 487 0.026109 0.295968 0.117891 0.046261 k 1315 0.015311 0.320000 0.041839 0.017588 th 599 0.022596 0.162560 0.066307 0.023378 ch 687 0.020341 0.300000 0.061498 0.022193 cz 619 0.011557 0.127612 0.044278 0.021161 s 332 0.024672 0.210381 0.104234 0.043465 uz 673 0.019240 0.481884 0.097447 0.045938 kh 291 0.018458 0.215535 0.093406 0.029868 Bảng 3. 8. Độ dài nguyên âm a ràng buộc bởi phụ âm đầu, âm cuối Nguyên Âm đầu Âm cuối Tần suất Độ dài Độ dài Trung bình Độ lệch âm min (s) max chuẩn a ch,th,ph null 53 0.067591 0.354356 0.167803 0.061436 m,n,n,ng ban 67 0.034432 0.162890 0.082867 0.032960 nguyen 18
  19. am Bảng 3. 9. Bảng độ dài âm cuối ràng buộc bởi nguyên âm Âm cuối Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch chuẩn cz aw 37 0.017871 0.103455 0.048423 0.022201 cz i 11 0.019492 0.064362 0.033094 0.012113 iz uo 31 0.027146 0.200000 0.086638 0.049505 iz uwow 173 0.018976 0.169185 0.063940 0.034708 mz aa 48 0.049768 0.295968 0.137286 0.051088 mz ow 16 0.074060 0.256748 0.130268 0.045005 pz a 9 0.026369 0.069933 0.042885 0.015182 pz aw 15 0.018157 0.112483 0.055905 0.028921 tz a 48 0.019623 0.090000 0.041001 0.016166 tz aw 74 0.016356 0.134143 0.044069 0.023076 uz aw 142 0.023469 0.481884 0.110776 0.058130 uz e 38 0.027209 0.187259 0.073656 0.032710 uz uw 8 0.049287 0.118485 0.076594 0.023276 Bảng 3. 10. Bảng độ dài phụ âm đầu ràng buộc bởi nguyên âm Phụ âm đầu Nguyên âm Tần suất Độ dài min Độ dài max Trung bình Độ lệch chuẩn b aw 54 0.025391 0.207781 0.076246 0.030834 b ee 28 0.036980 0.120000 0.074974 0.019760 ch a 20 0.034816 0.102819 0.063057 0.015888 ch u 67 0.024178 0.300000 0.059879 0.034934 h i 21 0.036870 0.090697 0.060960 0.015621 h u 11 0.040000 0.157039 0.078191 0.034558 k e 22 0.022826 0.170296 0.043214 0.030460 k ee 42 0.020343 0.062757 0.039003 0.011922 k u 115 0.015311 0.078733 0.038037 0.012070 kh a 42 0.052388 0.167643 0.100004 0.025507 kh ie 12 0.051503 0.210360 0.110791 0.046332 l a 369 0.029959 0.165244 0.074203 0.026375 l oa 23 0.052390 0.124459 0.087344 0.020237 l oo 20 0.042708 0.190000 0.094174 0.039680 m a 158 0.033945 0.206957 0.078506 0.029608 m aa 45 0.028441 0.166226 0.095594 0.034975 m uwow 28 0.025538 0.145181 0.071455 0.027013 ph a 61 0.023593 0.138148 0.066544 0.023755 ph uwow 33 0.049614 0.153171 0.090524 0.021938 s a 63 0.028638 0.186613 0.110303 0.036228 s aa 13 0.026092 0.183017 0.077653 0.050040 t ow 25 0.018038 0.114752 0.036266 0.022071 t u 33 0.012559 0.060969 0.028529 0.011556 th aa 74 0.023631 0.100928 0.056069 0.017729 th ie 22 0.028795 0.121672 0.077662 0.026268 v a 151 0.020957 0.162675 0.061447 0.029520 v uwow 15 0.035674 0.083957 0.062528 0.011667 Dự báo ngôn điệu Trong kỹ thuật tổng hợp tiếng Việt, chất lượng tổng hợp tập trung chính vào trường độ và cao độ của âm vị, đó là hai tham số chính truyền đạt thông tin ngữ âm. 19
  20. Bộ phân tích ngôn điệu của hệ thống TTS tập trung vào việc tính toán giá trị của tập các biến ngữ âm. Trong một dạng tối thiểu, các biến này là trường độ âm vị và F0. Việc tính toán các giá trị như vậy có thể dựa vào các quy luật hoặc dựa vào các phương pháp học máy, như mô hình CART. Kết quả trên việc sử dụng CART được huấn luyện với các phong cách đọc khác nhau đã được nghiên cứu trong nhiều hệ thống TTS tiếng nước ngoài cũng như cho tiếng Việt, điểm mới ở đây là chúng tôi vận dụng mô hình dự báo CART để dự báo cả trường độ và âm lượng của các đơn vị tiếng Việt như âm vị, âm tiết và sử dụng giá trị gián tiếp Z-score được tính dựa trên các tham số thống kê của đơn vị âm trong ngữ cảnh câu, thay thế cho các giá trị trường độ gốc của đơn vị âm. Hai hệ số đo sai số là dự báo hệ số tương quan và trung bình độ lệch bình phương cho mô hình CART được cho như sau: M obs pred dobs d d pred d  mm R m 1 (3.1) MM obs22 pred dobs d d pred d  mm mm 11 M 2 1 obs pred (3.2) RMSE  dmm d M m 1 obs obs Ở đây M là kích thước dữ liệu của tập huấn luyện hoặc kiểm tra, d m , d là trường độ và pred pred trung bình thực tế, dm , d là trường độ và trung bình dự đoán của mô hình. Thử nghiệm và kết luận Sau khi huấn luyện mô hình dự báo CART các tham số đánh giá độ chính xác dự báo trường độ của âm tiết của các câu không năm trong cơ sở dữ liệu âm huấn luyện đạt được với R=0.87 và RMSE=0.044(s). Các ước lượng này là tốt hơn xét trên độ lớn của tập câu huấn luyện và dự báo và so sánh với các kết quả của các tác giả khác, ở đó độ chính xác dự báo là R=0.5794 và RMSE=0.0531(s). Ngoài ra việc dự báo giá trị âm lượng đã đạt được kết quả tốt, âm lượng của các âm tiết ở giữa và các âm tiết là từ dừng như “rằng”, “thì”, “là”, “và”, “mà” v.v là hoàn toàn phù hợp trong câu được tổng hợp. Chúng tôi đã ứng dụng mô hình dự báo ngôn điệu tiếng Việt ở mức câu vào bộ tổng hợp tiếng Việt Vnvoice (một sản phẩm thương mại được viết chính bởi tác giả bài báo). Vnvoice đã có đầy đủ các mô đun chuẩn hóa văn bản tiếng Việt [3] [30] cho hệ thống TTS, ngoài ra Vnvoice còn có tính năng phân biệt từ tiếng Anh trộn lẫn trong văn bản tiếng Việt, phát âm tự động các âm tiết trong câu văn bản, chèn khoảng lặng thích hợp vào các âm tiết tận cùng hoặc bắt đầu là p-t-c/ch, âm tiết mang dấu nặng [3], thay đổi tốc độ đọc (nhanh và chậm) v.v Đầu ra tín hiệu âm thanh của Vnvoice được biến đổi về trường độ/âm lượng sử dụng mô đun dự báo tích hợp bên trong. 20
  21. Hình 3.11. Câu “Lũ trẻ bắt được cà ra đem bán lấy tiền mua sách.” trong CSDL ngữ âm.(xem Phụ lục) Hình 3.12 : Hệ phát âm tài liệu Microsoft Word sử dụng nhân của Vnvoice. Thử nghiệm cho thấy chất lượng âm tổng hợp đã cải thiện được độ tự nhiên khi được điều khiển trường độ và âm lượng ở mức độ âm tiết của câu tổng hợp. 21
  22. “Tôi đang học nói tiếng Việt” “Tôi đang học nói tiếng Việt” Câu tổng hợp từ Vnvoice chưa thay đổi Thay đổi trường độ/âm lượng của câu tổng trường độ/âm lượng hợp Hình 3. 13. Thay đổi trường độ/âm lượng của đầu ra của Vnvoice Đánh giá kết quả Để đánh giá độ tự nhiên tiếng nói tổng hợp sau khi ghép phần dự báo trường độ và âm lượng, chúng tôi sử dụng độ đo MOS (Mean Opinion Score) Người nghe đánh giá chất lượng tiếng nói của mô đun tổng hợp Vnvoice trước và sau khi ghép mô đun dự báo trường độ và âm lượng khác nhau trên cùng tập câu mẫu. Thang điểm đánh giá trong bảng dưới đây: Bảng 3.13: Thang điểm độ đo MOS. Chất lượng tiếng nói tổng hợp Đ iểm Xuất sắc 4.1 – 5 Tốt 3.1 – 4 Bình thường 2.1 – 3 Kém 1.1 – 2 Tồi 0 – 1 Phương pháp này đo sự ảnh hưởng của ngôn ngữ và yếu tố tâm lý. Văn bản kiểm tra được phân thành một số chủ đề khác nhau như: chính trị, kinh tế, thể thao, khoa học, Văn bản mẫu này cho người nghe đánh giá toàn bộ chất lượng tiếng nói tổng hợp ở theo các phương pháp tổng hợp khác nhau và cho điểm. Điểm trung bình là điểm cuối cùng để đánh giá. Chúng tôi chọn 10 cán bộ nghiên cứu của Viện ngôn ngữ trong đó có 4 chuyên gia về ngữ âm học để đánh giá. Bảng 3.14: Kết quả đánh giá tính tự nhiên các hệ thống tổng hợp tiếng Việt. Mô đun tổng hợp Vnvoice Vnvoice có ghép dự báo MOS Av  Av 22
  23. 3.6 0.6 3.8 0.4 Trong đó Av là điểm trung bình đánh giá,  là độ lệch chuẩn. Theo độ đo MOS, các kết quả thu được tương ứng chất lượng tiếng nói như sau: Điểm Chất lượng MOS (4.0 - 4.5) Tự nhiên, giọng người nói. Dễ hiểu, phù hợp với các ứng dụng thông (3.5 ,4.0) báo, truyền thông. (2.5 ,3.5) Giọng nhân tạo, không tự nhiên. Hệ tổng hợp VnVoice cải tiến (3.8 điểm) tốt hơn so với VnVoice khi chưa ghép mô đun dự báo âm lượng và trường độ (3.6 điểm). Tuy nhiên, VnVoice đã cải tiến vẫn cần hoàn thiện hơn nữa bằng cách thử nghiệm các mô hình thanh điệu và mô hình trường độ khác nhau. Tổng hợp tiếng Việt trên hệ thống tài nguyên hạn chế Khi mà xử lý tiếng nói trên máy tính đã đạt được những thành tựu rất khả quan, người ta đã nghĩ đến việc nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ thống có tài nguyên hạn chế để đáp ứng những mục đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc thù của hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các hệ thống này cũng cần sử dụng lượng bộ nhớ và chí phí tính toán đủ nhỏ. Các nhà nghiên cứu trên thế giới đã đạt được những thành công ngay cả trên những hệ thống có tài nguyên rất khiêm tốn như các loại chip với khả năng lưu trữ và tính toán rất thấp. 23
  24. CHƯƠNG 4. KẾT HỢP THAM SỐ CẤU ÂM, FORMANT VÀ THANH ĐIỆU ĐỂ NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG TIẾNG VIỆT Các tác giả đã đưa ra một mô hình sử dụng ngôn điệu để nâng cao chất lượng nhận dạng tiếng nói trong đó mô hình cho từ và âm vị là hai mô hình cho từ và nhận dạng được xây dựng trên ngữ điệu của một ngữ đoạn tiếng nói và trọng âm các phân tích lý thuyết và thực nghiệm đã chứng tỏ rằng: thông tin âm học kết hợp với ngữ điệu và mô hình ngôn ngữ đã tăng thông tin cho việc đưa ra giả thuyết từ đúng để quyết định từ đúng. Bộ nhận dạng tiếng nói có tích hợp của các tác giả đã rút gọn được 11% lỗi so với bộ nhận dạng không có kết hợp ngôn điệu. Ngoài ra các tác đã phân tích ảnh hưởng của ngôn điệu đối với các hệ số MFCC. Các tác giả đã kết hợp thông tin tần số cơ bản để xây dựng bộ lọc thay thế phép lọc truyền thống – tam giác trong quá trình tính toán các hệ số MFCC, với bộ lọc này các tác giả đã chứng tỏ hệ số MFCC được biến đổi đã tăng khả năng phân biệt và giảm ảnh hưởng nhiễu của bộ nhận dạng tiếng nói. Các tác giả đã kết hợp giá trị của tần số cơ bản vào đặc trưng MFCC bình đẳng như các thành phần khác của vector hệ số MFCC. Với một thử nghiệm có giới hạn cho một bộ nhận dạng tiếng nói liên tục các tác giả đã chỉ ra khả năng tăng độ chính xác nhận dạng khi kết hợp đặc trưng thanh điệu tiếng Việt vào bộ nhận dạng Trong chương này chúng tôi trình bày các kết quả nghiên cứu của chúng tôi trong vấn đề kết hợp đặc trưng thanh điệu và đặc trưng cấu âm của người nói để tăng độ chính xác của bộ nhận dạng tiếng nói rời rạc hoặc liên tục Đặc trưng MFCC với phép chuẩn hóa độ dài cấu âm VTLN kết hợp với F0 Nghiên cứu các ảnh hưởng của hiện tượng ngôn điệu tiếng Việt như thanh điệu, các tần số formant và trường độ âm tiết trong các hệ thống nhận dạng tiếng Việt là một vấn đề tất yếu nhưng hiện tại ít được đề cập tới trong các công trình nghiên cứu về xử lý âm thanh tiếng Việt. Các hệ thống nhận dạng tiếng Việt dựa trên HMM thường dựa trên đặc trưng chuẩn MFCC 24
  25. Một số nghiên cứu gần đây đã khảo sát đường thanh điệu tiếng Việt trong ngữ cảnh để nhận dạng thanh điệu và cải tiến kết quả nhận dạng từ và câu tiếng Việt. Các tiếp cận này chủ yếu vẫn ghép trực tiếp đặc trưng thanh điệu vào các kiểu đặc trưng tiếng nói như MFCC, PLP. Có một tiếp cận khác sử dụng giá trị đường F0, các tần số formant để xây dựng một phép hiệu chỉnh lại các đặc trưng MFCC, dẫn đến kiểu đặc trưng không phụ thuộc người nói trong cả quá trình huấn luyện và nhận dạng, qua đó kết quả nhận dạng của các hệ thống không phụ thuộc người nói được cải thiện đáng kế. Phép chuẩn hóa VTLN VTLN là phép chuẩn hóa tín hiệu tiếng nói để VTL đạt được mức trung bình nhờ các tham số hiệu chỉnh tần số cho mỗi người nói hoặc một phát âm. Có hai tiếp cận chính cho VTLN, một là ước lượng hệ số hiệu chỉnh tần số dựa vào đặc điểm âm học của người nói như các tần số formant, hai là cách duyệt trên lưới của tham số hiệu chỉnh để tối ưu hóa hàm mục tiêu của mô hình nhận dạng. Hình 4. 1. Hiệu chỉnh tần số và trích chọn đặc trưng MFCC Biểu diễn tiếng nói đầu vào đã qua tiền xử lý x(t) trong miền tần số bằng biến đổi FFT: X()= H()S() + N(), ở đó H() là biến dạng kênh và N() nhiễu cộng của tín hiệu. Sử dụng M bộ lọc tam giác với khoảng cách giữa các vị trí k trong thang tần số mel:  k 1 ,[,]    kk 1 kk 1 2 (4.1) Bk () , Y()()() m B X ,0 m M-1 (*)   k k 1 ,[,]    [,] kk 11  kk 1 kk 1 1 M 1 nm 2 MFCC(n) =  cos log Y ( m ) , 0 n N-1 (4.2) m 0 M Khi đó với phép hiệu chỉnh tần số có dạng ’= () thì công thức (*) trở thành : 2 (4.2) Y( m )  Bk ( ) X ( (  ))  [,] kk 11  Tổ hợp giá trị F0 và chuẩn hóa VTLN Phương pháp ghép giá trị F0 vào các hệ số MFCC đã được nắn lại sau phép hiệu chỉnh tần số đề xuất trong nghiên cứu của tác giả này được thực hiện gồm 4 bước chính sau: Bước 1. Xác định tham số và hiệu chỉnh lại các vector đặc trưng MFCC nhờ phương pháp huấn luyện hợp lý cực đại ML (xem quy trình nêu ở bước 4) Bước 2. Tính F0 theo thuật toán RAPT, nội suy xác định giá trị liên tục của đường F0 trên cả đoạn vô thanh. Làm trơn và chuẩn hóa các giá trị F0. 25
  26. Bước 3. Kết hợp F0 với các hệ số MFCC đã hiệu chỉnh Thuật toán xác định tham số hiệu chỉnh dựa trên phương pháp huấn luyện hợp lý cực đại ML (maximum likelihood) được cài đặt như sau : Bước 4. Huấn luyện và giải mã. d. Giai đoạn huấn luyện : Với mỗi phát âm tiếng nói đã gán nhãn W, gồm T frame Bước 1: Khởi tạo =1.0 và xác định dãy trạng thái tối ưu bằng thuật toán Viterbi: T T S ({ st } t 1 ) arg max log p ( O t , W ), O t O t ( ) t 1 Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : T * arg max logp ( O  , s ), O O ( ) [,] min m ax  t t t t t 1 Bước 3: Thực hiện phân đoạn cưỡng bức (forced alignment) dựa trên bộ nhãn W và tham số hiệu chỉnh * và hiệu chỉnh lại tham số mô hình HMM: T * arg max logp ( O  , s , W ), O O ( )  t t t t * t 1 Bước 4: Đặt = *, và =*, lặp lại tới khi mô hình hội tụ. e.Giai đoạn giải mã (nhận dạng): Với một phát âm đầu vào gồm T frame Bước 1: Giải mã theo Viterbi để xác định tập nhãn, và dãy trạng thái tối ưu ứng với bộ tham số mô hình HMM đã cho: T T (W , S { st } t 1 ) arg max log p ( O t , s t ) t 1 Bước 2: Duyệt tìm giá trị tối ưu trên lưới giá trị của tham số : Bước 3: Giải mã Viterbi lần nữa với tham số * để xác định tập nhãn đầu ra: T * * W arg max log p ( Ott , s ) (4.4) t 1 Do thuật toán HMM chuẩn có độ phức tạp là O(VN2T), ở đây N là số trạng thái của mô hình HMM (N = 5 trong thử nghiệm này), V số phần tử từ vựng (V = 117 trong thử nghiệm này, là số âm vị với các nguyên âm mang thanh điệu) và T là số frame đầu vào , nên độ phức tạp của thuật toán HMM có kết hợp với VTLN là O(KVN2T), trong đó K là số giá trị rời rạc hóa trên lưới giá trị của tham số [ min, max] (ở đây min = 0.85, max = 1.15, mức rời rạc hóa theo bước 0.0001) 26
  27. Thử nghiệm trên tập tên riêng phức tạp Tập thử nghiệm của ứng dụng là tên của khoảng 300 trường Đại học và Cao đẳng trong nước (một số tên trường có thể không còn trong thực tế). Tập âm vị tiếng Việt gồm khoảng 52 âm vị bao gồm các phụ âm đầu, âm đệm, nguyên âm chính với thanh điệu và âm cuối tương ứng với 52 mô hình HMM cần được huấn luyện. Giá trị đường F0 và các vector đặc trưng MFCC được trích chọn với các frame độ dài 25 mili giây, phần trùng nhau giữa 2 frame liên tiếp là 15 mili giây. Các vector đặc trưng gồm 12 hệ số MFCC và 1 hệ số năng lượng và các sai phân bậc 1 và bậc 2 của 13 hệ số này. Các HMM có hàm mật độ xác suất liên tục. Việc hiệu chỉnh các vector MFCC và ghép giá trị F0 sử dụng phương pháp đã trình bày ở trên. Bảng 4. 1. Bảng kết quả thực nghiệm kiểm tra Người Đặc trưng chuẩn MFCC Đặc trưng MFCC + F0 VTLN-MFCC + F0 đọc mức từ mức câu mức từ mức câu mức từ mức câu Nu1 93,8 82,2 92,7 81,2 96,7 88,5 Nu2 97,0 86,3 97,3 88,4 97,6 89,4 Nu3 95,5 82,8 93,4 78,7 96,4 87,8 Nu4 97,4 90,9 97,0 88,8 97,6 91,9 Nu5 95,5 85,1 97,1 91,0 98,9 97,0 Nu6 86,7 67,7 88,1 72,9 91,8 81,2 Nu7 95,7 84,6 96,9 89,9 98,1 93,8 Nam1 98,6 92,9 98,5 92,9 98,9 94,9 Nam2 95,3 79,0 96,5 86,0 97,3 88,0 Nam3 97,1 88,8 97,7 93,9 98,6 96,2 Trung 95,3 84,6 95,6 86,4 97,1 90,6 bình Ước lượng tham số chuẩn hóa VTLN bằng phương pháp formant tham số VTLN đề xuất cách ước lượng tự động từ các giá trị trung bình của formant F3 của tiếng nói đầu vào và của tập huấn luyện, tuy nhiên các tác giả không đưa ra cách tính trong trường hợp thời gian thực và trong trường hợp frame tiếng nói đầu vào là vô thanh (các giá trị F0, formant không xác định được) Xấp xỉ giá trị trung bình trong thời gian thực: Nếu cho trước N hữu hạn số thực x1, x2, ,xN thì dễ dàng tính được giá trị trung bình N  xk x k 1 . Phép tính giá trị trung bình tuy đơn giản nhưng thường xuyên được sử dụng trong mean N phép chuẩn hóa đặc trưng MFCC để giảm thiểu sai lệch về phổ giữa đặc trưng của tập người huấn luyện và đặc trưng của người nói mới. 27
  28. N N mfcck N k 1 mfcc mfcc mfcc utt kk 1  k N  k 1 Ở đây N là số frame của ngữ đoạn tiếng nói, mfcc N là dãy N vector đặc trưng MFCC của N k k 1 frame. Trong [12] [39] các tác giả đã chứng tỏ chỉ với phép chuẩn hóa CMN đã cải thiện được độ chính xác nhận dạng tiếng nói. Trrong thời gian thực, số frame không được xác định cho tới khi bộ tìm kiếm điểm đầu và cuối (Endpoint detector) phát hiện được. Vấn đề có thể phát biểu hình thức như sau: Cho trước x là dãy vector số có số chiều hữu hạn , xác định dãy vector y như nn 1 n n 1 sau: y1= y0+x1, yn= yn-1 + xn, n=2,3 , , (0,1), + =1, y0 = 0 hoặc được xác định trước. Trong các ứng dụng xử lý tín hiệu số, tiếng nói hoặc dữ liệu ảnh thường các vector xn biến đổi xung quanh một giá trị trung bình (tổng quát là kiểu các biến ngẫu nhiên có cùng phân bố)sau khi phép tiền xử lý tín hiệu đã đi qua một phép phân cụm, phân loại tín hiệu (chẳng hạn phép phân loại tín hiệu nền/nhiễu/tiếng nói trong xử lý tiếng nói.) Mệnh đề 1:  N > 1, n>N nn 1 xxkk  2axNmxk (1)ax n Nmxx n k 2ax Nmx k ( nNmxx )ax n k yy k 1  k 1 1 k N k n 1 k N k n nnn 1 n 11 n n n Từ ước lượng này ta thấy để yn gần giá trị trung bình thông thường của x1,x2, ,xn ta có thể chọn  rất gần 0. Mệnh đề 2:  N > 1, n > N. N yn N y2 N y n y N max x n l N x l N 1 l n N Mệnh đề 3: xy là dãy có tổng trung bình các phần tử xấp xỉ 0 tại mọi thời điểm. nnn 1 n yn Nhận xét : Với tín hiệu tiếng nói, thường x1,y1 xấp xỉ vector 0, nên  xykk k 1 1 Dựa trên [38], chúng tôi đề xuất cách ước lượng tham số VTLN như sau cho dãy frame tiếng nói câu đọc vào [CT5]: FF3 0 3train , nếu frame(i) là hữu thanh aF3 i 1 bF 3 i Fi3 (4.5) 28 Fi31
  29. , trái lại ở đây a, b là 2 hệ số, a,b (0,1), a+b =1, chúng tôi chọn a=0.95, b=0.05 khi thực nghiệm.   F3train (4.6) im min max , ax , min    Fi3 Ở đây F3train là giá trị trung bình format F3 trên toàn tập các frame hữu thanh của tiếng nói huấn luyện, F3(i) là các giá trị ước lượng formant F3(i) từ thuật toán RAPT. Nhận dạng thanh điệu tiếng Việt Trong chương này chúng tôi trình bày các kết quả nghiên cứu của chúng tôi trong vấn đề kết hợp đặc trưng thanh điệu và đặc trưng cấu âm của người nói để tăng độ chính xác của bộ nhận dạng tiếng nói rời rạc hoặc liên tục Nhận dạng thanh điệu là vấn đề phức tạp ngay cả với các hạn chế là tiếng nói được đọc rời từng âm tiết và cho một người nói xác định. Để đặc trưng hóa các thanh điệu tiếng Việt, ngoài tần số cơ bản F0 thì cần có thêm một số tham số khác như trường độ, năng lượng. Trong ngữ lưu tiếng nói có sự biến thanh mà để lượng hóa nó chúng ta cần phải dùng đến các mô hình lượng hóa phức tạp như Fujisaki, Xu. Trong dạng rời rạc, đường nét thanh điệu mới tương đối ổn định, nhưng cũng không dễ dàng khu biệt được chúng, chẳng hạn có giọng nói thanh huyền có đường nét rất giống với thanh hỏi. 29
  30. T1 T8 Phân lớp Nơ ron Chuẩn hóa Tính đặc trưng thanh điệu Trích chọn F0 Sóng âm tiết Hình 4. 2. Sơ đồ nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc (4.7) ww (4.8) ju min j : j j max , E j 1 0.9 E m ax , E j 0.9 E m ax (4.9) jl max j : j j u , E j 0.1 E max , E j 1 0.1 E m ax Để tăng độ chính xác của kết quả nhận dạng thông qua mạng nơ ron dựa trên tri thức về sự phụ thuộc thanh vào trường độ âm tiết, chúng tôi sử dụng các luật Heuristic sau để loại nhanh một số trường hợp: Luật 1: trung bình (F0) > Fbeas thanh cao ngược lại thanh thấp. Luật 2: Dur(F) > D0 (ms): không phải các âm tiết có phụ âm cuối là p-t-c FFmax min Luật 3: Frate : không phải thanh huyền. Fmid Trong [6], tác giả đã sử dụng các đặc trưng của một thanh điệu tiếng Việt gồm: F0 ban đầu, F0 sau cùng, giá trị độ tăng của F0, trường độ thanh điệu, tỷ số giảm của năng lượng, kết hợp với cấc Luật 1, 2, 3 (trong thực nghiệm, tham số D0=300, =200, Frate = 0.3 ứng với giọng nữ được kiểm tra.) trên để nhận dạng 8 hiện tượng thanh điệu tiếng Việt, âm tiết rời rac, phụ thuộc người nói với kết quả nhận dạng trên 93%. Đây cũng là kết quả được báo cáo trong đề tài KC.01.03 [88]. STT Thanh điệu Số mẫu huấn liệu Số mẫu kiểm tra Kết quả(%) 1 Thanh ngã(x) 214 54 96.20 2 Thanh huyền(f) 422 110 99 3 Thanh hỏi (r) 394 101 93.06 4 Thanh ngang 438 215 96.70 30
  31. (middle) 5 Thanh sắc(s) 417 182 98,30 6 Thanh sắc có kết 273 78 97,40 thúc âm tiết /p/, /t/, /k/ (s2) 7 Thanh nặng (j) 341 94 98,90 8 Thanh nặng có 187 46 93,40 kết thúc âm tiết /p/, /t/, /k/ (j2) Hệ thống nhận dạng tiếng Việt nhúng Chúng tôi này trình bày phương pháp thiết kế hệ nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị di động như robot hút bụi, xe lăn điện dựa trên chip vi hệ thống họ PSoC5 và OMAP3, các đặc trưng MFCC đã được hiệu chỉnh theo VTLN và các tính toán đặc trưng và quá trình giải mã HMM được tăng tốc nhờ các phép tính toán chấm tĩnh độ chính xác cao cho hiệu năng và chất lượng nhận dạng so sánh được với cùng hệ thống trên PC. 31
  32. Hình 4. 3. Sơ đồ tích hợp nhận dạng tiếng nói điều khiển thiết bị DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ [CT1] Ngô Hoàng Huy, Dự báo các giá trị ngôn điệu tiếng Việt cho tiếng nói tổng hợp, Tạp chí Công nghệ Thông tin và Truyền thông, Tập V-1 số 6(26), 09-2011, trang 236-241. [CT2] Ngô Hoàng Huy, Tổ hợp đường F0 và VTLN cho nhận dạng tên riêng tiếng Việt, Tạp chí Tin học và Điều khiển học, trang 273 – 282, Tập 27, số 3, 2011. 32
  33. [CT3] Ngô Hoàng Huy, Phạm Thượng Cát, Nguyễn Trịnh Nguyên, Nguyễn Tu Trung, Ngô Trần Anh, (2012) Thiết kế hệ thống nhận dạng khẩu lệnh tiếng Việt điều khiển thiết bị tự hành trên nền các vi hệ thống điện năng thấp với phép chuẩn hóa VTLN – MFCC. Hội nghị Cơ điện tử. VCM-2012. [CT4]Nguyễn Tu Trung, Ngô Hoàng Huy, (2014) Tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho hệ tổng hợp Tiếng Việt dựa trên ghép nối. Hội nghị quốc gia lần thứ VII "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin", FAIR 2014. [CT5]Ngô Hoàng Huy, Trích chọn đặc trưng âm học tiếng Việt dựa trên F0 và biến thể của MFCC với ước lượng VTLN từ các giá trị formant. Hội nghị quốc gia lần thứ VII "Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin", FAIR 2014. TÀI LIỆU THAM KHẢO Tiếng Việt 1. Đặng Ngọc Đức, Lương Chi Mai “Tăng cường độ chính xác của hệ thống mạng nơ ron nhận dạng tiếng Việt”, Tạp chí Bưu chính Viễn thông - Chuyên san các công trình nghiên cứu và triển khai Công nghệ thông tin và Viễn thông, 11, 75-81. 33
  34. 2. Ngô Hoàng Huy, Nguyễn Thị Thanh Mai, Quản Thái Hà, Nguyễn Huy Hoàng, (2006) "Sử dụng mô hình Fujisaki và mạng neuron trong nhận dạng và tổng hợp thanh điệu tiếng Việt" (2006), Kỷ yếu hội thảo: “Nghiên cứu cơ bản và ứng dụng công nghệ thông tin FAIR2005”, Thành phố Hồ Chí Minh tháng 9 năm 2005, NXB KHKT, Hà Nội 3. Lương Chi Mai, Bạch Hưng Khang, Ngô Hoàng Huy, Bùi Quang Trung, Vũ Tất Thắng, Nguyễn Tiến Dũng, Nguyễn Thị Thanh Mai, (2006) "Nghiên cứu phát triển công nghệ tổng hợp và nhận dạng tiếng Việt" (2006), Kỷ yếu hội nghị: Nghiên cứu cơ bản và ứng dụng công nghệ thông tin FAIR2005, Thành phố Hồ Chí Minh tháng 9 năm 2005, NXB KHKT 4. Ngô Hoàng Huy, Nguyễn Thị Thanh Mai, Phân lớp các đường thanh điệu trong ngữ cảnh câu (2006), Kỷ yếu Hội thảo Quốc gia, NXB KHKT, tr 279-284. 5. Ngô Hoàng Huy, Nguyễn Thị Thanh Mai, Nhận dạng thanh điệu tiếng Việt trên tiếng nói rời rạc phụ thuộc người nói” (2006) , Kỷ yếu Hội thảo Quốc gia, NXB KH&KT, tr 443- 449 6. Lê Hồng Minh, “Một số kết quả nghiên cứu và phát triển hệ phần mềm chuyển văn bản thành tiếng nói cho tiếng Việt bằng tổng hợp formant,” Kỷ yếu Hội thảo Khoa học Quốc gia lần thứ nhất - Nghiên cứu Phát triển và Ứng dụng Công nghệ Thông tin và Truyền thông (ICT.rda’03), Hà Nội, tr. 292-301. 7. Vũ Hải Quân và Cao Xuân Nam, “Tổng hợp tiếng nói tiếng Việt theo phương pháp ghép nối cụm từ,” Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT, Tạp chí CNTT và TT, Tập V-1(1), tr. 70-76. 8. Đoàn Thiện Thuật, Ngữ âm tiếng Việt, NXB Đại học Quốc gia Hà Nội. 9. Huỳnh Công Tín, Giáo trình Cơ sở ngữ âm học, Đại học Cần thơ. 10. Trịnh Anh Tuấn, “Một số phương pháp nâng cao chất lượng hệ thống tổng hợp tiếng Việt V-TALK,” Tạp chí Bưu chính Viễn thông, Số 3, Hà Nội, tr. 19-23, 2000. 11. Trịnh Anh Tuấn, Nghiên cứu các đặc trưng để phân tích và tổng hợp tín hiệu âm tần, Luận án tiến sỹ, Học viện Công nghệ Bưu chính Viễn thông. Tiếng Anh 12. Alex Acero, Xuedong Huang,AUGMENTED CEPSTRAL NORMALIZATION FOR ROBUST SPEECH RECOGNITION 13. Praveen Kumar Bamini , FPGA-based Implementation of Concatenative Speech Synthesis Algorithm. Ph.D thesis. 14. Dragos Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, and Costel IlasAN OPTIMIZED TTS SYSTEM IMPLEMENTATION USING AMOTOROLA STARCORE C140-BASED PROCESSOR,aculty of Electronics and Telecommunications, “Politehnica” University of Bucharest, Romania ; Motorola Software Center Romania 15. Shanqing Cai, H. Timothy Bunnell, and Rupal PatelUnsupervised Vocal-tract Length Estimation Through Model-based Acoustic-to-Articulatory Inversion. 34
  35. 16. Ken Chen, Sarah Borys, and Mark Hasegawa-Johnson.Prosody Dependent Speech Recognition With Explicit Duration Modelling at Intonational Phrase Boundaries Interspeech 2003 17. Ken Chen, Mark Hasegawa-Johnson, Senior Member, IEEE, Aaron Cohen, Sarah Borys, Sung-Suk Kim, Jennifer Cole, and Jeung- Yoon Choi. Prosody Dependent Speech Recognition on Radio News Corpus of American English, IEEE transactions On Speech And Audio Processing, vol.13,No.6, November 2005. 18. Chistikov, P. G.; Korolkov, E. A. và Talanov “Combining HMM and unit selection technologies to increase naturalness of synthesized speech,” Proc. in 19th International Computational Linguistics Conference, Naro-Fominsk, Russia. 19. Piero Cosi, Cinzia Avesani, Piero Cosi, Cinzia Avesani, On The Use Of Cart-Tree For Prosodic Predictions In The Italian Festival TTS. 20. Tran DD, Castelli E, et al, Influence of F0 on Vietnamese syllable perception , Proc of Interspeech, Lisbon, pp 1697-1700. 21. Soumyajit Dey, Monu Kedia, Anupam Basu, Architectural Optimizations for Text to Speech Synthesis in Embedded Systems. 22. Dung, T.N., Mixdorff, H. et al, “Fujisaki Model based F0 contours in Vietnamese TTS”, In Proceedings of ICSLP2004, Jeju, South Korea 23. Demiroglu, “A Small Footprint Hybrid Statistical and Unit Selection Text-to-Speech Synthesis System for Turkish,” Proc. in ICASSP,Kyoto, Japan, tr. 4537-4540. 24. Dusterhoff, K. and Black, “Generating F0 contours for speech synthesis using the Tilt intonation theory”, Proceedings of ESCA Workshop of Intonation, pp 107-110, September, Athens, Greece. 25. Donovan, Trainable speech synthesis, PhD thesis, Cambridge University Egineering Department. 26. Daniel Elenius, Mats Blomberg, Dynamic vocal tract length normalization in speech recognition, Proceedings from Fonetik 2010 Lund, 2010, ISSN 0280-526X, 29-34. 27. Guner, E. và Demiroglu, C. (2012), “A Small Footprint Hybrid Statistical and Unit Selection Text-to-Speech Synthesis System for Turkish,” Proc. in ICASSP, Kyoto, Japan, tr. 4537-4540. 28. C. Hanilçi and T. Kinnunen, “Source Cell-Phone Recognition from Recorded Speech Using Non-Speech Segments”, Digital Signal Processing (to appear) Source Cell-Phone Recognition from Recorded Speech Using Non-Speech Segments. 29. X. Huang, A. Acero, and H. W. Hon, Spoken Language Processing, Prentice-Hall, 2001. 30. Ngo Hoang Huy, Nguyen Thi Thanh Mai, Bui Quang Trung, "Vietnamese text normalize and processing". Proceedings of National IT Conference. Nha Trang June. , 2002. 35
  36. 31. Ngo Hoang Huy et al., Development of Automatic Data Entry Systems with Pattern Recognition Techniques, International Symposium on Knowledge Creation in Economics,Enviromental and Societal Systems, JAIST, Kanazawa, pp 72-78, 2002. 32. Ngo Hoang Huy, Nguyen Thi Thanh Mai, Bui Quang Trung, "Vietnamese text normalize and processing". Proceedings of National IT Conference. Nha Trang June. , 2002. 33. Ngo Hoang Huy, Luong Chi Mai, et al (2003), Thiết kế các hệ thống nhận dạng tiếng Việt trong thời gian thực, kỷ yếu báo cáo hội nghị FAIR nghiên cứu cơ bản và ứng dụng công nghệ thông tin, trang 349 – 357. 34. Hunt, A.; Black,A. và Alan, “Unit selection in a concatenative speech synthesis system using a large speech database,” Proc. in ICASSP Vol.1, tr. 373-376. LNAI 4274, pp. 87 – 94, Springer-Verlag, Berlin Heidelberg 2006. 35. Tomi Kinnunen, Rahim Saeidi, Member, IEEE, Filip Sedl´ak, Kong Aik Lee, Johan Sandberg, Maria Hansson-Sandsten, Member, IEEE, and Haizhou Li, Senior Member, IEEE 36. Tomi Kinnunen, Md. Jahangir Alam, Pavel Matˇejka. Frequency Warping and Robust Speaker Verification: A Comparison of Alternative Mel-Scale Representations Low- Variance Multitaper MFCC Features: a Case Study in Robust Speaker Verification IEEE TRANSACTIONS ON SPEECH, AUDIO AND LANGUAGE PROCESSING, 2011. 37. Bach Hung Khang, Luong Chi Mai, Ngo Hoang Huy, et al (2002) , Development of Automatic Data Entry Systems With Pattern Recognition Techniques, International Symposium on Knowledge Creation in Economics, Enviromental and Societal Systems, Japan Advanced Institute for Science and Technology, Kanazawa, pp 72-78. 38. Li Lee, Richard C. Rose. Speaker normalization using efficient frequency warping procedures. ICASSP 1996, Atlanta, Georgia, USA, 1996. 39. Jinyu Li, Member, IEEE, Li Deng, Fellow, IEEE, Yifan Gong, Senior Member, IEEE, and Reinhold Haeb-Umbach, Senior Member, IEEE An Overview of Noise-Robust Automatic Speech Recognition. IEEE TRANS. AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. X, NO. X, XXX 2013 40. Jian Liu, Thomas Fang Zheng, and Wenhu Wu, Pitch Mean Based Frequency Warping. 41. Dang-Khoa Mac, Eric Castelli 1, Véronique Aubergé, MODELING THE PROSODY OF VIETNAMESE ATTITUDES FOR EXPRESSIVE SPEECH SYNTHESIS 42. Hansjoerg Mixdorf, Nguyen Tien Dung, Lưong Chi Mai, Ngo Hoang Huy, Vu Kim Bang 2004, Toward integrating the Fujisaki model into Vietnamese TTS , Proceeding of the International Conference on Spoken Language Processing, Korea. 43. Hansjoerg Mixdorf, Nguyen Tien Dung, Lưong Chi Mai, Ngo Hoang Huy “Quantitative Analysis and Synthesis of Syllabic Tones in Vietnamese,” Proc. in EUROSPEECH, Geneva, tr 177-180. 44. Hansiorg Mixdorff, Nguyen Tien Dung, Vu Trung Nghia, “Duration Modeling in a Vietnamese Text To Speech System”, Speech Communication, 2005. 36
  37. 45. Iosif Mporas, Todor Ganchev, Mihalis Siafarikas, Nikos Fakotakis, Comparison of Speech Features on the Speech Recognition Task, Journal of Computer Science 3 (8): 608-616, 2007, ISSN 1549-3636 46. Naresh, V. ; Dept. of ECE, Nat. Inst. of Technol., Tiruchirappalli, India ; Venkataramani, B. ; Karan, A. ; Manikandan, J. PSoC based isolated speech recognition system, Communications and Signal Processing (ICCSP), 2013 International Conference on Page(s): 693 - 697 ISBN: 978-1-4673-4865-2 47. Trung-Nghia PHUNG, Thanh-Son PHAN, Thang Tat VU, Mai Chi LUONG and Masato AKAGI (2013), “Improving the naturalness of HMM-based TTStrained with limited data data by Temporal decomposition,” IEICE TRANS. INF. & SYST., Japan, Vol.E96(11), tr. 2417-2426. 48. Kuldip K. Paliwal, SPECTRAL SUBBAND CENTROID FEATURES FOR SPEECH RECOGNITION ICASSP 1998 49. Sankaran Panchapagesan *, Abeer Alwan, Frequency warping for VTLN and speaker adaptation by linear transformation of standard MFCC. Computer Speech and Language 23 (2009) , 42–64. 50. Branislav Popović, Dragan Knežević, Milan Sečujski, Darko Pekar AUTOMATIC PROSODY GENERATION IN A TEXT-TO-SPEECH SYSTEM FOR HEBREW FACTA UNIVERSITATIS Series: Electronics and Energetics Vol. 27, No 3, September 2014, pp. 467 – 477 DOI: 10.2298/FUEE1403467P 51. Michael Price, James Glass, Anantha P. Chandrakasan A 6mW 5K-Word Real-Time Speech Recognizer Using WFST Models 2014 IEEE International Solid-State Circuits Conference, 978-1-4799-0920-9/14/$31.00 ©2014 IEEE. 52. NGUYEN Hong Quang, NOCERA Pascal, CASTELLI Ericy and TRINH Van Loan Tone Recognition of Vietnamese Continuous Speech using Hidden Markov Model.HUT- ICCE 2008, the Second International Conference on Communications and Electronics 53. William R. Rodr´ıguez, Oscar Saz, Antonio Miguel and Eduardo Lleida On line vocal tract length estimation for speaker normalization in speech recognition, VI Jornadas en Tecnología del Habla and II Iberian SLTech Workshop, FALA 2010, Vigo, Spain, 2010. 54. Hamid Sheikhzadeh, Etienne Cornu, Robert Brennan, and Todd Schneider,EAL-IME SPEECH SYNTHESIS ON AN ULTRA LOW-RESOURCE, PROGRAMMABLE DSP SYSTEM, ICASSP’02. 55. Hanna Silén, Elina Helander1, Jani Nurminen2, Moncef Gabbouj Analysis of Duration Prediction Accuracy in HMM-Based Speech Synthesis. 56. Silverman, K., Beckman, M., Pierrehumbert, J., Ostendorf, M., Wightman, C., Price, P. and Hirschberg, J., “ToBI: A Standard Scheme for Labeling Prosody”, in Proc. ICSLP 1992, 867-869. 57. Malcolm Slaney, Michael L. Seltzer THE INFLUENCE OF PITCH AND NOISE ON THE DISCRIMINABILITY OF FILTERBANK FEATURES To be published at Interspeech 2014 Singapore, September 2014 Interspeech2014 37
  38. 58. Young-Woo Son, Jae-Keun Hong The formant-emphasized Feature Vector for Speech Recognition in Noisy Condition. 59. Taylor, P., “Analysis and synthesis of intonation using the Tilt model”, J. Acoust. Soc. Am., 107: 1697-1714, 2000. 60. Ye Tian, Jian-Lai zhuo, Min Chu, Eric Chang, Tone Ricognition with Fractionized Models and Outlined Features. 61. Thang Tat Vu*, Dung Tien Nguyen , Mai Chi Luong , John-Paul Hosom ,Vietnamese Large Vocabulary Continuous Speech Recognition, EuroSpeech 2005. 62. Vu Thang Tat; Luong, Mai Chi và Satoshi, Nakamura (2009), “An HMMbased Vietnamese Speech Synthesis System,” Proc. in Oriental COCOSDA, Urumqi, China, tr. 116-121. 63. DO Van Thao, TRAN Do Dat, NGUYEN Thi Thu Trang “Nonuniformunit selection in Vietnamese Speech Synthesis,” Proceedings of the 2nd SoICT 2011, tr. 165-171. 64. Ye Tian, Jian-Lai zhuo, Min Chu, Eric Chang , Tone Ricognition with Fractionized Models and Outlined Features. 65. Nguyen Thi Thu Trang et al., “INTONATION ISSUES IN HMM-BASED SPEECH SYNTHESIS FOR VIETNAMESE,” SLTU-2014, St. Petersburg, Russia, 14-16 May 2014. 66. NGUYEN Thi Thu Trang, Christophe D’ALESSANDRO, Albert RILLIARD, TRAN Do Dat , HMM-based TTS for Hanoi Vietnamese: issues in design and evaluation. 67. Umit H. Yapanel and John H.L. Hansen, A New Perspective on Feature Extraction for Robust In-Vehicle Speech Recognition, Eurospeech 2003, Geneva 68. Lifu Yi, Jian Li, Xiaoyan Lou, Jie Hao,A Unified Totally-Data-Driven Framework for Duration and Intonation Modeling International Symposium on Chinese Spoken Language Processing (ISCSLP 2006) Kent Ridge, Singapore December 13-16, 2006. 69. Ekaterina Verteletskaya, Boris Simak Enhanced spectral subtraction method for noise reduction with minimal speech distortion IWSSIP 2010 - 17th International Conference on Systems, Signals and Image Processing. 70. Jian Yu, Meng Zhang, Jianhua Tao,, Xia Wang, A NOVEL HMM-BASED TTS SYSTEM USING BOTH CONTINUOUS HMMS AND DISCRETE HMMS. 71. Heiga Zen, Takashi Nose, Junichi Yamagishi, Shinji Sako, Takashi Masuko, AlanW. Black, Keiichi Tokuda. The HMM-basedSpeech Synthesis System (HTS) Version 2.0, 72. Puming Zhan and Alex Waibel, “Vocal tract length normalization for large vocabulary continuous speech recognition”, Technical report, CMU-LTI-97-150, 1997. 73. Puming Zhan, Martin Westphal, Speaker normalization based on frequency warping, ICASSP 1997, Munich , Bavaria, Germany, 1997. 74. Naoya Wada, Shingo Yoshizawa, Yoshikazu Miyanaga, A Real Time Noise-Robust Speech Recognition System, ECTI Transaction CIT Vol 1, No 2 (2005) 38
  39. 75. Shizhen Wang, Yi-Hui Lee, Abeer Alwan,Bark-shift based nonlinear speaker normalization using the second subglottal resonance,INTERSPEECH 2009, Brighton UK,2009,(1619-1622). 76. Katrin Weber, Samy Bengio, and Hervé Bourlard HMM2- Extraction of formant Structures and their Use for Robust ASR. Trang Web 77. Tiếng nói Phương Nam, 78. 79. www.cstr.ed.ac.uk/projects/festival/ 80. 81. 82. 83. 84. 85. 86. 87. Đề tài nghiên cứu Khoa học 88. Nghiên cứu phát triển công nghệ nhận dạng, tổng hợp và xử lý ngôn ngữ tiếng Việt. Đề tài cấp nhà nước 2001-2003. Viện CNTT chủ trì. 89. Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt. Đề tài cấp nhà nước 2007-2009. Viện CNTT chủ tŕ 90. Nghiên cứu thiết kế chế tạo các thiết bị và hệ thống tự động hóa thông minh sử dụng tương tác người-máy bằng tiếng nói trong điều khiển. Đề tài cấp nhà nước 2007-2009. Đại học Bách Khoa Hà Nội chủ trì. 91. Nghiên cứu thiết kế và chế tạo hệ thống điều khiển bằng tiếng nói tích hợp vào robot hút bụi tự động thông minh. Đề tài cấp thành phố 2011-2012. Viện CNTT chủ trì. 39