智慧應用 影音
MongoDB
ST Microsite

語音技術的數位轉型

基於語音的多媒體物聯網(IoMT)逐見普及,被大量用於語音到文本(Speech to Text)的翻譯和語音控制應用。

此類應用核心技術是自然語言處理。陳信宏教授和我的研究團隊發展一套語音談話的IoT應用開發平台,稱為VoiceTalk,提出一種新自然語言處理機制,自動語音辨識,藉此發展不少有趣的互動應用

2020年台灣總統大選電視辯論直播,公視新聞網和陳信宏帶領的語音辨識團隊合作,採用當時國立交通大學團隊開發的人工智慧(AI)語音辨識系統,將語音即時轉換成字幕。陳信宏指出,語音辨識有幾大挑戰,包括要有足夠的文字知識庫、要能夠處理語音雜訊,還有自發性語音的重複和修正等,比如講者說到「...好,好像」等字詞。除此之外,交大團隊也在視覺上下功夫,比如字體大小、字幕行數多寡等。

2020年總統大選辯論直播,語音辨識AI搭配聽打員微調,提高字幕準確率。公視經理蘇啟禎表示,這次公共服務實驗難能可貴,未來技術更成熟,不排除應用於開票報導或其他大型轉播專案。

VoiceTalk將語音轉換成繁體中文文本後,還要將之翻譯成不同語言。如今我們上網讀文章,遇到不同語言的文字,有軟體可進行翻譯,這是古代人想像不到的神奇應用。沒有翻譯文章的工具,人類的溝通就受到限制。方東美(1899~1977)在其巨著《中國哲學精神及其發展》寫著: 「偉大翻譯家實導更偉大創作之先河。」的確如此。方東美曾說:「聞所成慧(śrutamayī-prajñā)、思所成慧(cintāmayī-prajñā)、修所成慧(bhāvanāmayī-prajñā)乃哲學境界之層次,哲學功夫之階梯,聞入於思,思修無間,哲學家兼具三慧,功德方覺圓滿。」藉由翻譯,廣讀世界各地哲人的文章,是「聞入於思」的重要步驟。

現今的資通訊技術,很容易達到這個目的。於是,我們也思考如何將VoiceTalk加入ChatGPT的plugin,以達到「聞入於思」的境界。這需要我們對歷史文化的認知。

由翻譯引導出哲學、文化蓬勃發展的例子發生在八到十世紀間的阿拉伯世界。在此時期,巴格達的學者如火如荼將希臘作品翻譯為阿拉伯語。例如穆斯林史學家Ibn Ishaq(Abu Abd Allah Muhammad ibn Ishaq ibn Yasar al-Muttalibi )就以翻譯亞里斯多德(Aristotle)著作聞名於世;到了十一、十二世紀時,有一群基督徒住在被伊斯蘭統治的西班牙,接觸這些阿拉伯思想家的著作,以及亞里斯多德等希臘哲學家的阿拉伯譯作。這群基督徒將阿拉伯譯/著作再翻譯成拉丁文,造成十三世紀西方哲學與神學的黃金時期。

古人必須千辛萬苦地翻譯文章,才能獲得知識,如今ChatGPT的普及,我們有智慧的文章翻譯軟體,比古人幸福多了。值得深思的是,如何在資通訊工具大量翻譯的知識中,獲得真正哲學與文化的精髓?

 

中國現代哲學家方東美。

現為國立陽明交通大學資工系終身講座教授暨華邦電子講座,曾任科技部次長,為ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究興趣為物聯網、行動計算及系統模擬,發展出一套物聯網系統IoTtalk,廣泛應用於智慧農業、智慧教育、智慧校園等領域/場域。興趣多元,喜好藝術、繪畫、寫作,遨遊於科技與人文間自得其樂,著有<閃文集>、<大橋驟雨>。