智慧應用 影音
Microchip
member

語音AI仿真的關鍵:停頓

林一平手繪之馬克吐溫(左)與桑塔格(右)。林一平提供

最近開始流行基於語音的多媒體物聯網(IoMT),被大量用於語音到文本的翻譯和語音控制應用。對於此類應用,核心技術是自然語言處理。我的研究團隊發展一套語音談話的IoT應用開發平台,稱為 VoiceTalk,詳細闡述了基於語音的IoMT開發問題。我們提出了一種新的自然語言處理機制,進行自動語音辨識,藉此發展了不少有趣的互動應用。

利用語音來進行電器控制較為簡單,例如燈光控制,或冷氣控制,只要轉譯為指令即可。其商業化的產品也都極為成熟,例如Google、亞馬遜(Amazon)及小米都有語音控制的產品。

而本文翻譯(voice to text transcription)這項科技的發展,其難度則遠高於語音控制,若無人文素養的加持,終將流於膚淺。個人淺見,最難之處之一,在於處理語句之間的停頓(pause)。寫文章時,句子內部主語與謂語之間如需停頓、分開的地方,就用像一隻小蝌蚪的逗號來標明。因此在進行語音辨識,轉化為文字時,聲音的停頓處,就被翻譯成逗號。然而如何找出「停頓」轉化為逗號,頗有學問。

「停頓」的運用之妙,存乎一心。厲害的作家及演說家,都各自有妙招,呈現他們不同的體會。馬克吐溫(Mark Twain)這麼說:「正確的用詞可能很有效果,但沒有一個用詞如同在正確的時刻暫停那樣有效。」蘇珊.桑塔格(Susan Sontag)則承認:「無可避免的,沉默仍然是對話中的一種語言形式和元素。」尤其,沉默也是一種回答,可微妙的代表不同意義,例如默認。

談說中在何時停頓,意思可能完全不同。換言之,在一串文字中放逗號於不同位置,意思會有很大差距。二次世界大戰時的汪精衛政權,有一位女作家名叫蘇青。蘇青的成名作,僅僅將逗點移動一個位置。《禮記.禮運》寫著:「飲食男女,人之大欲存焉。」這位女作家將之改寫為「飲食男,女人之大欲存焉。」當時民風保守。她的創作大膽前衛,自我物化,一夕成名。遇到這種語帶雙關的讀法,停頓的判讀變得很重要,否則轉譯成文字時,差之毫釐,失之千里,就貽笑大方了。

詩人朗誦時,我們的VoiceTalk若進入「詞」的模式,會將朗誦的詩下標點成為一闕詞。例如千家詩中的七絕詩《清明即景》:「清明時節雨紛紛,路上行人欲斷魂。借問酒家何處有,牧童遙指杏花村。」經過人工智慧,將標點符號挪移一番,就變成一闕詞:「清明時節雨,紛紛路上行人;欲斷魂!借問酒家何處?有牧童遙指杏花村。」我們正在思索如何利用VoiceTalk改變莎士比亞作品中的「停頓」,將莎翁的雙關語化為「三」關語。

現為國立陽明交通大學資工系終身講座教授暨華邦電子講座,曾任科技部次長,為ACM Fellow、IEEE Fellow、AAAS Fellow及IET Fellow。研究興趣為物聯網、行動計算及系統模擬,發展出一套物聯網系統IoTtalk,廣泛應用於智慧農業、智慧教育、智慧校園等領域/場域。興趣多元,喜好藝術、繪畫、寫作,遨遊於科技與人文間自得其樂,著有<閃文集>、<大橋驟雨>。