ChatGPT帶動語言模型應用熱潮 通才模型與指令學習為成功關鍵 智慧應用 影音
Microchip
ST Microsite

ChatGPT帶動語言模型應用熱潮 通才模型與指令學習為成功關鍵

  • 許安妮DIGITIMES企劃

語言能力自古以來就被識為人類擁有智慧的象徵,也是知名的圖靈測試(Turing test)用來測試機器是否具有智慧的主要媒介,近年來由深度學習(deep learning)所驅動的第三次AI浪潮中,自然語言處理(Natural Language Processing;NLP)一直是發展重點,而自Google Brain團隊於2017年提出以自注意力(self-attention)機制為基礎的Transformer模型並開源後,各家大型語言模型(Large Language Model;LLM)開始在翻譯、自然對話等各種語言任務上開始有捷出表現。

然而,直到OpenAI推出ChatGPT後,LLM的威力才真正讓世人眼睛為之一亮。這是因為與過去的專才專用模型不同,ChatGPT有如通才,使用者可以對ChatGPT提出任何問題,包括以自然語音描述的代數問題,甚至是程式碼的檢閱,ChatGPT都可迎刃而解,並給予詳細說明,此打破了一般人對智慧對話仍不夠智慧的刻板印象。

ChatGPT能成功點燃自廻歸(autoregressive)LLM的應用熱潮,主要可歸因於三點:首先,ChatGPT的基礎模型(foundation model) GPT-3非常巨大,其模型參數高達1,750億個,並已針對巨量的網路內容爬蟲(web crawling)、網路本文、書藉、Wikipedia及GitHub程式範本等資料進行無需人類干預的自監督學習(self-supervised learning)。以上的預練訓(pre-trained)過程使GPT-3成為一個能根據給定文字來預測下個文字,並擁有世界知識的通用模型(world model)。

讓一般用戶能以直覺的自然語言提示(prompt)使用這個通用模型則是ChatGPT第二個成功關鍵,此部分主要透過指令學習(instruction learning)達成,其重點包括以相對少量的標註指範例進行遷移式學習(transfer learning),再透過強化學習(reinforcement learning)的訓練讓人類導師來微調(finetune)模型反應。

與傳統模型對不同需求以不同資料訓練不同模型的方式不同, OpenAI認為所有所需的知識都已包含在GPT-3這個世界模型中,指令訓練僅是為讓GPT-3理解人類如何問問題,並在理解問題後以通用模型來正確回答問題,因此使用者可直接用自然對話要求ChatGPT進行包括一般問答、文章摘要、文句情感分析、翻譯、函數解題、程式撰寫等各式各樣天馬行空的要求。

以上應對能力是ChatGPT與先前僅文字預測為目地的LLM模型的最大不同,也是讓一般用戶最驚艷的一點。OpenAI並未公開ChatGPT進行指令學習的細節,可知此以人為資料為主的訓練內容將是此類對話式模型的重要資產,而ChatGPT對公眾開放後,可以更快速度取得更多人類問題範例,這些範例未來也將用來對下一代GPT模型進行指令學習,成為一個良好正向循環。

第三點則是ChatGPT具備了百億級以上參數模型才具備的上下文學習(in-context learning)能力,只要在輸入提示中給予問題的同時,提供與問題相關的解題範例或演譯過程,即能讓LLM理解並給出答案。必須強調的是,上下文學習雖被稱為學習,卻是一種不需經過訓練流程(training process),即讓模型有解題能力的方法。

巨大模型能不經訓練即回答從未聽聞的問題,亦歸功於其在自監督學習階段已學得的預測能力,也就是模型學得的世界知識已足夠解決這些「未知」問題,而上下文學習的提示僅是喚起模型對問題的認知。

上下文學習雖有不需訓練即能解題的魔力,但不適當的prompt仍有讓模型誤解而答錯的可能。目前,如何提供正確的解題提示已成為生成式AI中的一門顯學。

ChatGPT的上下文學習能力使其不需額外花費硬體訓練資源與時間,即能處理許多未知問題,此應用模式中長期也將改變AI伺服器對硬體資源的需求,預期對推論相關硬體的需求將大幅提高。

而ChatGPT到目前為止仍為人詬病的幻想(hallucination)問題,即對部分問題未能有效認知而給予錯誤回答的狀況,目前並非沒有解決方式,其關鍵為找出LLM推論過程中是否信心程度不足,適時的停止推論,並給出用戶此問題無法處理的訊息,此將是未來AI學術與產業界的研究重點。

「AI EXPO Taiwan 2023」將於2023年4月19~21日在台北華山文創園區舉行,透過未來展場、不知講堂、超級舞台 、AI創新獎、線上影城之五大活動貫穿展會,為期三天的實體活動深入探討AI產業鏈前瞻動向,為台灣最具指標規模的AI專業展會。

欲了解更多活動詳情,請上活動官網免費報名。

 

關鍵字