ChatGPT帶動語言模型應用熱潮通才模型與指令學習為成功關鍵

許安妮／DIGITIMES企劃
2023/04/10 02:27
分享

語言能力自古以來就被識為人類擁有智慧的象徵，也是知名的圖靈測試（Turing test）用來測試機器是否具有智慧的主要媒介，近年來由深度學習（deep learning）所驅動的第三次AI浪潮中，自然語言處理（Natural Language Processing；NLP）一直是發展重點，而自Google Brain團隊於2017年提出以自注意力（self-attention)機制為基礎的Transformer模型並開源後，各家大型語言模型（Large Language Model；LLM）開始在翻譯、自然對話等各種語言任務上開始有捷出表現。

然而，直到OpenAI推出ChatGPT後，LLM的威力才真正讓世人眼睛為之一亮。這是因為與過去的專才專用模型不同，ChatGPT有如通才，使用者可以對ChatGPT提出任何問題，包括以自然語音描述的代數問題，甚至是程式碼的檢閱，ChatGPT都可迎刃而解，並給予詳細說明，此打破了一般人對智慧對話仍不夠智慧的刻板印象。

ChatGPT能成功點燃自廻歸（autoregressive）LLM的應用熱潮，主要可歸因於三點：首先，ChatGPT的基礎模型(foundation model) GPT-3非常巨大，其模型參數高達1,750億個，並已針對巨量的網路內容爬蟲（web crawling）、網路本文、書藉、Wikipedia及GitHub程式範本等資料進行無需人類干預的自監督學習（self-supervised learning）。以上的預練訓（pre-trained）過程使GPT-3成為一個能根據給定文字來預測下個文字，並擁有世界知識的通用模型（world model）。

讓一般用戶能以直覺的自然語言提示（prompt）使用這個通用模型則是ChatGPT第二個成功關鍵，此部分主要透過指令學習（instruction learning）達成，其重點包括以相對少量的標註指範例進行遷移式學習（transfer learning），再透過強化學習（reinforcement learning）的訓練讓人類導師來微調（finetune）模型反應。

與傳統模型對不同需求以不同資料訓練不同模型的方式不同， OpenAI認為所有所需的知識都已包含在GPT-3這個世界模型中，指令訓練僅是為讓GPT-3理解人類如何問問題，並在理解問題後以通用模型來正確回答問題，因此使用者可直接用自然對話要求ChatGPT進行包括一般問答、文章摘要、文句情感分析、翻譯、函數解題、程式撰寫等各式各樣天馬行空的要求。

以上應對能力是ChatGPT與先前僅文字預測為目地的LLM模型的最大不同，也是讓一般用戶最驚艷的一點。OpenAI並未公開ChatGPT進行指令學習的細節，可知此以人為資料為主的訓練內容將是此類對話式模型的重要資產，而ChatGPT對公眾開放後，可以更快速度取得更多人類問題範例，這些範例未來也將用來對下一代GPT模型進行指令學習，成為一個良好正向循環。

第三點則是ChatGPT具備了百億級以上參數模型才具備的上下文學習（in-context learning）能力，只要在輸入提示中給予問題的同時，提供與問題相關的解題範例或演譯過程，即能讓LLM理解並給出答案。必須強調的是，上下文學習雖被稱為學習，卻是一種不需經過訓練流程（training process），即讓模型有解題能力的方法。

巨大模型能不經訓練即回答從未聽聞的問題，亦歸功於其在自監督學習階段已學得的預測能力，也就是模型學得的世界知識已足夠解決這些「未知」問題，而上下文學習的提示僅是喚起模型對問題的認知。

上下文學習雖有不需訓練即能解題的魔力，但不適當的prompt仍有讓模型誤解而答錯的可能。目前，如何提供正確的解題提示已成為生成式AI中的一門顯學。

ChatGPT的上下文學習能力使其不需額外花費硬體訓練資源與時間，即能處理許多未知問題，此應用模式中長期也將改變AI伺服器對硬體資源的需求，預期對推論相關硬體的需求將大幅提高。

而ChatGPT到目前為止仍為人詬病的幻想（hallucination）問題，即對部分問題未能有效認知而給予錯誤回答的狀況，目前並非沒有解決方式，其關鍵為找出LLM推論過程中是否信心程度不足，適時的停止推論，並給出用戶此問題無法處理的訊息，此將是未來AI學術與產業界的研究重點。

「AI EXPO Taiwan 2023」將於2023年4月19~21日在台北華山文創園區舉行，透過未來展場、不知講堂、超級舞台、AI創新獎、線上影城之五大活動貫穿展會，為期三天的實體活動深入探討AI產業鏈前瞻動向，為台灣最具指標規模的AI專業展會。

欲了解更多活動詳情，請上活動官網免費報名。

關鍵字

ChatGPT

加入已選取到「關鍵字追蹤」什麼是「關鍵字追蹤」

商情專輯－AI EXPO Taiwan

ChatGPT帶動語言模型應用熱潮 通才模型與指令學習為成功關鍵

ChatGPT帶動語言模型應用熱潮通才模型與指令學習為成功關鍵