香儂的智慧
香儂(Claude Shannon, 1916~2001)被譽為資訊理論之父。圖靈(Alan Turing, 1912~1954)則被稱為計算機科學之父。1943年,香儂和圖靈相遇於紐約市的貝爾實驗室。儘管他們的研究題目不同,他們討論彼此的工作,其中包括有關圖靈的「通用機器」。圖靈相當驚訝,香儂在一片程式碼和計算機的海洋中,將藝術和文化視為數字革命不可或缺的部分,將之稱為「數字DNA」。香儂在1943年告知圖靈夢幻般的想法,如今已經成為現實,因為所有媒體都以數位化呈現,涵蓋數百萬的「文化事物」和龐大的音樂收藏。香儂在藝術、訊息和計算之間建立的早期聯繫,直觀地描繪我們今天正在經歷的未來。圖靈在1950年發表論文〈計算機與智慧〉(Computing machine and Intelligence),首次談到人工智慧(AI),並提出「圖靈測試」,為資訊研究領域創建智慧設計的標竿。圖靈測試說,如果一台計算機能夠欺騙人類相信它是人類,那麼它就應該被稱為智慧計算機。香儂則直接訂出機器學習的目標: 「創造出擊敗世界冠軍的象棋程式;撰寫出能夠被知名文學期刊選用的優美詩歌;編寫能夠證明或反駁黎曼猜想(Riemann hypothesis)的數學程式;設計一款收益超過50%的股票選擇軟體。」今日,香儂的第一個目標已在2017年由AlphaGo達成。機器學習常見的做法,是將隨機事件相關聯的預期資訊量(expected amount of information)加以量化,並衡量概率分布之間的相似度。今日則被用作衡量概率分布訊息內容的指標,則是香儂提出的資訊熵(Shannon entropy)。香儂熵背後的基本概念是所謂事件的自資訊(self-information),有時也稱為驚奇性(surprisal)。自資訊的直覺是這樣的。當觀察到一個不太可能發生的隨機事件時,我們將其與大量訊息相關聯(這代表當不太可能發生的事件發生時,我們獲得極大的資訊量)。相反,當觀察到一個很有可能的結果時,我們將其與較小的資訊量相關聯。將自資訊視為「事件發生會造成我們多大的驚奇」非常有幫助。例如,考慮一個始終會落在正面的硬幣。任何硬幣投擲的結果都是完全可預測的,我們永遠不會對結果感到驚訝,這意味著我們從這樣的實驗中獲得的資訊為零。換句話說,其自資訊為零。如果硬幣的落地面的隨機性增加,則每次投擲硬幣時都會有一些驚奇,儘管超過50%的時間我們仍然會看到正面。因此,自資訊大於零。最大的驚奇量是在硬幣是公平不偏的情況下獲得的,即落在正面或反面的機會都是50%,因為這是硬幣投擲結果最不可預測的情況。基於上述非正式的需求,我們可以找到一個合適的函數來描述自資訊。對於一個具有可能值 x1, . . . , xn 和概率質量函數 P(X) 的離散隨機變量 X,任何介於0和1之間的正單調遞減函數都可以用作衡量資訊的指標。還有一個額外且重要的性質,那就是獨立事件的可加性;兩次相繼的硬幣投擲的自資訊應該是單次硬幣投擲的兩倍。對於獨立變量來說,這是有意義的,因為在這種情況下,驚奇或不可預測性的數量變為兩倍。藉由上述特性,香儂熵被應用於測量與一組概率相關的不確定性或資訊內容。香儂熵通常用於決策樹(decision tree)和其他AI模型,以量化數據集的不純度或混亂度。例如在決策樹算法中,香儂熵用作在每個節點上對數據進行分割的依據。目標是最小化熵,熵較低的節點被認為更「純粹」或更具資訊。為每種可能的分割計算熵,選擇導致熵最大程度減小的分割。這個過程在決策樹不斷增長的情況下進行遞歸性地重複,得到我們想要的答案。香儂在1948年提出資訊熵的概念,影響到80年後的今日機器學習的發展,真奇人也。
2024/3/5