ChatGPT與圖靈測試

ChatGPT已成功通過圖靈測試,7月25日,《Nature》雜志在一篇文章中宣布,這標(biāo)志著人工智能評估領(lǐng)域即將迎來新的變革。自2022年底OpenAI推出ChatGPT以來,人工智能技術(shù)便在全球范圍內(nèi)掀起了一場革命性的風(fēng)潮。這場風(fēng)潮的強勁勢頭,一方面源于ChatGPT在技術(shù)層面的重大突破,另一方面則得益于其在應(yīng)用端為普通人所帶來的直觀體驗。正因如此,我們與埃隆·馬斯克產(chǎn)生了相同的感慨:ChatGPT的強大能力,令人驚嘆。

? 圖靈測試的歷史背景

圖靈測試作為衡量AI智能的標(biāo)準(zhǔn)在ChatGPT出現(xiàn)前倍受關(guān)注。圖靈測試,這個在1950年被提出的概念,逐漸成為了衡量AI智能程度的重要標(biāo)準(zhǔn),甚至被視為唯一標(biāo)準(zhǔn),吸引了眾多追隨者。然而,隨著人工智能領(lǐng)域的不斷發(fā)展,尤其是對話機器人技術(shù)的突飛猛進(jìn),圖靈測試的局限性也逐漸顯現(xiàn)。每當(dāng)人工智能領(lǐng)域取得新的進(jìn)展時,都會面臨圖靈測試的嚴(yán)峻挑戰(zhàn),甚至在某些情況下,新的技術(shù)進(jìn)展反而因為無法通過圖靈測試而黯然失色。這使得“圖靈測試”在一定程度上成為了一個神話,甚至被視為束縛AI發(fā)展的魔咒。

? ChatGPT引領(lǐng)的變革

ChatGPT通過圖靈測試標(biāo)志AI新時代的到來。然而,智能的定義并非一成不變。在ChatGPT引領(lǐng)的新時代下,我們有必要重新審視智能的概念。盡管圖靈測試在歷史上曾發(fā)揮過重要作用,但如今它已經(jīng)無法適應(yīng)人工智能領(lǐng)域的發(fā)展需求。因此,我們需要尋找新的評估標(biāo)準(zhǔn)和方法來更全面地衡量AI的智能水平。


GPT-4的突破與評估

2023年3月14日,GPT-4驚艷亮相,這款具備多模態(tài)能力的新一代AI模型,在發(fā)布后便引起了廣泛關(guān)注。GPT-4不僅在多項人類專業(yè)測試中表現(xiàn)出色,甚至通過了律師考試。

? GPT-4的能力展示

GPT-4展現(xiàn)卓越的多領(lǐng)域能力。據(jù)報道,GPT-4不僅在多項人類專業(yè)測試中表現(xiàn)出色,甚至通過了律師考試,更令人矚目的是,它還成功通過了一些經(jīng)典心理學(xué)測驗,展現(xiàn)出了相當(dāng)于9歲兒童的心智水平。這一系列的成就,使得人們開始期待:ChatGPT何時能迎來圖靈測試的突破?

? 基準(zhǔn)測試的局限性

盡管GPT-4在考試中表現(xiàn)優(yōu)異,但這些測試未能反映其真實智能。值得注意的是,LLMs在考試題上的成功可能并不穩(wěn)固,可能無法轉(zhuǎn)化為解決現(xiàn)實世界問題的強大能力。Mitchell表示,通過稍微修改考試題目,就有可能讓LLM不及格。她以工商管理碩士研究生的考試問題為例,稍作修改后,ChatGPT便無法正確回答。因此,能夠回答原始問題的人,同樣能夠應(yīng)對重新措辭的問題。但ChatGPT卻未能通過這一挑戰(zhàn)。

對于人類來說,在這些標(biāo)準(zhǔn)化考試中取得優(yōu)異成績確實是一個可靠指標(biāo),表明其具備一定的通用智力。然而,對于大型語言模型(LLMs)而言,情況卻大相徑庭。米切爾指出,LLMs的工作方式與人類截然不同,因此,我們對人類的推理方式的推斷并不總是適用于這些人工智能系統(tǒng)。