&

ChatGPT與圖靈測試

ChatGPT已成功通過圖靈測試，7月25日，《Nature》雜志在一篇文章中宣布，這標志著人工智能評估領域即將迎來新的變革。自2022年底OpenAI推出ChatGPT以來，人工智能技術便在全球范圍內掀起了一場革命性的風潮。這場風潮的強勁勢頭，一方面源于ChatGPT在技術層面的重大突破，另一方面則得益于其在應用端為普通人所帶來的直觀體驗。正因如此，我們與埃隆·馬斯克產生了相同的感慨：ChatGPT的強大能力，令人驚嘆。

? 圖靈測試的歷史背景

圖靈測試作為衡量AI智能的標準在ChatGPT出現前倍受關注。圖靈測試，這個在1950年被提出的概念，逐漸成為了衡量AI智能程度的重要標準，甚至被視為唯一標準，吸引了眾多追隨者。然而，隨著人工智能領域的不斷發展，尤其是對話機器人技術的突飛猛進，圖靈測試的局限性也逐漸顯現。每當人工智能領域取得新的進展時，都會面臨圖靈測試的嚴峻挑戰，甚至在某些情況下，新的技術進展反而因為無法通過圖靈測試而黯然失色。這使得“圖靈測試”在一定程度上成為了一個神話，甚至被視為束縛AI發展的魔咒。

? ChatGPT引領的變革

ChatGPT通過圖靈測試標志AI新時代的到來。然而，智能的定義并非一成不變。在ChatGPT引領的新時代下，我們有必要重新審視智能的概念。盡管圖靈測試在歷史上曾發揮過重要作用，但如今它已經無法適應人工智能領域的發展需求。因此，我們需要尋找新的評估標準和方法來更全面地衡量AI的智能水平。

GPT-4的突破與評估

2023年3月14日，GPT-4驚艷亮相，這款具備多模態能力的新一代AI模型，在發布后便引起了廣泛關注。GPT-4不僅在多項人類專業測試中表現出色，甚至通過了律師考試。

? GPT-4的能力展示

GPT-4展現卓越的多領域能力。據報道，GPT-4不僅在多項人類專業測試中表現出色，甚至通過了律師考試，更令人矚目的是，它還成功通過了一些經典心理學測驗，展現出了相當于9歲兒童的心智水平。這一系列的成就，使得人們開始期待：ChatGPT何時能迎來圖靈測試的突破？

? 基準測試的局限性

盡管GPT-4在考試中表現優異，但這些測試未能反映其真實智能。值得注意的是，LLMs在考試題上的成功可能并不穩固，可能無法轉化為解決現實世界問題的強大能力。Mitchell表示，通過稍微修改考試題目，就有可能讓LLM不及格。她以工商管理碩士研究生的考試問題為例，稍作修改后，ChatGPT便無法正確回答。因此，能夠回答原始問題的人，同樣能夠應對重新措辭的問題。但ChatGPT卻未能通過這一挑戰。

對于人類來說，在這些標準化考試中取得優異成績確實是一個可靠指標，表明其具備一定的通用智力。然而，對于大型語言模型（LLMs）而言，情況卻大相徑庭。米切爾指出，LLMs的工作方式與人類截然不同，因此，我們對人類的推理方式的推斷并不總是適用于這些人工智能系統。

行業新聞

ChatGPT與GPT-4：人工智能評估新時代的開啟

? 圖靈測試的歷史背景

? ChatGPT引領的變革

? GPT-4的能力展示

? 基準測試的局限性

產品展示查看更多

自主移動機器人

背負頂升式AGV

梳齒型AGV

堆高式叉車AGV