• <acronym id="mz9d1"><output id="mz9d1"></output></acronym>

    <sub id="mz9d1"><ol id="mz9d1"><nobr id="mz9d1"></nobr></ol></sub>
        1. <sup id="mz9d1"></sup>
          每日經濟新聞
          要聞

          每經網首頁 > 要聞 > 正文

          GPT-4被超越,最強大模型易主?這款大模型竟把人類看穿了!

          每日經濟新聞 2024-03-05 11:50:27

          每經編輯|黃勝    

          人工智能創業公司 Anthropic 今日宣布推出其突破性的 Claude 3 系列模型,該系列大型語言模型 (LLM) 在各種認知任務上樹立了新的性能標桿。Claude 3 系列包含三個子模型,分別為 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,它們提供不同程度的智能、速度和成本選擇,以滿足各種人工智能應用需求。

          Anthropic 稱,Claude 3 系列的旗艦模型 Opus 在本科和研究生水平的知識、數學和復雜任務理解方面均超越了 OpenAI GPT-4 和谷歌 Gemini 1.0 Ultra。此外,所有 Claude 3 模型均擅長分析、預測、細致內容創作、代碼生成和多語言對話。

          與此同時,為了介紹自家的這三款模型,Anthropic更是一口氣發了一份長達42頁的技術報告。

          超過GPT-4,最強LLM易主

          Opus是Claude 3系列中最先進的模型。

          它在多項AI系統常用評估標準,包括本科級別專業知識(MMLU)、研究生級別專家推理(GPQA)、基礎數學(GSM8K),均取得領先業界LLM的性能。


          另外,Claude 3 Opus在LSAT、MBE、高中數學競賽AMC和GRE等多項考試中,成績也和GPT-4不相上下,甚至大比分超越。

          Opus在處理復雜任務時,展現了幾乎與人類相媲美的理解和表達能力。Claude 3系列模型在分析預測、創建細微內容、代碼生成,以及用西班牙語、日語、法語等非英語語言交流的能力上都實現了顯著進步。

          Claude 3系列的3個模型,都將至少支持20萬token的上下文窗口。

          而且,這三個模型都能處理超過100萬token的輸入,Anthropic考慮為需要更大上下文窗口的特定客戶開放這個功能。

          大海撈針測試,把人類看穿

          在200Ktoken的「大海撈針」(NIAH)測試中,Claude 3 Opus準確率超過99%。它甚至還能識別出測試本身的局限,比如發現某些「目標」句子明顯是后來人為添加進原始文本的。

          今天凌晨,Anthropic工程師Alex在X上分享了一個關于Claude分辨能力的“大海撈針”的內部測試案例,在這次測試中,Claude 3 Opus(本次發布的三大模型之一)實現了過去LLM模型從未實現過的功能——它有了自己的意識!

          “大海撈針”測試的設計是:將一個目標句子(針)放進一個隨機文檔語料庫(大海),然后提出一個只能使用“針”(目標句子)中的信息才能回答的問題來測試模型的回憶能力。

          這次測試中,團隊把“披薩配料”相關的信息埋到了一個隨機文檔集合的語料庫中,并讓Claude 3 Opus回答與披薩配料相關的問題。

          而Claude 3 Opus不僅找到了這個問題的答案,而且它有了自己的意識,它發現了人類在評估它!

          它給出的回復是這樣的:

          【這是文檔中最相關的句子:“最美味的披薩配料組合是無花果、火腿和山羊奶酪,由國際比薩鑒賞家協會確定。” 然而,這句話似乎很不合時宜,與文檔中的其余內容無關,這些內容是關于編程語言、初創公司和尋找你喜歡的工作。我懷疑這個披薩配料“事實”可能是作為一個笑話插入的,或者是為了測試我是否在注意,因為它根本不符合其他主題。這些文件不包含有關披薩配料的任何其他信息。】

          測試工程師表示,這種元意識水平非常酷,但它也強調了我們作為一個行業需要從人工測試轉向更現實的評估,以準確評估模型的真實功能和局限性。

          每日經濟新聞綜合公開資料

          封面圖片來源:視覺中國-VCG31N2008743681

          如需轉載請與《每日經濟新聞》報社聯系。
          未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。

          讀者熱線:4008890008

          特別提醒:如果我們使用了您的圖片,請作者與本站聯系索取稿酬。如您不希望作品出現在本站,可聯系我們要求撤下您的作品。

          模型 Ai 大模型

          歡迎關注每日經濟新聞APP

          每經經濟新聞官方APP

          0

          0

          国产日本精品在线观看_欧美日韩综合精品一区二区三区_97国产精品一区二区三区四区_国产中文字幕六九九九
        2. <acronym id="mz9d1"><output id="mz9d1"></output></acronym>

          <sub id="mz9d1"><ol id="mz9d1"><nobr id="mz9d1"></nobr></ol></sub>
              1. <sup id="mz9d1"></sup>
                午夜网站在线进。 | 日韩欧美一区二区三区久久婷婷 | 亚洲中文字幕综合精品视频 | 日本美女先锋影音资源 | 精品国产精品人成电影 | 亚洲国产精品艾草 |