OpenAI發布事故報告指出,目前遭遇GPT-4o和4o-mini模型效能下降的問題,目前正在進行調查,並將盡快發布最新消息。近期,研究人員創新性地推出了一項名為LONGPROC的基準測試工具,該工具專為評估模型在處理長上下文中複雜資訊並產生相應回覆的能力而設計。
實驗結果略顯意外:包括GPT-4o在內的眾多頂尖模型,雖然在一般長上下文回憶基準測試中表現優異,但在應對複雜的長文本生成任務時,仍暴露出顯著的改進需求。
具體而言,儘管所有參測模型均宣稱其上下文視窗大小超過32K tokens,但實際情況卻大相逕庭。開源模型在處理僅含2K tokens的任務時便顯露疲態,而諸如GPT-4o等閉源模型,在應對8K tokens任務時效能也明顯下滑。
以GPT-4o為例,在要求其生成詳細旅行規劃的任務中,即便提供了明確的時間節點和直飛航班資訊,模型的輸出結果中仍出現了不存在的航班資訊,即產生了「幻覺」現象。
實驗進一步揭示,即便是最前沿的模型,在生成連貫且冗長的內容方面仍存在較大提升空間。特別是在需要輸出8k tokens的任務中,即便是參數龐大的先進模型也未能倖免於難,這或許預示著未來大型語言模型(LLM)研究的一個極具潛力的方向。
業界專家認為,長文本生成任務的效能下降以及模型在生成複雜資訊時的連貫性問題,是當前大語言模型領域亟待解決的關鍵課題。
從經營層面來看,OpenAI表示將為使用者提供更加高效和低成本的模型選擇,如GPT-4o-mini,該模型不僅保留了GPT-4o的核心優勢,還在數學推理和程式設計任務上有出色表現,而市場上同類小型模型難以匹敵。然而,對於普通使用者而言,這些「輕量化」模型是否真的適用,還有待實際使用驗證。
另一方面,對於那些高精確度需求使用者,模型的「降智」現象也引起了不滿。例如,有使用者反映最近幾個月Claude、GPT等模型的表現不如從前,導致他們取消會員續費。這顯示出市場對於AI模型的期待和實際使用效果之間仍存差距,值得開發者和研究者們進一步優化和調校。
儘管GPT-4o及其輕量版本GPT-4o-mini面臨效能挑戰,但這也為未來的研究提供了新的方向。從處理複雜長文本到提高生成長文本的連貫性和準確性,AI領域仍有許多未知空間有待探索。對於使用者和研究者來說,多個角度和多樣化的評估標準將有助於更好地衡量模型的實際價值和應用潛力。而OpenAI等公司在AI模型開發方面所付出的努力,也將推動該領域向更高效、更可靠的方向發展。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!