ADVERTISEMENT
根據 TechCrunch 取得的內部信件,協助改進 Google Gemini AI 的承包商正在將其答案與 Anthropic 的競爭對手模型 生成的輸出進行比較。
當 TechCrunch 詢問 Google 是否已獲得使用 Claude 來測試 Gemini 的許可時,Google 未回應。
隨著科技公司競相構建更優秀的 AI 模型,他們通常會評估自家模型與競爭對手的性能差異。評估的方式,一般是讓自家模型參與業界標準的基準測試,而不是花費大量人力,請承包商仔細評估競爭對手的 AI 回應。
負責評估 Gemini 模型輸出準確性的承包商,必須根據多個標準(例如真實性和詳盡性)對他們看到的每個回應進行評分。根據 TechCrunch 看到的信件,承包商每次評估最多有 30 分鐘的時間,來判斷 Gemini 和 Claude 哪個模型的答案更好。
根據信件內容顯示,承包商最近開始注意到,在他們用來比較 Gemini 與其他未具名 AI 模型的 Google 內部平台上,出現了 Anthropic 的 Claude 的相關資訊。TechCrunch 看到的至少有一項輸出結果明確指出:「我是 Claude,由 Anthropic 創造。」
一份內部聊天記錄顯示,承包商注意到 Claude 的回應似乎比 Gemini 更強調安全性。一位承包商寫道:「Claude 的安全設定是所有 AI 模型中最嚴格的」。在某些情況下,Claude 不會回應它認為不安全的提示,例如扮演不同的 AI 助手。在另一個案例中,Claude 避免回答一個提示,而 Gemini 的回應因為包含「裸體和束縛」的內容而被標記為「嚴重違反安全規定」。
Anthropic 的商業服務條款禁止客戶在未經 Anthropic 批准的情況下使用 Claude「以構建競爭產品或服務」或「訓練競爭 AI 模型」。Google 是 Anthropic 的主要投資者。也就是說 Anthropic 的服務條款禁止客戶利用 Claude 來開發與 Anthropic 競爭的產品或服務,或是用 Claude 來訓練其他的 AI 模型,除非 Anthropic 同意。儘管 Google 是 Anthropic 的主要投資者,也必須遵守這項規定。
當 TechCrunch 詢問 Google DeepMind(負責 Gemini 的部門)發言人 Shira McNamara 時,對方未透露 Google 是否已獲得 Anthropic 的批准來使用 Claude。在發布前,Anthropic 的發言人未就此事發表評論。
McNamara 表示,DeepMind 確實會「比較模型輸出」進行評估,但 Gemini 並未利用 Anthropic 的模型進行訓練。
「當然,根據標準行業慣例,在某些情況下,我們會將模型輸出作為評估過程的一部分進行比較,」 McNamara 說。「但是,任何暗示我們使用 Anthropic 模型來訓練 Gemini 的說法都是不準確的。」
McNamara 承認 Google 會將自家 AI 模型的輸出與其他模型的輸出進行比較,這是業界常見的做法,目的是評估自家模型的性能。但她同時也強調,Google 並沒有使用 Anthropic 的模型來訓練 Gemini。
TechCrunch 上週獨家報導,Google 正要求負責 AI 產品的承包商對 Gemini 在他們專業領域之外的 AI 回應進行評分。內部信件表達了承包商的擔憂,他們認為 Gemini 可能會在醫療保健等高度敏感的話題上產生不準確的資訊。
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!