開放原始碼人工智慧終於有了「官方」定義

長期致力於定義和「管理」所有開放原始碼事務的開放原始碼促進會 (OSI) 今天發布了其開放原始碼AI定義 (OSAID) 的 1.0 版本。OSAID 是與學術界和產業界多年合作的成果，旨在提供一個標準，讓任何人都可以藉此判斷AI是否為開放原始碼。

你可能會好奇，什麼開放原始碼AI的定義需要達成共識。OSI 執行副總裁史特法諾‧馬富利（Stefano Maffulli）表示，一個很大的動機是讓政策制定者和AI開發者達成共識。

「監管機構已經在關注這個領域，」馬富利告訴 TechCrunch，並指出像歐盟委員會這樣的機構已經尋求給予開放原始碼特殊認可。「我們明確地向不同的利益相關者和社群進行了推廣——不僅僅是科技界的常客。我們甚至試圖接觸那些最常與監管機構溝通的組織，以便獲得他們的早期回饋。」

開放AI

根據 OSAID，要被視為開放原始碼，AI模型必須提供足夠的設計資訊，以便人們可以「實質上」地重新創建它。該模型還必須披露有關其訓練數據的任何相關細節，包括來源、數據的處理方式以及如何獲取或許可數據。

「開放源始碼 AI 是一種允許你完全了解其構建過程的 AI 模型，」馬富利說。「這意味著你可以存取所有組件，例如用於訓練和數據過濾的完整程式碼。」

OSAID 還列出了開發者對開放原始碼AI應有的使用權利，例如可以將模型用於任何目的以及無需獲得任何人的許可即可修改模型。「最重要的是，你應該能夠在此基礎上進行構建，」馬富利補充道。

OSI 沒有任何強制執行機制。它不能強迫開發者遵守或遵循 OSAID。OSI 打算對那些被描述為「開放源始碼」但不符合定義的模型進行標記。

「我們的希望是，當有人試圖濫用這個詞時，AI社群會說，『我們不承認這是開放原始碼』，然後它就會得到糾正，」馬富利說。從歷史上看，這種方法的成效不一，但也並非完全沒有影響。

許多新創公司和大型科技公司（以 Meta 最為顯著）都使用「開放源始碼」來描述其 AI 模型發布策略，但很少符合 OSAID 的標準。例如，Meta 要求每月活躍用戶超過 7 億的平臺申請特殊許可，才能使用其 Llama 模型。

馬富利公開批評 Meta 將其模型稱為「開放原始碼」的決定。他說，在與 OSI 討論後，Google 和 Microsoft 同意放棄對非完全開放模型使用該術語，但 Meta 沒有。

長期以來一直將其模型宣傳為「開放」的 Stability AI 要求收入超過 100 萬美元的企業獲得企業許可證。法國AI新貴 Mistral 的許可證禁止將某些模型和輸出用於商業用途。

去年 8 月，Signal 基金會、非營利AI Now 研究所和卡內基梅隆大學的研究人員進行的一項研究發現，許多「開放原始碼」模型基本上只是名義上的開放原始碼。訓練模型所需的數據被保密，運行模型所需的計算資源超出許多開發人員的承受範圍，且調整模型所需的技術非常複雜。

該研究作者總結道，這些「開放源始碼」項目不僅無法實現 AI 的民主化，反而加強了中心化權力。事實上，Meta 的 Llama 模型下載量已達數億次，而 Stability 表示其模型驅動了高達 80% 的 AI 生成圖像。

反對意見

Meta 不意外地反對這一評價，並對 OSAID 的撰寫提出異議（儘管其參與了該草案的編寫過程）。一位發言人為公司對 Llama 模型的許可證辯護，稱該條款及配套的可接受使用政策作為防止模型被不當部署的防護措施。

Meta 還表示，隨著加州的訓練透明度法等法規的發展，它正在採取「謹慎的措施」來共享模型細節，包括有關訓練數據的細節。

「我們在許多方面都與我們的合作夥伴 OSI 保持一致，但和業界其他公司一樣，我們並不完全同意其新定義，」該發言人說。「開放源始碼 AI 沒有單一的定義，因為現有的開放源始碼定義無法涵蓋當今快速發展的 AI 模型所涉及的複雜性。我們免費並公開提供 Llama，並通過許可證和可接受使用政策在某些限制下保障安全。我們將繼續與 OSI 和其他業界組織合作，負責任地提高 AI 的可用性和開放性，不受技術定義的限制。」

該發言人指出了其他為開放源始碼 AI 訂立標準的努力，例如 Linux 基金會的建議定義、自由軟體基金會對「自由機器學習應用程式」的標準，以及其他 AI 研究人員的建議。

有趣的是，Meta 竟然是贊助 OSI 工作的公司之一，與 Amazon、Google、Microsoft、Cisco、Intel 以及 Salesforce 等科技巨頭一樣（OSI 近期獲得非營利機構斯隆基金會的贊助，以減少對科技業資助者的依賴）。

Meta 不願公開訓練數據，很可能與大多數 AI 模型的開發方式有關。

AI公司從社群媒體和網站上抓取大量的圖像、聲音、影片等，並使用這些通常所說的「公開可用數據」來訓練他們的模型。在當今競爭激烈的市場中，一家公司收集和完善數據集的方法被視為一種競爭優勢，公司將此作為他們不披露數據的主要原因之一。

但訓練數據的細節也可能使開發者成為法律訴訟的目標。作者和出版商聲稱 Meta 使用了受版權保護的書籍進行訓練。藝術家們已經對 Stability 提起訴訟，因為 Stability 抓取了他們的作品並在沒有署名的情況下進行了複製，他們認為這種行為與盜竊無異。

不難想見，若原告和法官認為 OSAID 足夠具有說服力並在法庭上引用，這一定義可能對試圖在訴訟中取得有利結果的公司構成挑戰。

未解決問題

一些人認為該定義還不夠完善，例如在處理專有訓練數據許可方面。Lightning AI 的首席技術長盧卡‧安提加（Luca Antiga）指出，儘管用於訓練模型的數據並非免費提供，但模型仍可能滿足 OSAID 的所有要求。如果你必須支付數千美元才能檢查模型創建者付費許可的私人圖像庫，那麼它還能算是「開放」嗎？

「要具有實用價值，尤其是對企業而言，任何開放原始碼AI的定義都需要給予合理的信心，即被許可的內容可以按照組織使用它的方式進行許可，」安提加告訴 TechCrunch。「由於忽略了訓練數據的許可問題，OSI 留下了一個巨大的漏洞，這將使條款在確定 OSI 許可的AI模型是否可以在現實情況中採用方面變得不那麼有效。」

在 OSAID 的 1.0 版本中，OSI 也未針對 AI 模型的版權問題進行處理，即僅授予版權許可是否足以確保模型符合開放源始碼定義。目前尚不清楚現有的知識產權法下模型或模型組件是否可受版權保護。但若法院決定可以，OSI 認為可能需要新的「法律工具」來妥善地對受知識產權保護的模型進行開放源始碼授權。

馬富利同意該定義需要更新——也許很快就會更新。為此，OSI 成立了一個委員會，負責監督 OSAID 的應用情況，並為未來版本提出修訂建議。

「這不是地下室的天才孤軍奮戰的成果，」他說。「這是一項在公開場合進行、包括多方利益相關者和不同利益團體參與的工作。」

延伸閱讀：AI 開源戰！Meta 釋出性能匹敵 ChatGPT 的 Llama 3.1 模型，免費開放將重塑 AI 市場格局
延伸閱讀：Meta發布Llama 3.1開源AI模型挑戰行業巨頭！祖克柏力推開源AI的5大理由
延伸閱讀：Google推出最強免費開源AI模型Gemma，與Gemini系出同門、性能超越Llama可在筆電單獨運行
延伸閱讀：Mistral AI 開源釋出強大程式碼生成 AI 模型 Codestral Mamba，挑戰 Transformer 架構霸主地位
資料來源：techcrunch