Google Gemma模型加入開源戰局，重要性如同OpenAI把GPT-3開放了

幾家巨頭之間的大型語言模型競爭，越來越白熱化了。在與閉源的OpenAI打得火熱的同時，Google突然加入了開放原始碼的戰局，宣佈開源了一個新的模型系列Gemma，這個模型使用了與它最強的Gemini同源的技術，並且在一系列的標準測試上秒殺了幾款今天最熱門的開源模型。

怎麼理解這個動作的重要性呢？你可以粗暴的理解為：

這有點像現在正在訓練更強大的GPT-5的OpenAI，把當年的GPT3給開源了。（前幾天Sam Altman被問過這個問題，你們是否會在未來把GPT3開源，他沒有直接回答。現在看來Google針對性很強啊。）

根據Google官方對Gemma的介紹，它的基本資訊如下：

Gemma是Google開放原始碼的一個大型語言模型，而非像Gemini那樣是多模態的，它基於與Gemini相同的技術建構，但完全公開並允許商用授權。
Gemma模型有兩個主要版本，分別是Gemma 7B（70億參數）和Gemma 2B（20億參數）。這些模型在大規模的資料集上進行了訓練，資料集包含了以英語為主的網路文件、數學資料以及程式碼資料，總量達到了6兆tokens。

Gemma模型的特點

架構細節：Gemma模型具有不同的參數規模，Gemma-2B有18層，d_model為2048，而Gemma-7B有28層，d_model為3072。這些模型還具有不同的前饋隱藏維度、頭數和KV頭數，以及詞彙量。

新技術：Gemma採用了一些新技術，如Multi-Query Attention、RoPE Embeddings、GeGLU啟動函數以及Normalizer Location，這些技術有助於提高模型的性能。
評測結果：Google官方宣稱Gemma模型在70億參數規模的語言模型中表現最佳，甚至超過了一些參數量更大的模型。
開源情況：Gemma模型遵循一個自訂的開源協議，允許商業使用。

發佈完，Jeff Dean就對這個系列模型劃了重點：

Gemma-7B模型在涵蓋通用語言理解、推理、數學和程式的8項基準測試中，性能超過了廣泛使用的Llama-2 7B和13B模型。它在數學/科學和程式相關任務上，通常也超過了Mistral 7B模型的性能。

Gemma-2B IT和Gemma-7B IT這兩個經過指令調整的模型版本，在基於人類偏好的安全評估中，都優於Mistral-7B v0.2指令模型。特別是Gemma-7B IT模型在遵循指令方面也表現更佳。

（有意思的是，在Google曬出的成績對比中，阿里的千問背後的模型Qwen系列表現也很亮眼）

他表示，同時也發佈了一個負責任的生成性人工智慧工具包（Responsible Generative AI Toolkit），它為負責任地使用像Gemma模型這樣的開放模型提供了資源，包括：

關於設定安全政策、安全調整、安全分類器和模型評估的指導。
學習可解釋性工具（Learning Interpretability Tool，簡稱LIT），用於調查Gemma的行為並解決潛在問題。
一種建構具有最小樣本量的強大安全分類器的方法論。
這次發佈了兩個版本的模型權重：Gemma 2B和Gemma 7B。每個版本都提供了預訓練和指令調整的變體。
為所有主要框架提供了推理和監督式微調（SFT）的工具鏈：通過原生Keras 3.0支援的JAX、PyTorch和TensorFlow。
提供了即用型的Colab和Kaggle，以及與流行的工具如Hugging Face、MaxText、NVIDIA NeMo和TensorRT-LLM的內建，使得開始使用Gemma變得簡單。
預訓練和指令調整的Gemma模型可以在您的筆電、工作站或Google Cloud上運行，並且可以輕鬆部署在Vertex AI和Google Kubernetes Engine（GKE）上。
在多個AI硬體平台上的最佳化確保了行業領先的性能，包括NVIDIA GPU和Google Cloud TPUs。
使用條款允許所有規模的組織負責任地進行商業使用和分發。

可以看到Jeff Dean和Google這次都十分強調開源模型的安全性和具體的實打實的配套設施和舉措。這似乎也直至被詬病Close AI且被外界質疑安全性保障的OpenAI。