在 ChatGPT 帶動生成式 AI 爆炸成長下,各科技大廠也積極擴大 AI 領域的研發,向來推動 AI 不落人後的 Google,也推出生成式 AI 聊天機器人 Bard,不讓 ChatGPT 專美於前,甚至更進一步發表自家的 AI 語言模型 Gemini,以打造更完整的 Google AI 生態系。而在 Gemini 發表約 2 個月後,Google 又大動作將 Bard 正式更名為 Gemini,現在說到 Gemini 已不再只是語言模型,也代表 Google 的生成式 AI 聊天機器人。
文章目錄
Gemini 究竟是什麼?
Google 在 2023 年 12 月時,正式推出「Gemini」AI 模型,使用 Google 自行開發的晶片 TPU(Tensor Processing Unit)訓練而成,可以簡單理解為等同於 ChatGPT 背後的 GPT 訓練模型(Generative Pretrained Transformer)。
是 GPT-4 的最強對手?
不過,Gemini 標榜可以進行程式碼、文字、圖片、影音等多模態(multimodal)的學習, 甚至可以直接「看懂」圖片,而不是像過去使用 OCR 的方式掃描圖片後,再辨識上面的文字來分析圖片。在示範影片中也展示 Gemini 能由兩張手繪汽車圖中,分析出符合空氣力學運作的車子速度會較快;理解拳頭、手指頭比出 2 和 5,會是「剪頭、石頭、布」的遊戲;也能指出太陽、地球和土星的正確順序。
在 Gemini 發表時,Google 也表示 Gemini 的訓練數據量是 ChatGPT 的兩倍,於 32 項 AI 測試中,有高達 30 項超越 ChatGPT(GPT-4),因此 Gemini 在大規模多任務語言理解測驗(Massive Multitask Language Understanding;MMLU)上的表現優於 GPT-4,很明顯要與 GPT-4 較勁。
Gemini 模型有三種規模
另外,在 Gemini 1.0 版本發表時,還推出 Gemini Ultra、Gemini Pro、Gemini Nano 三個等級。Gemini Ultra 是 Google 最強大的模型,專為高度複雜的任務而設計,被定位在和 OpenAI 的 GPT-4 競爭;Gemini Pro 是一款中階的模型,目的是超越 GPT-3.5,即多數人使用的 ChatGPT 免費版;最後是 Gemini Nano,強調高效率的模型,應用在行動裝置,目前 Google Pixel 8 及三星 Galaxy S24 系列手機已使用,也就是所謂的 AI 手機。
Bard 正式改名為 Gemini
早在 Gemini 模型於 2023年 Google I/O 大會亮相時,Google 就已透露Gemini 可望取代 PaLM 2 模型,並導入旗下眾多服務,當中也包含 Bard 生成式 AI聊 天機器人,果然沒有等太久,直接將 Bard 改名為 Gemini。
回顧 Google 在去年 3 月發表 Google Bard 時,最初使用的是 LaMDA 模型,之後改用 PaLM 模型,並於去年 12 月開始,於全球 40 多國語言版本中,升級至 Gemini Pro 模型,當中也包含了繁體中文版。現在更直接宣布由 Bard 更名為 Gemini,看來 Google 這次對 Gemini 相當有信心,更積極的讓用戶認識 Gemini,以穩固在 AI 市場的地位。
免費 Gemini 與付費的 Gemini Advanced
在 Gemini 發表後,Google 執行長 Sundar Pichai 曾表示「Gemini 是 Google有史以來最強大也是最通用的模型。」而 Google Bard 也在去年12月時,升級為 Gemini Pro 模型訓練,並於今年 2 月正式改名為 Gemini,經由這一連串的變更、升級及改名後,現在說到 Gemini,幾乎就等於 Google AI。此外,在將 Bard 改名為 Gemini 的同時,也與多數生成式 AI 工具一樣,除了免費版本之外,也推出功能更進階的 Gemini Advanced 付費版本,使用的是最高階的 Gemini Ultra 1.0 模型。
Google One AI 進階版
另外,Gemini Advanced 也將成為全新「Google One AI 進階版」方案的一部份,每個月 650 元,並提供 2 個月的免費試用期。透過訂閱這個方案,除了有 Gemini Advanced 資格外,還有 Google 雲端空間 2TB,以及相簿、日曆、Google Meet⋯等進階功能,同時很快能夠在 Gmail、文件、簡報、試算表等體驗到 Gemini 的應用。
而台灣帳戶現在已可升級 Gemini Advanced,也可以用中文回答,不過,因為目前 Gemini Ultra 1.0 模型只有英文版,也只對英文回答進行最佳化,因此,建議可以再等 Google 陸續支援更多語言後,再來升級會更有感。
對應 ChatGPT Plus 版本
而 Gemini Advanced 閱服務,其實類似 ChatGPT Plus 的訂閱模式,畢竟在Gemini 模型中,Gemini Pro 對應的是 GPT-3.5,而 Gemini Ultra 對應的是 GPT-4,內建 Gemini Ultra 模型的 Gemini Advanced,自然就對應使用 GPT-4 的 ChatGPT Plus。
目前 ChatGPT Plus 也以 GPT Store 來擴充應用面,並積極跨足更多領域,而Gemini Advanced 因為擁有 Google 龐大的數據資源以及完整的生態系,在整合性上會更有優勢,只不過在去年 GhatGPT 爆炸性成長下,Google 在生成式 AI上確實是慢了些,現在更要再加速 Gemini 整合於旗下服務,才會讓用戶有感升級及改變。
以下也實際來體驗在 Bard 更名為 Gemini,並升級 Gemini Pro 模型下,所提供的圖像生成功能,以及長文分析、內容查證功能的實用性。
長篇文章進行摘要及分析
Google Bard 還未更名為 Gemini 時,就已導入 Gemini Pro 模型,標榜可處理更多內容,並提升理解、總結、推理⋯等能力。這次實測將多篇長文貼上 Gemini進 行分析,最長有超過一萬字,大都能夠正常進行文章摘要分析或資料重整,摘要的內容也符合邏輯,甚至會自動製作表格,以利於比較及閱讀。另外,一次也會提供三種版本的草稿,不滿意可以按下「重新產生草稿」,再生成不一樣的內容。不過,有時候會突然變成繁簡中文回覆,也會出現答非所問的時候。
Gemini 下載網址:https://gemini.google.com/app
步驟 1:登入全新的 Gemini,也帶來新的介面,直接於下方下達指令給Gemini,並貼上要分析的長文,此例大約 5,000 字。
步驟 2:接著會進入新的頁面,並完成長文重點摘要,內容正確性蠻高的,但若不滿意也可以按下「顯示草稿」。
步驟 3:預設會提供三個版本的草稿,如果還是不滿意,可以按下後方的重整符號。
步驟 4:此例範例中, 有提供三款產品的文字介紹,Gemini 則自動整理成表格,更方便比較及閱讀,也可按下「匯出到試算表」,另存表格使用。
步驟 5:除了可以重複對話來修改內容外,在頁面的最下方還會有「修改這則回覆」的圖示,點選後可以從中選擇要修改的方向。
用文字或圖片進行 AI 圖像生成
由 Bard 改名為 Gemini 後,除了升級 Gemini Pro 模型外,也導入 Google 自行研發的新版 Imagen 2 模型,可以像 ChatGPT Plus 或微軟的 Copilot 一樣,直接在聊天視窗內生成高品質的圖片。且在新版的 Imagen 2 模型下,只需要用文字描述想要的圖片內容,Gemini 就可以依據文字描述生成相對應的圖片,除了生成圖片的效果更加逼真及精美外,以對話方式與 Gemini 互動,也提升操作的樂趣。
不過,目前此功能僅支援英文,但 Google 已宣布未來將推出更多語言的版本,而現階段如果以英文描述不夠順暢時,不妨也可以透過 Google 翻譯來輔助產生英文描述。此外,除了可用文字描述想生成的圖片內容及風格外,也可以上傳圖片範本讓 Gemini 參考,再下達生成相似圖片的指令。
而 Gemini 一次會生成 4 張圖片,若是對圖片不滿意,又或是想要生成出更多圖片,可以按下「生成更多內容」,則會再增加 2 張。至於 Gemini 生成的圖片大小為 1536 × 1536 解析度,應用一般需求使用不成問題,若想要更高畫質的圖片,不妨可另外再以 AI 放大圖片的工具來處理。
步驟 1:目前以中文下達指令,讓 Gemini生 成圖片時,會出現「我還不能建立影像,所以無法幫助您」的回覆。
步驟 2:將指令改為英文後,就會自動生成出四張圖片讓用戶挑選。
步驟 3:對圖片不滿意時,可以按下「生成更多內容」,會再提供 2 張,也可以繼續與 Gemini 對話,讓它重新生成圖片。
步驟 4:Gemini 會很快的依指令生成出新的圖片,由於是新的指令,所以會提供 4 張。
步驟 5:還是對圖片風格不滿意時,可以選擇上傳一張圖片,讓 Gemini 依此風格生成圖片。
步驟 6:接著 Gemini 就會依照圖片的風格及指令,重新再生成 4 張新的圖片。
步驟 7:在實測過程中,一來一回來的修改生成圖片,效果不會太好,不如重新整合指令,反而可以得到品質較好的圖片。
步驟 8:在這些 Gemini 生成的圖片中,若有滿意的版本,則可以直接點選。
步驟 9:接著選擇右上方的「下載原尺寸」,即可另存這張圖片。
步驟 10:下載的圖片為 .JPEG 檔,圖片比例為 1:1,解析度為 1536 ×1536,應用一般需求使用不成問題。
查證功能可檢驗 Gemini 的正確性
相信有用過 ChatGPT、Copilot,甚至是過去的 Google Bard,大都會遇到這類生成式 AI 聊天機器人,都在一派正經的胡言亂語,必須自行再三查證內容的真實性。而升級後的 Gemini 則加入「內容查證」功能,在 Gemini 回答後的下方,可見一個代表 Google 的「G」圖示,按下後即可透過 Google 搜尋來佐證回答或提出疑慮的網路資料,並以不同顏色標示查證結果。點選綠色的標示會提供查證的來源,點選橘色則表示 Google 搜尋找不到相關內容,建議用戶進一步查證,以評估內容的可信度。
步驟 1:此例先請 Gemini 提供日本岡山六天五夜的旅遊規劃,畫面瀏覽到最後時,按下代表 Google 的「G」圖示。
步驟 2:接著就會開始透過 Google 搜尋上述內容的正確性,並以不同顏色標示查證結果。
步驟 3:按下色塊後方的箭頭,會展開透過 Google 搜尋到的相似資料,這也代表綠色色塊的正確性較高。
步驟 4:此例再與 Gemini 繼續對話,故意引導出可能錯誤的資訊,再按下代表 Google的「G」圖示。
步驟 5:此時也出現橘色色塊標示,展開後顯示「Google 搜尋找不到相關內容,建議用戶進一步查證」。
本文同步刊載於 PC home 雜誌
歡迎加入 PC home 雜誌粉絲團!
- 延伸閱讀:Google推出 Gemini 1.5!採用新的MoE架構, 卡下文視窗高達100萬token
- 延伸閱讀:Google Bard AI 改名為 Gemini,同步推出 Android 版應用程式
- 延伸閱讀:Google One 破 1 億用戶,AI 服務 Bard 正式更名為 Gemini
請注意!留言要自負法律責任,相關案例層出不窮,請慎重發文!