Google Gemini 實用技巧：怎麼用來生成圖片、長文摘要，還可自我驗證內容正確性！

在 ChatGPT 帶動生成式 AI 爆炸成長下，各科技大廠也積極擴大 AI 領域的研發，向來推動 AI 不落人後的 Google，也推出生成式 AI 聊天機器人 Bard，不讓 ChatGPT 專美於前，甚至更進一步發表自家的 AI 語言模型 Gemini，以打造更完整的 Google AI 生態系。而在 Gemini 發表約 2 個月後，Google 又大動作將 Bard 正式更名為 Gemini，現在說到 Gemini 已不再只是語言模型，也代表 Google 的生成式 AI 聊天機器人。

文章目錄

1. Gemini 究竟是什麼？
2. 免費 Gemini 與付費的 Gemini Advanced
- Google One AI 進階版
- 對應 ChatGPT Plus 版本
3. 長篇文章進行摘要及分析
4. 用文字或圖片進行 AI 圖像生成
5. 查證功能可檢驗 Gemini 的正確性

Gemini 究竟是什麼？

Google 在 2023 年 12 月時，正式推出「Gemini」AI 模型，使用 Google 自行開發的晶片 TPU（Tensor Processing Unit）訓練而成，可以簡單理解為等同於 ChatGPT 背後的 GPT 訓練模型（Generative Pretrained Transformer）。

是 GPT-4 的最強對手？

不過，Gemini 標榜可以進行程式碼、文字、圖片、影音等多模態（multimodal）的學習，甚至可以直接「看懂」圖片，而不是像過去使用 OCR 的方式掃描圖片後，再辨識上面的文字來分析圖片。在示範影片中也展示 Gemini 能由兩張手繪汽車圖中，分析出符合空氣力學運作的車子速度會較快；理解拳頭、手指頭比出 2 和 5，會是「剪頭、石頭、布」的遊戲；也能指出太陽、地球和土星的正確順序。

在 Gemini 發表時，Google 也表示 Gemini 的訓練數據量是 ChatGPT 的兩倍，於 32 項 AI 測試中，有高達 30 項超越 ChatGPT（GPT-4），因此 Gemini 在大規模多任務語言理解測驗（Massive Multitask Language Understanding；MMLU）上的表現優於 GPT-4，很明顯要與 GPT-4 較勁。

▲ Gemini 是 Google 推出的 AI 語言模型，使用 Google 自行開發的晶片 TPU（Tensor Processing Unit）訓練而成，可以進行程式碼、文字、圖片、影音等多模態（multimodal）的學習與理解。

Gemini 模型有三種規模

另外，在 Gemini 1.0 版本發表時，還推出 Gemini Ultra、Gemini Pro、Gemini Nano 三個等級。Gemini Ultra 是 Google 最強大的模型，專為高度複雜的任務而設計，被定位在和 OpenAI 的 GPT-4 競爭；Gemini Pro 是一款中階的模型，目的是超越 GPT-3.5，即多數人使用的 ChatGPT 免費版；最後是 Gemini Nano，強調高效率的模型，應用在行動裝置，目前 Google Pixel 8 及三星 Galaxy S24 系列手機已使用，也就是所謂的 AI 手機。

▲ Google Pixel 8 及三星 Galaxy S24 系列手機上，已導入 Gemini Nano 模型，透過 AI 完成畫圈搜尋、即時翻譯、擴充圖片內容，也就是所謂的 AI 手機。

Bard 正式改名為 Gemini

早在 Gemini 模型於 2023年 Google I/O 大會亮相時，Google 就已透露Gemini 可望取代 PaLM 2 模型，並導入旗下眾多服務，當中也包含 Bard 生成式 AI聊天機器人，果然沒有等太久，直接將 Bard 改名為 Gemini。

回顧 Google 在去年 3 月發表 Google Bard 時，最初使用的是 LaMDA 模型，之後改用 PaLM 模型，並於去年 12 月開始，於全球 40 多國語言版本中，升級至 Gemini Pro 模型，當中也包含了繁體中文版。現在更直接宣布由 Bard 更名為 Gemini，看來 Google 這次對 Gemini 相當有信心，更積極的讓用戶認識 Gemini，以穩固在 AI 市場的地位。

▲ 現在開啟 Google Bard，會直接變成 Gemini，並告知用戶「Bard 已更名為Gemini」。

免費 Gemini 與付費的 Gemini Advanced

在 Gemini 發表後，Google 執行長 Sundar Pichai 曾表示「Gemini 是 Google有史以來最強大也是最通用的模型。」而 Google Bard 也在去年12月時，升級為 Gemini Pro 模型訓練，並於今年 2 月正式改名為 Gemini，經由這一連串的變更、升級及改名後，現在說到 Gemini，幾乎就等於 Google AI。此外，在將 Bard 改名為 Gemini 的同時，也與多數生成式 AI 工具一樣，除了免費版本之外，也推出功能更進階的 Gemini Advanced 付費版本，使用的是最高階的 Gemini Ultra 1.0 模型。

Google One AI 進階版

另外，Gemini Advanced 也將成為全新「Google One AI 進階版」方案的一部份，每個月 650 元，並提供 2 個月的免費試用期。透過訂閱這個方案，除了有 Gemini Advanced 資格外，還有 Google 雲端空間 2TB，以及相簿、日曆、Google Meet⋯等進階功能，同時很快能夠在 Gmail、文件、簡報、試算表等體驗到 Gemini 的應用。

而台灣帳戶現在已可升級 Gemini Advanced，也可以用中文回答，不過，因為目前 Gemini Ultra 1.0 模型只有英文版，也只對英文回答進行最佳化，因此，建議可以再等 Google 陸續支援更多語言後，再來升級會更有感。

▲ Google 新推出的 Google One AI 進階版中，包括 Gemini Advanced、Google 雲端儲存空間 2TB，而原本已經訂閱 2TB 儲存空間方案的用戶，並沒有辦法直接體驗 Gemini Advanced，因為這是個全新的方案。

對應 ChatGPT Plus 版本

而 Gemini Advanced 閱服務，其實類似 ChatGPT Plus 的訂閱模式，畢竟在Gemini 模型中，Gemini Pro 對應的是 GPT-3.5，而 Gemini Ultra 對應的是 GPT-4，內建 Gemini Ultra 模型的 Gemini Advanced，自然就對應使用 GPT-4 的 ChatGPT Plus。

目前 ChatGPT Plus 也以 GPT Store 來擴充應用面，並積極跨足更多領域，而Gemini Advanced 因為擁有 Google 龐大的數據資源以及完整的生態系，在整合性上會更有優勢，只不過在去年 GhatGPT 爆炸性成長下，Google 在生成式 AI上確實是慢了些，現在更要再加速 Gemini 整合於旗下服務，才會讓用戶有感升級及改變。

以下也實際來體驗在 Bard 更名為 Gemini，並升級 Gemini Pro 模型下，所提供的圖像生成功能，以及長文分析、內容查證功能的實用性。

▲ Gemini 也推出 App 版本，不過目前只支援 Android 手機，且限定於美國及少數國家地區安裝，而於截稿前台灣還無法由 Google Play 下載。

▲ Gemini Advanced 內建 Gemini Ultra 模型，自然就對應使用 GPT-4 的 ChatGPT Plus，同樣都是付費版本，ChatGPT Plus 一個月 20 美元，換算台幣約 630 元。

長篇文章進行摘要及分析

Google Bard 還未更名為 Gemini 時，就已導入 Gemini Pro 模型，標榜可處理更多內容，並提升理解、總結、推理⋯等能力。這次實測將多篇長文貼上 Gemini進行分析，最長有超過一萬字，大都能夠正常進行文章摘要分析或資料重整，摘要的內容也符合邏輯，甚至會自動製作表格，以利於比較及閱讀。另外，一次也會提供三種版本的草稿，不滿意可以按下「重新產生草稿」，再生成不一樣的內容。不過，有時候會突然變成繁簡中文回覆，也會出現答非所問的時候。

Gemini 下載網址：https://gemini.google.com/app

步驟 1：登入全新的 Gemini，也帶來新的介面，直接於下方下達指令給Gemini，並貼上要分析的長文，此例大約 5,000 字。

步驟 2：接著會進入新的頁面，並完成長文重點摘要，內容正確性蠻高的，但若不滿意也可以按下「顯示草稿」。

步驟 3：預設會提供三個版本的草稿，如果還是不滿意，可以按下後方的重整符號。

步驟 4：此例範例中，有提供三款產品的文字介紹，Gemini 則自動整理成表格，更方便比較及閱讀，也可按下「匯出到試算表」，另存表格使用。

步驟 5：除了可以重複對話來修改內容外，在頁面的最下方還會有「修改這則回覆」的圖示，點選後可以從中選擇要修改的方向。

用文字或圖片進行 AI 圖像生成

由 Bard 改名為 Gemini 後，除了升級 Gemini Pro 模型外，也導入 Google 自行研發的新版 Imagen 2 模型，可以像 ChatGPT Plus 或微軟的 Copilot 一樣，直接在聊天視窗內生成高品質的圖片。且在新版的 Imagen 2 模型下，只需要用文字描述想要的圖片內容，Gemini 就可以依據文字描述生成相對應的圖片，除了生成圖片的效果更加逼真及精美外，以對話方式與 Gemini 互動，也提升操作的樂趣。

不過，目前此功能僅支援英文，但 Google 已宣布未來將推出更多語言的版本，而現階段如果以英文描述不夠順暢時，不妨也可以透過 Google 翻譯來輔助產生英文描述。此外，除了可用文字描述想生成的圖片內容及風格外，也可以上傳圖片範本讓 Gemini 參考，再下達生成相似圖片的指令。

而 Gemini 一次會生成 4 張圖片，若是對圖片不滿意，又或是想要生成出更多圖片，可以按下「生成更多內容」，則會再增加 2 張。至於 Gemini 生成的圖片大小為 1536 × 1536 解析度，應用一般需求使用不成問題，若想要更高畫質的圖片，不妨可另外再以 AI 放大圖片的工具來處理。

步驟 1：目前以中文下達指令，讓 Gemini生成圖片時，會出現「我還不能建立影像，所以無法幫助您」的回覆。

步驟 2：將指令改為英文後，就會自動生成出四張圖片讓用戶挑選。

步驟 3：對圖片不滿意時，可以按下「生成更多內容」，會再提供 2 張，也可以繼續與 Gemini 對話，讓它重新生成圖片。

步驟 4：Gemini 會很快的依指令生成出新的圖片，由於是新的指令，所以會提供 4 張。

步驟 5：還是對圖片風格不滿意時，可以選擇上傳一張圖片，讓 Gemini 依此風格生成圖片。

步驟 6：接著 Gemini 就會依照圖片的風格及指令，重新再生成 4 張新的圖片。

步驟 7：在實測過程中，一來一回來的修改生成圖片，效果不會太好，不如重新整合指令，反而可以得到品質較好的圖片。

步驟 8：在這些 Gemini 生成的圖片中，若有滿意的版本，則可以直接點選。

步驟 9：接著選擇右上方的「下載原尺寸」，即可另存這張圖片。

步驟 10：下載的圖片為 .JPEG 檔，圖片比例為 1：1，解析度為 1536 ×1536，應用一般需求使用不成問題。

查證功能可檢驗 Gemini 的正確性

相信有用過 ChatGPT、Copilot，甚至是過去的 Google Bard，大都會遇到這類生成式 AI 聊天機器人，都在一派正經的胡言亂語，必須自行再三查證內容的真實性。而升級後的 Gemini 則加入「內容查證」功能，在 Gemini 回答後的下方，可見一個代表 Google 的「G」圖示，按下後即可透過 Google 搜尋來佐證回答或提出疑慮的網路資料，並以不同顏色標示查證結果。點選綠色的標示會提供查證的來源，點選橘色則表示 Google 搜尋找不到相關內容，建議用戶進一步查證，以評估內容的可信度。

步驟 1：此例先請 Gemini 提供日本岡山六天五夜的旅遊規劃，畫面瀏覽到最後時，按下代表 Google 的「G」圖示。