本文共3091字
Google的人工智慧(AI)平台Gemini在8月26日推出最新圖像編輯功能Nano Banana(正式名稱為 Gemini 2.5 Flash Image),短短時間內就讓Gemini增加了2,300萬用戶。根據研調業者Radio Free 行動公司創辦人溫瑟,雖然現在ChatGPT擁有最高的生成式AI使用率市占,但Nano Banana有望打破ChatGPT稱霸局面。Nano Banana怎麼玩、能不能助Google取代OpenAI成為新霸主?對此,《經濟日報》帶您一探究竟。
Nano Banana 怎麼玩?熱門功能和步驟一次看
圖像生成的AI工具很多,Google推出的Nano Banana主打在多次編輯下,依舊能保持人物或是物件外觀的一致性。它不僅支援多圖融合、局部編輯,還能透過自然語言操作完成照片修復、背景替換、光影調整、虛擬試穿,甚至將人物或寵物一鍵轉換成 1/7 比例的公仔。
一般用戶主要可透過三種方法使用Nano Banana:
Google Gemini App
開啟 Gemini,選擇「2.5 Flash」模型,進入圖像功能,上傳照片並輸入指令(如「背景換成雪地」、「裙子改黃色」)。
Google AI Studio
前往 Google AI Studio,選擇「Gemini 2.5 Flash Image Preview」模型,上傳素材,輸入詳細 Prompt(例如「將人物變成 1/7 比例公仔,放在桌上」)。
LMArena 網站
進入 LMArena,在 Direct Chat 模式下點擊「Generate Images」,選擇 gemini-2.5-flash 模型,上傳照片並輸入需求即可生成。

雙強鼎立!Google 來勢洶洶 OpenAI 也不惶多讓
Google靠著在運算攝影或以數位軟體與AI強化數位影像的能力方面的優勢,於Gemini推出新的圖像編輯工具Nano Banana,未來更是有望超越ChatGPT。根據Evercore ISI調查顯示,圖像生成和操控已經成為聊天機器人第三常用的功能,僅次於一般提問、學習技能或任務。
Google藉由Nano Banana優秀的圖像操控功能作為吸引用戶的入口,再引導用戶採用更多自家的AI工具。過去被認為是「AI概念股魯蛇」的Google母公司Alphabet,也循著這波Nano Banana的熱潮,成功翻身。
不只如此,Google未來更是計畫將Gemini全面整合到Chrome瀏覽器,以強化AI搜尋。新的Gemini版Chrome(Gemini in Chrome)能整合Google日曆、YouTube及地圖等Google應用程式,讓用戶不必切換網頁便能使用這些服務。還能向Gemini尋求幫助,包括了解特定網頁的內容、跨分頁作業,或是在單一分頁從事更多工作,例如排定會議時程或搜尋YouTube影音。

Google帶著一手好牌,目前的AI霸主OpenAI卻也不會輕易讓出寶座。OpenAI計畫讓ChatGPT的使用者在這款聊天機器人中,不用跳轉至其他頁面,便可以連接第三方的應用程式,執行各種任務,包含購物、租屋、訂房,甚至是建立專屬的播放清單。
OpenAI在9月29日宣布推出新功能「即時結帳(Instant Checkout)」,讓美國用戶可以直接在ChatGPT內購物,目前僅支援購買單件商品,合作夥伴包含手工創意平台Etsy的美國賣家,以及部分Shopify商家,只需在ChatGPT對話過程中點擊並付款,就能完成交易。
10月6日舉行的年度開發者大會上,OpenAI再度發表新功能「與應用程式對話」,ChatGPT使用者不只可以直接在ChatGPT內搜尋租屋平台Zillow上特定地區的三房住宅,還可以請ChatGPT「為周末建立播放清單」,App就會連接到音樂串流平台Spotify並提供建議。其他可使用的App還包含圖形設計工具Figma、旅遊與訂房網站Expedia和Booking.com。OpenAI對ChatGPT的全面升級,是要把ChatGPT打造成數位服務的重要入口。

AI 界的 TikTok 登場? OpenAI 推出 Sora 2 +社交 App
除了ChatGPT的全面升級之外,OpenAI還推出更加強力的武器。9月30日OpenAI發表最新的影片生成模型Sora 2,一推出便大受歡迎。
這次新推出的Sora 2提供更銳利的擬真效果、更精準的物理模擬,以及對白與音效的同步,補齊先前模型的關鍵弱點。OpenAI還趁勢同步亮相社交媒體App「Sora」,結合生成式AI和短影音平台,準備與TikTok、YouTube Shorts、Instagram Reels正面競爭。

其中最受矚目的功能就屬「Cameo」,這項功能可以讓用戶將經過驗證的個人樣貌植入在影片當中,並且在得到同意的前提下,掌控自己在AI片段中的出鏡方式,有望創造新形態的社交互動方式。
原本只開放美國、加拿大地區的用戶使用,10月30日OpenAI宣布,在台灣、泰國、越南三市場開放Sora App,台灣是今年Open AI在亞洲開放首階段三國家之一,因此App有支援繁體中文。不過初期僅支援蘋果iOS平台免費下載,只要進到App Store下載Sora之後,登入OpenAI的帳號就能使用,馬上開始創作!非蘋果手機用戶只能在Web版本先進行預註冊,等待正式版本開放。

Gemini 3.0要來了?亮點有哪些?
Gemini大受好評的Nano Banana之後,讓Gemini 3.0備受期待,Gemini 3.0將會有什麼樣的重大升級呢?
首先,相較於已能處理文字、影像、音訊與短影片的Gemini 2.5,Gemini 3.0將擴展至即時視訊(最高 60FPS)、3D物體理解與地理空間資料分析,應用場景涵蓋機器人視覺、沉浸式學習與 AR 導航。
同時,上下文處理能力將從1萬個token大幅躍升至「數百萬」級別,讓模型能在超長文檔與對話中保持連貫性,適合用於法律摘要、科研綜述或大型協作編輯。
推理方面,Gemini 3.0將使模型能在多步驟思考中自我修正,減少人工介入。效能上,回應速度將接近即時。
多方面都升級、大家紛紛敲碗的Gemini 3.0何時會推出?八月,@OpenInsightss在社群平台X上發文分享了一張圖表,上面顯示Gemini 3.0在「Humanity’s Last Exam」基準中得分32.4%,超越 GPT-5 的26.5%與Grok 4的23.9%,讓許多人推測,這或許是在暗示發布即將到來。依照Google過往的年度更新節奏,Gemini 3.0有望於2025年底推出,想必到時會再掀起一陣旋風。
🚨 Leak: Gemini 3.0’s Humanity’s Last Exam score was spotted in source code.
— Open Insights (@OpenInsightss) August 11, 2025
Gemini 3.0 - 32.4%
GPT-5 - 26.5%
Grok 4 - 23.9%
This benchmark hints that Gemini 3.0 might be close to release, and GPT-5 could be facing real competition. pic.twitter.com/kbFiA23lqE
(資料來源:編譯簡國帆、黃淑玲、葉亭均)
留言