今年,Google 算是打了個翻身仗。
不斷的掏出新東西,不斷的讓大家,感受到驚喜。
而萬眾期待的 Google I/O 開發(fā)者大會,終于在昨天凌晨 1 點正式開始了。
這次的大貨,真的持續(xù)轟炸了整整兩個小時。。。
說個小插曲,本來我現(xiàn)在,人應(yīng)該是在硅谷 Google 總部現(xiàn)場的,因為受到小紅書和 Google 的邀請,喊我去現(xiàn)場看。。。
但...作為一個八百年不出門宅在家里的死宅,有一個非常嚴(yán)重的問題,就是,我沒有美國簽證。
就...一次都沒去過。。。
現(xiàn)申請也來不及了,最后,只能讓我團隊的小伙伴@jojo 過去了,她在現(xiàn)場看,給我拍素材,我在家里坐著一邊看直播一邊熬夜寫。。。
然后,她就跟皮查伊合影了。。。
我也好想...去啊...
總之,還是非常非常非常感謝,小紅書和 Google 的邀請。
接下來,我們詳細的來看看,整個發(fā)布會的內(nèi)容(并不是完整的按照時間線來)。
我一共分為 AI 模型、Gemini 產(chǎn)品、視覺生成、Google 搜索、Agent、其他,六大塊來詳述,一共 23 小項。
我說真的,Google 在那 kuku 輸出了 2 小時,我人都聽麻了,就這倆小時的發(fā)布會光素材分類和整理就讓我從凌晨 3 點半干到 5 點半,我特么...
那就,開始吧。
往期AI資訊:
會員發(fā)布其實比較晚,但是我依然想把它放在第一個,放在所有部分之前。
因為它代表著 Google 的整個戰(zhàn)略。
這次,新加了一檔 249.99 刀每月的超級會員,稱為 Google AI Ultra,還好他們沒直接寫 250 刀。。。
幾乎囊括了所有的這次新發(fā)布的產(chǎn)品,包括 Gemini 2.5 Pro Deep Think、Veo3、Project Mariner 等等,還把 NotebookLM、Youtube 等等的會員都包了進去。
從這個點來說,終于看到 Google 開始齊心協(xié)力、心往一處使了,從頂層開始發(fā)力。
目前前三個月半價,124.99 刀每月。
沒啥可說的,第一時間,先氪為敬。
每月花銷繼續(xù)增加,AI 博主真的是個太燒錢的職業(yè)。。。
1. Gemini 2.5 Pro
今年 I/O 大會的明星之一,讓 Google 提前兩周放出優(yōu)化版,我當(dāng)時就寫過一篇評測文章:用 AI 把一段視頻變成可視化網(wǎng)頁,Google 的新模型又卷飛了。絕對的親兒子。
直接碾壓了 LMArena 全部測試項,在語言、推理、代碼等方面全線封神。
特別是 WebDev 編碼測試?yán)镏苯幽昧藗€天花板級分?jǐn)?shù),足足比上代提升了 142 點 Elo,直接登頂。
官方還拿它玩了個彩蛋,讓 Gemini 2.5 Pro 自己打通了《寶可夢:藍》,八枚徽章收齊,四大天王+冠軍全通。
讓觀眾戲稱,這尼瑪絕對就是“人工精靈寶可夢智能(API)”,這塊可能是我英文不行,看了半天沒理解這是一個什么梗。。。
2. Gemini 2.5 Flash
如果說 2.5 Pro 是全能冠軍,那 2.5 Flash 就是速度型選手。
谷歌把這玩意稱為“最高效的勞模模型”。
發(fā)布會上發(fā)了新版,號稱在推理、代碼和長上下文等幾乎每個維度都有提升,在 LMArena 榜單上高居第二,綜合表現(xiàn)僅次于旗艦的 2.5 Pro。
新的 Flash 模型大概會在 6 月上旬上線正式版。
迫不及待的朋友現(xiàn)在就可以在 AI Studio、Vertex AI 以及 Gemini App 先行體驗預(yù)覽版,比如 AI Studio 里,這個 Gemini 2.5 Flash Preview 05-20 就是。
3. Gemini 2.5 Pro Deep Think
Gemini 2.5 Pro 本身就已經(jīng)夠厲害了,現(xiàn)在 Google 又給它加了個超強模式,Deep Think。
在超難的數(shù)學(xué)和編程基準(zhǔn)測試中表現(xiàn)驚人。
這玩意其實大家對 OpenAI 很熟的話其實完全能找到對應(yīng)的,就是那個至今依然是我主力模型的 o1 pro,用幾分鐘的推理時長,來換取更高的質(zhì)量。
o3 pro 沒發(fā),結(jié)果 Gemini 2.5 Pro Deep Think 先發(fā)了,不過這兩個哥們都是期貨。
Google 也還在搞安全評估,只會先給信任的測試者用。
4. Gemini Diffusion
谷歌還秀出了一項前沿研究,一個實驗性的文本擴散大模型。
不是傳統(tǒng)的通過預(yù)測下一個 Token 來生成內(nèi)容,而是通過逐步細化噪聲來并行生成內(nèi)容。
這種并行生成讓它展現(xiàn)出驚人的低延遲,現(xiàn)場演示版本的 Gemini Diffusion 生成速度比 2.0 版的 Flash Lite 快了五倍,代碼任務(wù)質(zhì)量卻幾乎相等。
1. Gemini Live
今年他們展示了整合多模態(tài)交互的新功能 Gemini Live。
基本源自去年的研究 Project Astra,它探索的是能理解你周圍世界的通用 AI 助手。
目前 Project Astra 被整合進 Gemini Live,用戶可以對著手機攝像頭或屏幕上的任何內(nèi)容和 AI 助手對話。
現(xiàn)場還玩了個花活,測試者用攝像頭對著街邊亂指,Gemini Live 不僅糾正了用戶把垃圾車當(dāng)成豪華敞篷車的錯誤認(rèn)知,還順道給用戶科普了一下,路燈不是瘦高建筑物這種常識。
比較令人激動的是,Sundar Pichai 宣布 Gemini Live 的視覺問答功能,從今天開始即將在 Android 和 iOS 平臺全面上線。
2. Personal Context
一個非常個性化的功能。
得到你授權(quán)后,Gemini 能打通你的搜索歷史、Gmail、Drive 這些 Google 應(yīng)用里的信息,真正懂你。
比如它知道,你物理考試快到了,它不僅提醒你,還能根據(jù)你的筆記、教授的材料,甚至手寫筆記給你出個性化考題。
3. DeepResearch 和 Canvas 創(chuàng)作
Deep Research 現(xiàn)在能上傳你自己的文件來進行深度研究了。
Canvas 也迎來了升級。
可以把研究報告一鍵轉(zhuǎn)成網(wǎng)頁、信息圖,甚至 45 種語言的播客。
還能在 Canvas 里用前端預(yù)覽寫出來的代碼,同時分享給你的朋友,這個其實上了有一段時間了。
4. Gemini 現(xiàn)身 Chrome
瀏覽網(wǎng)頁時,Gemini 能直接理解當(dāng)前頁面內(nèi)容并回答你的問題,等于自帶了一個 AI 總結(jié)的網(wǎng)頁插件。
5. Gemini Agent Mode
針對 C 端用戶,谷歌在 Gemini 應(yīng)用中引入了全新的 Agent Mode(代理模式)。
這是一個讓普通用戶也能支使 AI 去網(wǎng)上替自己辦事的功能。
舉個例子,你和室友想找房子,預(yù)算、需求一大堆,按以往你得刷無數(shù)網(wǎng)頁,現(xiàn)在只需把這些要求一股腦告訴 Agent Mode。
然后你就可以解放雙手,讓 Gemini 在背后替你上網(wǎng)找房源,它會自動跑去 Zillow 等房產(chǎn)網(wǎng)站搜索符合條件的房子,并調(diào)用 Mariner 幫你針對特定條件篩選。
當(dāng)發(fā)現(xiàn)心儀房源時,它還能用自動表單提交幫你預(yù)約看房。更牛逼的是,這個智能代理會持續(xù)替你刷更新的房源,一直忙活到你喊它停為止。
不過,目前,Gemini 應(yīng)用中的 Agent Mode 仍在實驗階段,谷歌說很快向訂閱用戶推出實驗版,又是一個餅。
1. Flow
Flow 是這次 Google 憋出來的一個大招,一個全新的 AI 電影制作工具,直接把 Veo、Imagen 和 Gemini 的能力全揉進去了。
感覺,就是直接對標(biāo) Sora。
你可以上傳自己的圖片,或者直接用內(nèi)置的 Imagen 當(dāng)場生成素材。然后用一個指令,就能生成一段非常屌的 AI 視頻。
視頻生成完成以后,你還能直接進行剪輯,還能延長、跳轉(zhuǎn)下一個鏡頭。
比如你就可以點個點個“+”號,直接描述“在后座加一只 10 英尺高的雞”,F(xiàn)low 也能給你整出來,而且角色、場景風(fēng)格還能保持一致。
不過在我氪了 125 刀進去以后,發(fā)現(xiàn)有個功能還是餅。。。
就是你想要做圖生視頻啥的,目前只能用他們自己的 Image 生成,而不能自己上傳。。。
這限制就有一點大了。
網(wǎng)址在此: https://labs.google/fx/tools/flow
目前只對美國開放,所以想用的話,魔法記得調(diào)一下。
2. Veo3
谷歌去年推出的 Veo 2 曾讓業(yè)界驚嘆不已,在文生視頻這塊真實感確實強到離譜。這一次,他們乘勝追擊發(fā)布了新一代的 Veo 3。
它在畫質(zhì)和逼真度上更上一層樓,尤其對物理的理解更深厚了,比如重力、光照、材質(zhì)這些現(xiàn)實規(guī)律。
然而 Veo 3 最大的突破在于它首次加入了原生音頻生成。
也就是說,你讓它生成的視頻里不光有畫面,還有背景音效、環(huán)境聲甚至角色對話同步出現(xiàn)。
“讓 AI 畫兩個森林里的動物聊天”這曾是天方夜譚,但現(xiàn)在 Veo 3 真能做到。
還有船長的表演和說話,自然的跟真人一樣。
而且,好消息是,Veo 3 在發(fā)布當(dāng)天即開放使用,直接上線了上面的 Flow 平臺。
壞消息是,只有氪了 125 刀的 Ultra 會員才能用。。。
而且這玩意血貴,一條視頻 150 點數(shù),Ultra 會員一個月也才 12500 好像,我隨便跑了下,就只剩 9000 了。
給大家看看我實測的幾個效果,沒太深入的測,都是隨手跑的。
首先,確實能說話能表演有音效了,這個是真的牛逼。
Prompt:A wide shot, post-apocalyptic setting: Dim industrial floodlights cast harsh shadows over a dusty underground hangar. A battle-scarred rebel commander stands atop a metal crate, addressing a crowd of grim-faced survivors. Commander: “This isn't just about survival anymore. Tonight, we take back Sector 9!”
物理規(guī)律史詩級進步,能落地能轉(zhuǎn)能跑起來了,甚至,還能投籃了。
Prompt:The robot in the high air lands, smashing stones and tumbling, quickly gets up to adjust its posture, locks onto the target, then bursts into accelerated running. The camera follows the action with rotation and sliding, the rhythm of movement is fast, the landing and rolling are smooth without cuts. The scene is a nighttime city alley, with neon lights reflecting off the metal body.
Prompt:The girl jumps and shoots the basketball; the camera follows the ball as it flies from her hand, spinning into the net after soaring over the defender. The ball falls into the hoop's net and slowly bounces back. The audience erupts, cheering loudly. The camera finally zooms in on a close-up of the girl landing with a smile, evoking a passionate and inspiring mood.
3. Image4
Imagen 4 是他們最新一代的文本生成圖像模型。
這代模型他們說畫質(zhì)有質(zhì)的飛躍,顏色更豐富、細節(jié)更精致,連光影質(zhì)感和水滴等微小元素都栩栩如生。
過去讓 AI 頭疼的文字嵌入問題(比如在圖上加句子常常變成亂碼)在 Imagen 4 上也有重大改進,能準(zhǔn)確生成文本內(nèi)容,還能聰明地選擇字體樣式,比如把恐龍骨頭做成字母、自動調(diào)整間距和版式等等,讓 AI 生成的海報看起來更好看。
目前已經(jīng)全量上線,普通用戶在 Whisk 上可用。
網(wǎng)址在此: https://labs.google/fx/zh/tools/whisk
1. AI Overviews
谷歌搜索去年引入的 AI 概覽(AI Overviews)功能在今年 I/O 上交出了一份很牛逼的成績單。
每月已有超過 15 億用戶在消費搜索生成的 AI 摘要。
AI Overviews 會在你搜索時于結(jié)果頂部產(chǎn)出一個由 Gemini 模型生成的簡述,還附帶信息來源引用。
經(jīng)過一年的打磨,這些 AI 概覽的質(zhì)量和相關(guān)性不斷提高,而且隨著最新 Gemini 2.5 系列模型的應(yīng)用,生成結(jié)果準(zhǔn)確性更高、覆蓋面更廣,并支持更復(fù)雜的問題了。
目前 AI 概覽功能已經(jīng)在包括美國、印度在內(nèi)的 40 多個國家/地區(qū)上線,并支持多語種查詢。
Google 還放了一個數(shù)據(jù),就是自從有了 AI 概覽,用戶在搜索上的投入度也有所提升,每日搜索量出現(xiàn)了額外兩位數(shù)百分比的增長。
這個增長量,和 Google 這個體量,還是很恐怖的。
2. AI Mode
如果說 AI 概覽還只是小試牛刀,那今天谷歌端上來的主菜,AI Mode,就是對搜索體驗的全面重構(gòu)。
Sundar Pichai 在臺上宣布,谷歌正在推出一種端到端的 AI 搜索體驗。
啟用 AI Mode 后,你可以提出更長更復(fù)雜的問題,甚至不像以往那樣非得精簡成關(guān)鍵詞。
Google,這個全世界最牛逼的搜索巨頭,終于也全面擁抱 AI 搜索了。
大會現(xiàn)場直接宣布,AI Mode 當(dāng)天起作為實驗新功能,向美國所有用戶開放。
可以說,AI Mode 是谷歌對搜索范式的一次重塑,他們也終于,從“搜索結(jié)果列表”轉(zhuǎn)向“對話式報告”了。
有幾個小的點。
個性化搜索結(jié)果:AI Mode 能根據(jù)你過去的搜索記錄,甚至接入 Gmail 信息(當(dāng)然,你得同意),給出更貼心的建議。比如你搜旅游攻略,它知道你喜歡戶外,還會結(jié)合你郵件里的航班酒店信息,推薦行程。
Deep Search(深度研究): 對于需要深入研究的問題,AI Mode 能同時發(fā)出幾十甚至上百個搜索請求,然后把信息匯總成一份專家級的、帶引用的報告,一個小型的 DeepReaserch。
復(fù)雜數(shù)據(jù)分析與可視化: 問棒球運動員的數(shù)據(jù),AI Mode 不僅能列表格,還能直接生成圖表給你看。 然后大概在今年夏天,會上線更詳細的體育和金融問題的分析。
AI 幫你辦事兒: 整合了 Project Mariner 的能力,AI Mode 能幫你搞定一些實際操作。比如你想買球賽門票,告訴它你的要求,它能幫你搜遍各大網(wǎng)站,比較價格和座位,最后直接把你引到付款頁面。以后訂餐廳、預(yù)約服務(wù)也能用。
AI 購物更爽:找地毯?AI Mode 能根據(jù)你的描述(比如家里有四個熊孩子),推薦耐用、易清洗的款式,還會給出購買鏈接和注意事項。最絕的是虛擬試衣功能,上傳你的照片,就能看衣服上身效果,背后是專門為時尚訓(xùn)練的圖像生成模型。
1. Project Mariner
今年絕對是 Agent 大年。
Agent 技術(shù)方面,谷歌發(fā)了 Project Mariner。
這個研究項目可以看作是 AI 驅(qū)動的自動化瀏覽器助手,就是那種一個能在網(wǎng)絡(luò)上代替你執(zhí)行操作的 Agent。
去年 12 月作為早期原型推出以來,Mariner 進步神速,現(xiàn)在它已經(jīng)學(xué)會了多任務(wù)處理,能同時監(jiān)督多達 10 項任務(wù)并行執(zhí)行。
還引入了一個非常酷炫的“示范并重復(fù) (Teach and Repeat)”功能,就是你示范一次,它便學(xué)會流程,以后遇到類似任務(wù)就能直接上手。
這是我第一次在 Agent 產(chǎn)品上,看到了 RPA 的影子。
這才是王道嘛。
Mariner 已開始通過 Gemini API 向開發(fā)者提供其用電腦的能力。
大概今年夏天,會更大范圍開放這一能力供開發(fā)者。
2. Jules
發(fā)布會之前就提前發(fā)的一個 AI 編程 Agent,目前全球測試中。
誰都能用,每天 5 次免費額度。
它可以連接 GitHub,自動拉取和提交代碼等等。
不過必須接 Github 才能用,對我這種開發(fā)小白還是非常的不友好。。
1. NotebookLM
去年和今年最火的項目之一,掀起了 AI 播客的潮流。
這次在 I/O 大會上谷歌宣布將其正式推出獨立應(yīng)用,并登陸 Android 和 iOS 平臺。現(xiàn)在,無論是在手機還是網(wǎng)頁上,你都可以隨時隨地調(diào)用 NotebookLM 來整理筆記和知識。
2. Gemini 融入安卓全家桶
你已經(jīng)可以通過電源按鈕快速啟動 Gemini 了。未來幾個月,Gemini 還會登陸你的智能手表、汽車儀表盤甚至電視。
3. Project Moohan 頭顯
跟三星聯(lián)合打造的 Project Moohan 頭顯,也是第一款 Android XR 設(shè)備。今年晚些時候就能買到。
4. Android XR 智能眼鏡
輕便、適合全天佩戴,內(nèi)置攝像頭、麥克風(fēng)、揚聲器,甚至可選的鏡內(nèi)顯示屏。
現(xiàn)場演示了戴著眼鏡,Gemini 就能識別你看到的東西(比如墻上的樂隊照片),回答你的問題,播放音樂,導(dǎo)航,甚至識別之前喝過的咖啡品牌并找到咖啡店。
還有實時翻譯功能,兩人用不同母語交流,眼鏡能實時顯示翻譯字幕。
一上來就演示就直接炸場了。
還搞了聯(lián)名,Gentle Monster 和 Warby Parker 是首批合作伙伴,Google 這么多年還是愛眼鏡的啊。
4. Google Beam
還記得之前 Google 那個讓你感覺對方真人就在眼前的 3D 視頻通話技術(shù)嗎?現(xiàn)在它叫 Google Beam。
它用一個包含 6 個攝像頭的陣列從不同角度捕捉你,然后通過 AI 將這些視頻流融合成逼真的 3D 體驗,顯示在 3D 光場顯示器上,還能毫米級精度、每秒 60 幀實時追蹤頭部。
今年晚些時候,惠普將推出首批 Google Beam 設(shè)備。
5. Google Meet 實時語音翻譯
這項技術(shù)能讓不同語言的人進行自然流暢的對話,翻譯能匹配說話者的語氣、語速甚至表情。 現(xiàn)在已經(jīng)可以直接在 Google Meet 里用上了,目前支持英語和西班牙語,更多語言和企業(yè)版會陸續(xù)推出。
6. TPU Ironwood
第七代 TPU,專門為 AI 的思考和推理大規(guī)模應(yīng)用而設(shè)計,性能比上一代提升 10 倍。今年晚些時候會上線 Google Cloud。
7. SynthID 數(shù)字水印
為了應(yīng)對 AI 生成內(nèi)容難以辨別的問題,Google 升級了 SynthID,新的 SynthID Detector 能檢測圖片、音頻、文本或視頻中是否包含 SynthID 標(biāo)記,哪怕只是一小部分。
終于把這個發(fā)布會,總結(jié)完了。。。
Google 這個量,實在是太嚇人了。
真的叫量大管飽。
很多非常有趣的東西,比如 Flow、比如 Veo3、比如 Gemini、比如 AI mode 等等。
時間關(guān)系,今天完全沒法深度體驗和評測。
畢竟,優(yōu)先第一時間把這篇總結(jié),送到大家手里,才最重要。
后面抽空,可能會繼續(xù)寫單個功能的深度體驗稿。
最后容我感慨一句:
Google,好像真的回來了。
復(fù)制本文鏈接 文章為作者獨立觀點不代表優(yōu)設(shè)網(wǎng)立場,未經(jīng)允許不得轉(zhuǎn)載。
發(fā)評論!每天贏獎品
點擊 登錄 后,在評論區(qū)留言,系統(tǒng)會隨機派送獎品
2012年成立至今,是國內(nèi)備受歡迎的設(shè)計師平臺,提供獎品贊助 聯(lián)系我們
標(biāo)志設(shè)計標(biāo)準(zhǔn)教程
已累計誕生 729 位幸運星
發(fā)表評論 為下方 6 條評論點贊,解鎖好運彩蛋
↓ 下方為您推薦了一些精彩有趣的文章熱評 ↓