热久久免费精品视频,午夜激情福利,国产精品午夜免费福利视频,99热在线精品免费播放6,免费无码一级成年片,超碰在线播放黄片,亚洲视频欧洲视频日本视频

設(shè)為首頁(yè) - 加入收藏

您的當(dāng)前位置：首頁(yè) >綜合 >谷歌Gemini 3深夜掀翻牌桌：數(shù)理滿分、視力碾壓 GPT 正文

谷歌Gemini 3深夜掀翻牌桌：數(shù)理滿分、視力碾壓 GPT

來(lái)源：素昧平生網(wǎng)編輯：綜合時(shí)間：2025-11-30 18:15:32

沒(méi)有漫長(zhǎng)的谷歌預(yù)熱，沒(méi)有虛頭巴腦的深夜數(shù)理視力概念片，直接上線 Model Card（模型卡片），掀翻直接開(kāi)放 API，牌桌直接端出應(yīng)用平臺(tái)。滿分

如果說(shuō)兩年前的碾壓 Gemini 1.0 是一次倉(cāng)促的追趕，一年前的谷歌 Gemini 2.0 是一次平起平坐的嘗試，那么今天凌晨的深夜數(shù)理視力 Gemini 3.0，給我的掀翻感覺(jué)只有兩個(gè)字：窒息。

這不是牌桌形容詞，是滿分物理意義上的窒息。看完長(zhǎng)達(dá) 60 頁(yè)的碾壓技術(shù)報(bào)告和 20 個(gè)演示視頻后，我必須負(fù)責(zé)任地說(shuō)：Google 這次不裝了，谷歌它不僅掀翻了牌桌，深夜數(shù)理視力甚至把房子都拆了。掀翻

連 OpenAI 的掌門人 Sam Altman，都在半夜罕見(jiàn)給這一波發(fā)布點(diǎn)了個(gè)贊。這個(gè)贊背后的意味，是英雄惜英雄，還是感到脊背發(fā)涼，大家自己細(xì)品。

在這篇長(zhǎng)文中，我將帶大家逐幀拆解 Gemini 3 到底強(qiáng)在哪里，為什么說(shuō)它宣告了“Prompt Engineer（提示詞工程師）”的死亡，以及它如何開(kāi)啟了軟件開(kāi)發(fā)的“自動(dòng)駕駛”時(shí)代。

01. “滿分”的恐怖：當(dāng) AI 終于捅穿了人類智商的天花板

不僅是強(qiáng)，而是“離譜”。

我們先看一張讓所有數(shù)學(xué)家、做題家以及競(jìng)爭(zhēng)對(duì)手都陷入沉默的圖表。

在 AIME 2025（美國(guó)數(shù)學(xué)邀請(qǐng)賽）的測(cè)試中，配合代碼執(zhí)行（Code Execution），Gemini 3 Pro 的準(zhǔn)確率是：100%。

你沒(méi)看錯(cuò)，是 100%。是滿分。

以前我們?cè)谠u(píng)測(cè) GPT-4 或者 Claude 3.5 的時(shí)候，還在討論“這道幾何題它是不是蒙對(duì)的”、“這個(gè)邏輯陷阱它有沒(méi)有跳過(guò)去”。但 Gemini 3 用這個(gè)滿分直接終結(jié)了討論：在現(xiàn)有的標(biāo)準(zhǔn)化數(shù)學(xué)測(cè)試體系下，它已經(jīng)沒(méi)有對(duì)手了，甚至連測(cè)試題都不夠用了。

即使是撤掉所有工具，讓他“裸考”（無(wú)工具模式），它的準(zhǔn)確率也高達(dá) 95.0%。作為對(duì)比，GPT-5.1 是 94.0%，Claude Sonnet 4.5 是 87.0%。

但這還不是最嚇人的。

真正的屠殺發(fā)生在一個(gè)叫 MathArena Apex 的榜單上。這是數(shù)學(xué)競(jìng)賽的“地獄模式”，里面的題目充滿了復(fù)雜的陷阱和極度晦澀的邏輯。在這個(gè)榜單上，包括 GPT-5.1 在內(nèi)的所有頂尖模型，得分都在 1% 上下徘徊——這說(shuō)明它們基本是在瞎蒙。

而 Gemini 3 Pro 呢？它拿到了 23.4%。

兄弟們，從 1% 到 23.4%，這不僅僅是分?jǐn)?shù)的提升，這是**“不可知”到“可知”的維度跨越**。這證明了 Gemini 3 不再是依靠概率預(yù)測(cè)下一個(gè)字的“鸚鵡”，它真正具備了深度推理（Reasoning）的能力。

核武器：Deep Think（深度思考模式）

Google 這次還藏了一手絕活——Gemini 3 Deep Think。

你可以把它理解為 Google 版的 o1，但更強(qiáng)、更穩(wěn)。在這個(gè)模式下，模型會(huì)花更多時(shí)間進(jìn)行思維鏈（CoT）的推導(dǎo)。

然而，Gemini 3 Deep Think 在不使用任何工具的情況下，直接轟出了 41.0% 的高分。

這是什么概念？這意味著在純粹的智力攻堅(jiān)戰(zhàn)中，在處理那些需要層層剝繭、邏輯嵌套極其復(fù)雜的博士級(jí)難題時(shí)，Gemini 3 已經(jīng)甩開(kāi)了競(jìng)爭(zhēng)對(duì)手整整一個(gè)身位。

02. 72.7% vs 3.5%：GPT-5 就像個(gè)“瞎子”

如果說(shuō)數(shù)學(xué)能力是“大腦”，那么接下來(lái)的這個(gè)數(shù)據(jù)，關(guān)乎 AI 的“眼睛”。而這，正是 Google 這一次能做成“真·Agent”的關(guān)鍵勝負(fù)手。

在 AI 圈子里，大家一直有個(gè)痛點(diǎn)：大模型雖然聰明，但它們對(duì)計(jì)算機(jī)屏幕的理解能力極差。給它截個(gè)圖，它可能認(rèn)不出哪個(gè)是“提交”按鈕，哪個(gè)是“終端窗口”。

Google 這次專門針對(duì) Screen Understanding（屏幕理解）進(jìn)行了魔鬼般的優(yōu)化。

看 ScreenSpot-Pro 這一欄數(shù)據(jù)：

GPT-5.1 得分：3.5%Gemini 3 Pro 得分：72.7%

炸裂嗎？這是 20 倍的差距！

這意味著什么？

意味著 GPT-5.1 在面對(duì)復(fù)雜的操作系統(tǒng)界面時(shí)，基本等同于一個(gè)“瞎子”。它只能靠猜，或者靠你把代碼復(fù)制出來(lái)喂給它。

而 Gemini 3 Pro 擁有了“像素級(jí)的視覺(jué)智能”。它能像人類一樣，看懂 IDE 里的報(bào)錯(cuò)紅線，看懂瀏覽器渲染出的 UI 錯(cuò)位，看懂終端里滾動(dòng)的日志。

正是因?yàn)橛辛诉@雙“眼睛”，Google 才敢在今晚發(fā)布那個(gè)讓所有程序員既興奮又恐懼的產(chǎn)品——Antigravity。

03. Antigravity：程序員的“賈維斯”時(shí)刻

今晚發(fā)布會(huì)的真正高潮，不是模型本身，而是一個(gè)名為 Google Antigravity（反重力）的全新開(kāi)發(fā)平臺(tái)。

之前大家都在吹 Cursor，說(shuō)它是程序員最好的“外骨骼”。Cursor 的邏輯是：你寫代碼，AI 幫你補(bǔ)全；你問(wèn)問(wèn)題，AI 幫你回答。

但 Antigravity 的邏輯是：“你喝咖啡，我來(lái)搞定?！?

Google 極其囂張地將其定義為 Agent-first（智能體優(yōu)先）平臺(tái)。

什么是“Vibe Coding”（直覺(jué)編程）？

Google 提出了一個(gè)新詞：Vibe Coding。

意思是，你只需要把握一種“感覺(jué)”（Vibe），一種模糊的想法或意圖，剩下的實(shí)現(xiàn)細(xì)節(jié)，全部交給 AI。

Antigravity 不再是一個(gè)編輯器，它是一個(gè)擁有完整權(quán)限的虛擬員工。它集成了 Gemini 3 的推理大腦，配合 Gemini 2.5 Computer Use 模型（那是它的手），它可以直接控制你的 VS Code，直接在你的 Terminal 里敲命令，直接打開(kāi)你的 Chrome 瀏覽器去測(cè)試網(wǎng)頁(yè)。

實(shí)測(cè)案例：它真的在“自己干活”

讓我們來(lái)看看 Google 放出的那個(gè)讓 GitHub Copilot 看起來(lái)像上個(gè)世紀(jì)產(chǎn)物的演示——“開(kāi)發(fā)一個(gè)航班追蹤 App”。

第一步：任務(wù)下發(fā)

開(kāi)發(fā)者只在對(duì)話框里輸入了一句：“幫我做一個(gè)航班追蹤應(yīng)用，要有地圖可視化?！?

第二步：多 Agent 分裂（并行開(kāi)發(fā)）

Antigravity 瞬間在后臺(tái)分裂出多個(gè) Agent：

Agent A（后端專家）
：開(kāi)始規(guī)劃 API 接口，編寫 Python 后端代碼。
Agent B（前端專家）
：開(kāi)始寫 React 組件，并調(diào)用 Nano Banana 模型生成了所需的 UI 圖標(biāo)素材。
Agent C（測(cè)試專家）
：這個(gè)最騷。它直接打開(kāi)了一個(gè)內(nèi)置的瀏覽器窗口，像真人一樣去點(diǎn)擊頁(yè)面上的按鈕。

第三步：自我糾錯(cuò)

Agent C 發(fā)現(xiàn)地圖加載不出來(lái)，報(bào)錯(cuò)了。注意，這時(shí)候開(kāi)發(fā)者什么都沒(méi)做。

Agent C 迅速截取了報(bào)錯(cuò)的屏幕（得益于那 72.7% 的屏幕理解能力），扔回給 Agent A。

Agent A 秒懂：“哦，API Key 沒(méi)配置?！?

它自己打開(kāi)配置文件，填入 Mock 數(shù)據(jù)，重啟服務(wù)。

Agent C 刷新頁(yè)面：“通了?！?

整個(gè)過(guò)程，開(kāi)發(fā)者就像是一個(gè) P8 級(jí)別的架構(gòu)師，只是在旁邊看著，偶爾點(diǎn)個(gè)“Approve（批準(zhǔn)）”。

賺錢能力：它比你更懂商業(yè)

為了證明 Antigravity 不僅僅是個(gè)代碼生成器，而是一個(gè)能解決復(fù)雜現(xiàn)實(shí)問(wèn)題的 Agent，Google 搬出了 Vending-Bench 2 測(cè)試。

這是一個(gè)模擬經(jīng)營(yíng)自動(dòng)售貨機(jī)公司的測(cè)試，考察模型在長(zhǎng)達(dá)一年的虛擬時(shí)間里，能否持續(xù)做出正確的維護(hù)、進(jìn)貨和定價(jià)決策。

結(jié)果相當(dāng)諷刺：

GPT-5.1 忙活了一年，凈資產(chǎn)賺了 $1,473.43。Gemini 3 Pro 忙活了一年，凈資產(chǎn)賺了 $5,478.16。

Gemini 3 不僅代碼寫得好，它還沒(méi)忘記這生意的本質(zhì)是賺錢。它不僅是一個(gè) Coder，更是一個(gè) Manager。

04. 對(duì) SWE-Bench 的爭(zhēng)議：為什么 Google 不在乎 SOTA？

眼尖的朋友可能發(fā)現(xiàn)了，在衡量軟件工程能力的 SWE-Bench Verified 測(cè)試中，Gemini 3 Pro 得分 76.2%，雖然極強(qiáng)，但并沒(méi)有超過(guò) Claude Sonnet 4.5 的 77.2% 拿到世界第一（SOTA）。

有人可能會(huì)說(shuō)：“你看，Google 還是不行嘛，寫代碼還是不如 Claude?！?

大錯(cuò)特錯(cuò)。

這正是 Google 的雞賊之處，也是 Antigravity 的可怕之處。SWE-Bench 測(cè)的是單一模型解決 GitHub Issue 的能力。但 Google 的思路是：我為什么要用一個(gè)模型去死磕？我用的是系統(tǒng)工程（System 2）。

Antigravity 的核心在于“工具鏈的整合”。

Claude 寫代碼也許略強(qiáng) 1%，但 Claude 沒(méi)有原生集成到瀏覽器里去點(diǎn)點(diǎn)點(diǎn)，沒(méi)有原生集成到終端里去運(yùn)行 npm install。

Google 用 76.2% 的模型能力，加上 100% 的系統(tǒng)權(quán)限整合，加上 72.7% 的視覺(jué)理解，構(gòu)建出了一個(gè)**“能跑通最后一公里”**的解決方案。

對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，我不在乎你的代碼是不是寫得最最最優(yōu)雅，我在乎的是當(dāng)你寫完代碼報(bào)錯(cuò)的時(shí)候，能不能自己幫我修好？

在這點(diǎn)上，Gemini 3 + Antigravity 目前是無(wú)敵的。

05. 搜索與生活：AI 終于學(xué)會(huì)“說(shuō)人話”了

除了硬核的編程，Gemini 3 在消費(fèi)級(jí)產(chǎn)品上的落地也讓人眼前一亮。

我們都受夠了以前 AI 那種“作為一個(gè)大型語(yǔ)言模型，我建議你……”的爹味說(shuō)教。

Google 這次在 Model Card 里專門寫了一句話："Telling you what you need to hear, not just what you want to hear."（告訴你需要的，而不是你想聽(tīng)的。）

它學(xué)會(huì)了“Read the room”（讀懂空氣）。

AI Mode in Search：不再是給鏈接，而是給答案

Google 搜索正式上線了 AI Mode。這不是簡(jiǎn)單的搜索生成體驗(yàn)（SGE）升級(jí)，這是**“即時(shí)軟件生成”**。

演示中，用戶搜索“RNA 聚合酶是如何工作的？”

以前的搜索會(huì)給你一堆維基百科和生物學(xué)網(wǎng)站的鏈接。

現(xiàn)在的 Gemini 3，直接在搜索結(jié)果頁(yè)里，當(dāng)場(chǎng)寫代碼生成了一個(gè)可交互的 3D 分子模型。你可以用鼠標(biāo)拖拽這個(gè)模型，看酶是怎么結(jié)合的。

注意，這個(gè) 3D 模型不是預(yù)先存在網(wǎng)上的，是 Gemini 3 根據(jù)你的問(wèn)題，On the fly（實(shí)時(shí)）敲代碼寫出來(lái)的。

多模態(tài)的溫情時(shí)刻

還有一個(gè)案例特別打動(dòng)我。

你想學(xué)習(xí)家里長(zhǎng)輩傳下來(lái)的做菜手藝，但長(zhǎng)輩只會(huì)寫潦草的方言筆記。你把這些筆記拍照扔給 Gemini 3，再上傳一段長(zhǎng)輩做菜的視頻。

Gemini 3 不僅能識(shí)別那些連人都看不懂的字跡，還能結(jié)合視頻動(dòng)作，生成一份圖文并茂、甚至帶有“交互式倒計(jì)時(shí)”的電子食譜，順便還能生成一段代碼，把這個(gè)食譜做成一個(gè)精美的網(wǎng)頁(yè)分享給家族群。

這就是 Google 宣稱的：Learn anything, Build anything, Plan anything.

06. 護(hù)城河：Google 的“鈔能力”與數(shù)據(jù)霸權(quán)

為什么是 Google？為什么不是 OpenAI？為什么不是 Anthropic？

在大模型跑馬拉松的后半程，拼的早已不是單一算法的靈光一閃，而是算力、數(shù)據(jù)和生態(tài)的厚度。

1. TPU 的硅基霸權(quán)：

當(dāng)全世界都在跪求黃仁勛分配一點(diǎn) H100 顯卡時(shí)，Google 坐在自家堆積如山的 TPU v5/v6 礦山上笑而不語(yǔ)。

TPU 是專門為 Transformer 架構(gòu)設(shè)計(jì)的，擁有極高的帶寬內(nèi)存（HBM）。正是這種算力冗余，讓 Google 敢于把 Gemini 3 的參數(shù)規(guī)模推向極致，敢于讓 millions of users 同時(shí)使用 Deep Think 這種極度消耗算力的模式。

2. 數(shù)據(jù)的全維度覆蓋：

Gemini 3 的訓(xùn)練數(shù)據(jù)不僅是網(wǎng)上的文本。它吞噬了 YouTube 的長(zhǎng)視頻（視頻理解能力的來(lái)源）、GitHub 的代碼庫(kù)、Google Scholar 的論文，以及——User Data（用戶數(shù)據(jù)）。

當(dāng)然，是在隱私協(xié)議下。但無(wú)可否認(rèn)，Google 擁有地球上最龐大的用戶交互數(shù)據(jù)。它知道用戶在搜索什么，在點(diǎn)什么，在改什么代碼。這些 Human Feedback（人類反饋），是模型“情商”來(lái)源的根本。

07. 結(jié)語(yǔ)：不要焦慮，去成為那個(gè)“架構(gòu)師”

看完發(fā)布會(huì)，我看很多技術(shù)群里開(kāi)始哀嚎：“完了，程序員真要失業(yè)了?！?

說(shuō)實(shí)話，看完 Antigravity 的演示，初級(jí)“碼農(nóng)”（Coder）確實(shí)該抖三抖了。如果你的工作只是把產(chǎn)品經(jīng)理的需求翻譯成代碼，那 Gemini 3 干得比你快、比你好、還比你便宜。

Architect（架構(gòu)師）不會(huì)死。

Gemini 3 的出現(xiàn)，實(shí)際上是把軟件開(kāi)發(fā)的門檻再次拉低，同時(shí)把天花板無(wú)限拉高。

以前，你想做一個(gè)“3D 飛船游戲”，你需要學(xué) Unity，學(xué) C#，學(xué) 3D 建模，折騰一個(gè)月。

現(xiàn)在，你只需要在 Antigravity 里告訴 Gemini 3：“我要一個(gè)復(fù)古像素風(fēng)的 3D 飛船游戲，要有光影渲染。”

30 秒后，游戲跑起來(lái)了。

這時(shí)候，什么最重要？

你的品味（Taste）：你知道什么樣的游戲好玩。
你的創(chuàng)意（Idea）：你有別人想不到的點(diǎn)子。
你的判斷力（Judgment）：你知道 AI 給出的方案里哪個(gè)是最好的。

Google 用 Gemini 3 告訴我們：AI 不是來(lái)替代你的，它是來(lái)幫你把腦海中那個(gè)最瘋狂的想法，以光速變成現(xiàn)實(shí)的。

在這個(gè)新時(shí)代，最大的風(fēng)險(xiǎn)不是 AI 太強(qiáng)，而是你還抱著舊工具不放。

Action！

現(xiàn)在，Gemini 3 已經(jīng)全面上線。Antigravity 雖然還是 Preview，但一定要去申請(qǐng)。

別睡了，起來(lái)試用。因?yàn)榻裢碇?，世界已?jīng)變了。

上一篇：德國(guó)科隆疏散居民拆除2枚二戰(zhàn)遺留炸彈
下一篇：佩斯科夫：俄方目前只同美國(guó)就烏克蘭問(wèn)題進(jìn)行談判

相關(guān)文章：

相關(guān)推薦：

欄目分類

最新文章

熱門文章

友情鏈接

元戎啟行9月合作車型量產(chǎn)交付量創(chuàng)新高單月突破3萬(wàn)臺(tái)村風(fēng)里｜法治賦能添動(dòng)力解鎖鄉(xiāng)風(fēng)文明新“密碼”島內(nèi)最新民調(diào)：盧秀燕好感度第一，賴清德跌最多，輸給柯文哲哥倫比亞將終止與以色列自貿(mào)協(xié)定第一批“聰明人”已堵懵！上海的機(jī)場(chǎng)、火車站全部爆滿，高速“豬肝紅”預(yù)警因跛腳入職當(dāng)天被辭退當(dāng)事人發(fā)聲，殘聯(lián)：已關(guān)注，正處理許昆林任遼寧省委委員、常委、書記最后一天！美政府各部門陸續(xù)發(fā)布停擺計(jì)劃數(shù)十萬(wàn)雇員或被迫休假伊朗國(guó)家電視臺(tái)對(duì)外國(guó)女政要腿部打碼，引起非議貨車司機(jī)回應(yīng)運(yùn)輸途中丟失價(jià)值百萬(wàn)銀磚：時(shí)隔二十多天沒(méi)有進(jìn)展，壓力很大

2.5941s , 16665.4921875 kb

Copyright © 2025 Powered by 谷歌Gemini 3深夜掀翻牌桌：數(shù)理滿分、視力碾壓 GPT,素昧平生網(wǎng)

Top