热久久免费精品视频,午夜激情福利,国产精品午夜免费福利视频,99热在线精品免费播放6,免费无码一级成年片,超碰在线播放黄片,亚洲视频欧洲视频日本视频

當(dāng)前位置:首頁 >時(shí)尚 >谷歌Gemini 3深夜掀翻牌桌:數(shù)理滿分、視力碾壓 GPT 正文

谷歌Gemini 3深夜掀翻牌桌:數(shù)理滿分、視力碾壓 GPT

來源:素昧平生網(wǎng)   作者:綜合   時(shí)間:2025-12-01 00:55:09

沒有漫長的谷歌預(yù)熱,沒有虛頭巴腦的深夜數(shù)理視力概念片,直接上線 Model Card(模型卡片),掀翻直接開放 API,牌桌直接端出應(yīng)用平臺。滿分     

如果說兩年前的碾壓 Gemini 1.0 是一次倉促的追趕,一年前的谷歌 Gemini 2.0 是一次平起平坐的嘗試,那么今天凌晨的深夜數(shù)理視力 Gemini 3.0,給我的掀翻感覺只有兩個字:窒息。     

這不是牌桌形容詞,是滿分物理意義上的窒息??赐觊L達(dá) 60 頁的碾壓技術(shù)報(bào)告和 20 個演示視頻后,我必須負(fù)責(zé)任地說:Google 這次不裝了,谷歌它不僅掀翻了牌桌,深夜數(shù)理視力甚至把房子都拆了。掀翻     

連 OpenAI 的掌門人 Sam Altman,都在半夜罕見給這一波發(fā)布點(diǎn)了個贊。這個贊背后的意味,是英雄惜英雄,還是感到脊背發(fā)涼,大家自己細(xì)品。

在這篇長文中,我將帶大家逐幀拆解 Gemini 3 到底強(qiáng)在哪里,為什么說它宣告了“Prompt Engineer(提示詞工程師)”的死亡,以及它如何開啟了軟件開發(fā)的“自動駕駛”時(shí)代。     

 01. “滿分”的恐怖:當(dāng) AI 終于捅穿了人類智商的天花板     

不僅是強(qiáng),而是“離譜”。     

我們先看一張讓所有數(shù)學(xué)家、做題家以及競爭對手都陷入沉默的圖表。     

在 AIME 2025(美國數(shù)學(xué)邀請賽) 的測試中,配合代碼執(zhí)行(Code Execution),Gemini 3 Pro 的準(zhǔn)確率是:100%。     

你沒看錯,是 100%。是滿分。     

以前我們在評測 GPT-4 或者 Claude 3.5 的時(shí)候,還在討論“這道幾何題它是不是蒙對的”、“這個邏輯陷阱它有沒有跳過去”。但 Gemini 3 用這個滿分直接終結(jié)了討論:在現(xiàn)有的標(biāo)準(zhǔn)化數(shù)學(xué)測試體系下,它已經(jīng)沒有對手了,甚至連測試題都不夠用了。     

即使是撤掉所有工具,讓他“裸考”(無工具模式),它的準(zhǔn)確率也高達(dá) 95.0%。作為對比,GPT-5.1 是 94.0%,Claude Sonnet 4.5 是 87.0%。     

但這還不是最嚇人的。     

真正的屠殺發(fā)生在一個叫 MathArena Apex 的榜單上。這是數(shù)學(xué)競賽的“地獄模式”,里面的題目充滿了復(fù)雜的陷阱和極度晦澀的邏輯。在這個榜單上,包括 GPT-5.1 在內(nèi)的所有頂尖模型,得分都在 1% 上下徘徊——這說明它們基本是在瞎蒙。     

而 Gemini 3 Pro 呢?它拿到了 23.4%。     

兄弟們,從 1% 到 23.4%,這不僅僅是分?jǐn)?shù)的提升,這是**“不可知”到“可知”的維度跨越**。這證明了 Gemini 3 不再是依靠概率預(yù)測下一個字的“鸚鵡”,它真正具備了深度推理(Reasoning)的能力。     

核武器:Deep Think(深度思考模式)     

Google 這次還藏了一手絕活——Gemini 3 Deep Think。     

你可以把它理解為 Google 版的 o1,但更強(qiáng)、更穩(wěn)。在這個模式下,模型會花更多時(shí)間進(jìn)行思維鏈(CoT)的推導(dǎo)。 

   然而,Gemini 3 Deep Think 在不使用任何工具的情況下,直接轟出了 41.0% 的高分。     

  這是什么概念?這意味著在純粹的智力攻堅(jiān)戰(zhàn)中,在處理那些需要層層剝繭、邏輯嵌套極其復(fù)雜的博士級難題時(shí),Gemini 3 已經(jīng)甩開了競爭對手整整一個身位。     

02. 72.7% vs 3.5%:GPT-5 就像個“瞎子”     

如果說數(shù)學(xué)能力是“大腦”,那么接下來的這個數(shù)據(jù),關(guān)乎 AI 的“眼睛”。而這,正是 Google 這一次能做成“真·Agent”的關(guān)鍵勝負(fù)手。     

在 AI 圈子里,大家一直有個痛點(diǎn):大模型雖然聰明,但它們對計(jì)算機(jī)屏幕的理解能力極差。給它截個圖,它可能認(rèn)不出哪個是“提交”按鈕,哪個是“終端窗口”。     

Google 這次專門針對 Screen Understanding(屏幕理解) 進(jìn)行了魔鬼般的優(yōu)化。     

看 ScreenSpot-Pro 這一欄數(shù)據(jù):     

GPT-5.1 得分:3.5%Gemini 3 Pro 得分:72.7%

炸裂嗎?這是 20 倍 的差距!     

這意味著什么?     

意味著 GPT-5.1 在面對復(fù)雜的操作系統(tǒng)界面時(shí),基本等同于一個“瞎子”。它只能靠猜,或者靠你把代碼復(fù)制出來喂給它。     

而 Gemini 3 Pro 擁有了“像素級的視覺智能”。它能像人類一樣,看懂 IDE 里的報(bào)錯紅線,看懂瀏覽器渲染出的 UI 錯位,看懂終端里滾動的日志。     

         正是因?yàn)橛辛诉@雙“眼睛”,Google 才敢在今晚發(fā)布那個讓所有程序員既興奮又恐懼的產(chǎn)品——Antigravity。     

03. Antigravity:程序員的“賈維斯”時(shí)刻     

今晚發(fā)布會的真正高潮,不是模型本身,而是一個名為 Google Antigravity(反重力) 的全新開發(fā)平臺。     

之前大家都在吹 Cursor,說它是程序員最好的“外骨骼”。Cursor 的邏輯是:你寫代碼,AI 幫你補(bǔ)全;你問問題,AI 幫你回答。     

         但 Antigravity 的邏輯是:“你喝咖啡,我來搞定?!?    

Google 極其囂張地將其定義為 Agent-first(智能體優(yōu)先) 平臺。     

 什么是“Vibe Coding”(直覺編程)?     

Google 提出了一個新詞:Vibe Coding。     

意思是,你只需要把握一種“感覺”(Vibe),一種模糊的想法或意圖,剩下的實(shí)現(xiàn)細(xì)節(jié),全部交給 AI。     

Antigravity 不再是一個編輯器,它是一個擁有完整權(quán)限的虛擬員工。它集成了 Gemini 3 的推理大腦,配合 Gemini 2.5 Computer Use 模型(那是它的手),它可以直接控制你的 VS Code,直接在你的 Terminal 里敲命令,直接打開你的 Chrome 瀏覽器去測試網(wǎng)頁。     

實(shí)測案例:它真的在“自己干活”     

讓我們來看看 Google 放出的那個讓 GitHub Copilot 看起來像上個世紀(jì)產(chǎn)物的演示——“開發(fā)一個航班追蹤 App”。     

第一步:任務(wù)下發(fā)     

開發(fā)者只在對話框里輸入了一句:“幫我做一個航班追蹤應(yīng)用,要有地圖可視化?!?    

第二步:多 Agent 分裂(并行開發(fā))     

Antigravity 瞬間在后臺分裂出多個 Agent:     

  • Agent A(后端專家)

    : 開始規(guī)劃 API 接口,編寫 Python 后端代碼。

  • Agent B(前端專家)

    : 開始寫 React 組件,并調(diào)用 Nano Banana 模型生成了所需的 UI 圖標(biāo)素材。

  • Agent C(測試專家)

    : 這個最騷。它直接打開了一個內(nèi)置的瀏覽器窗口,像真人一樣去點(diǎn)擊頁面上的按鈕。

第三步:自我糾錯     

Agent C 發(fā)現(xiàn)地圖加載不出來,報(bào)錯了。注意,這時(shí)候開發(fā)者什么都沒做。     

Agent C 迅速截取了報(bào)錯的屏幕(得益于那 72.7% 的屏幕理解能力),扔回給 Agent A。     

Agent A 秒懂:“哦,API Key 沒配置?!?    

它自己打開配置文件,填入 Mock 數(shù)據(jù),重啟服務(wù)。     

Agent C 刷新頁面:“通了?!?    

整個過程,開發(fā)者就像是一個 P8 級別的架構(gòu)師,只是在旁邊看著,偶爾點(diǎn)個“Approve(批準(zhǔn))”。     

賺錢能力:它比你更懂商業(yè)     

為了證明 Antigravity 不僅僅是個代碼生成器,而是一個能解決復(fù)雜現(xiàn)實(shí)問題的 Agent,Google 搬出了 Vending-Bench 2 測試。     

這是一個模擬經(jīng)營自動售貨機(jī)公司的測試,考察模型在長達(dá)一年的虛擬時(shí)間里,能否持續(xù)做出正確的維護(hù)、進(jìn)貨和定價(jià)決策。     

結(jié)果相當(dāng)諷刺:     

GPT-5.1 忙活了一年,凈資產(chǎn)賺了 $1,473.43。Gemini 3 Pro 忙活了一年,凈資產(chǎn)賺了 $5,478.16。     

Gemini 3 不僅代碼寫得好,它還沒忘記這生意的本質(zhì)是賺錢。它不僅是一個 Coder,更是一個 Manager。     

04. 對 SWE-Bench 的爭議:為什么 Google 不在乎 SOTA?     

眼尖的朋友可能發(fā)現(xiàn)了,在衡量軟件工程能力的 SWE-Bench Verified 測試中,Gemini 3 Pro 得分 76.2%,雖然極強(qiáng),但并沒有超過 Claude Sonnet 4.5 的 77.2% 拿到世界第一(SOTA)。     

有人可能會說:“你看,Google 還是不行嘛,寫代碼還是不如 Claude?!?    

大錯特錯。     

這正是 Google 的雞賊之處,也是 Antigravity 的可怕之處。SWE-Bench 測的是單一模型解決 GitHub Issue 的能力。但 Google 的思路是:我為什么要用一個模型去死磕?我用的是系統(tǒng)工程(System 2)。     

Antigravity 的核心在于“工具鏈的整合”。     

Claude 寫代碼也許略強(qiáng) 1%,但 Claude 沒有原生集成到瀏覽器里去點(diǎn)點(diǎn)點(diǎn),沒有原生集成到終端里去運(yùn)行 npm install。     

Google 用 76.2% 的模型能力,加上 100% 的系統(tǒng)權(quán)限整合,加上 72.7% 的視覺理解,構(gòu)建出了一個**“能跑通最后一公里”**的解決方案。     

 對于開發(fā)者來說,我不在乎你的代碼是不是寫得最最最優(yōu)雅,我在乎的是當(dāng)你寫完代碼報(bào)錯的時(shí)候,能不能自己幫我修好?     

在這點(diǎn)上,Gemini 3 + Antigravity 目前是無敵的。     

05. 搜索與生活:AI 終于學(xué)會“說人話”了     

除了硬核的編程,Gemini 3 在消費(fèi)級產(chǎn)品上的落地也讓人眼前一亮。     

我們都受夠了以前 AI 那種“作為一個大型語言模型,我建議你……”的爹味說教。     

Google 這次在 Model Card 里專門寫了一句話:"Telling you what you need to hear, not just what you want to hear."(告訴你需要的,而不是你想聽的。)     

它學(xué)會了“Read the room”(讀懂空氣)。     

AI Mode in Search:不再是給鏈接,而是給答案     

Google 搜索正式上線了 AI Mode。這不是簡單的搜索生成體驗(yàn)(SGE)升級,這是**“即時(shí)軟件生成”**。     

演示中,用戶搜索“RNA 聚合酶是如何工作的?”     

以前的搜索會給你一堆維基百科和生物學(xué)網(wǎng)站的鏈接。     

現(xiàn)在的 Gemini 3,直接在搜索結(jié)果頁里,當(dāng)場寫代碼生成了一個可交互的 3D 分子模型。你可以用鼠標(biāo)拖拽這個模型,看酶是怎么結(jié)合的。     

注意,這個 3D 模型不是預(yù)先存在網(wǎng)上的,是 Gemini 3 根據(jù)你的問題,On the fly(實(shí)時(shí)) 敲代碼寫出來的。     

 多模態(tài)的溫情時(shí)刻     

還有一個案例特別打動我。     

你想學(xué)習(xí)家里長輩傳下來的做菜手藝,但長輩只會寫潦草的方言筆記。  你把這些筆記拍照扔給 Gemini 3,再上傳一段長輩做菜的視頻。     

Gemini 3 不僅能識別那些連人都看不懂的字跡,還能結(jié)合視頻動作,生成一份圖文并茂、甚至帶有“交互式倒計(jì)時(shí)”的電子食譜,順便還能生成一段代碼,把這個食譜做成一個精美的網(wǎng)頁分享給家族群。     

這就是 Google 宣稱的:Learn anything, Build anything, Plan anything.

06. 護(hù)城河:Google 的“鈔能力”與數(shù)據(jù)霸權(quán)     

為什么是 Google?為什么不是 OpenAI?為什么不是 Anthropic?     

在大模型跑馬拉松的后半程,拼的早已不是單一算法的靈光一閃,而是算力、數(shù)據(jù)和生態(tài)的厚度。     

 1. TPU 的硅基霸權(quán):     

當(dāng)全世界都在跪求黃仁勛分配一點(diǎn) H100 顯卡時(shí),Google 坐在自家堆積如山的 TPU v5/v6 礦山上笑而不語。     

TPU 是專門為 Transformer 架構(gòu)設(shè)計(jì)的,擁有極高的帶寬內(nèi)存(HBM)。正是這種算力冗余,讓 Google 敢于把 Gemini 3 的參數(shù)規(guī)模推向極致,敢于讓 millions of users 同時(shí)使用 Deep Think 這種極度消耗算力的模式。     

2. 數(shù)據(jù)的全維度覆蓋:     

Gemini 3 的訓(xùn)練數(shù)據(jù)不僅是網(wǎng)上的文本。它吞噬了 YouTube 的長視頻(視頻理解能力的來源)、GitHub 的代碼庫、Google Scholar 的論文,以及——User Data(用戶數(shù)據(jù))。     

當(dāng)然,是在隱私協(xié)議下。但無可否認(rèn),Google 擁有地球上最龐大的用戶交互數(shù)據(jù)。它知道用戶在搜索什么,在點(diǎn)什么,在改什么代碼。這些 Human Feedback(人類反饋),是模型“情商”來源的根本。     

07. 結(jié)語:不要焦慮,去成為那個“架構(gòu)師”     

看完發(fā)布會,我看很多技術(shù)群里開始哀嚎:“完了,程序員真要失業(yè)了?!?    

說實(shí)話,看完 Antigravity 的演示,初級“碼農(nóng)”(Coder)確實(shí)該抖三抖了。如果你的工作只是把產(chǎn)品經(jīng)理的需求翻譯成代碼,那 Gemini 3 干得比你快、比你好、還比你便宜。     

Architect(架構(gòu)師) 不會死。     

    Gemini 3 的出現(xiàn),實(shí)際上是把軟件開發(fā)的門檻再次拉低,同時(shí)把天花板無限拉高。     

    以前,你想做一個“3D 飛船游戲”,你需要學(xué) Unity,學(xué) C#,學(xué) 3D 建模,折騰一個月。     

    現(xiàn)在,你只需要在 Antigravity 里告訴 Gemini 3:“我要一個復(fù)古像素風(fēng)的 3D 飛船游戲,要有光影渲染?!?    

   30 秒后,游戲跑起來了。     

    這時(shí)候,什么最重要?     

  • 你的品味(Taste): 你知道什么樣的游戲好玩。

  • 你的創(chuàng)意(Idea): 你有別人想不到的點(diǎn)子。

  • 你的判斷力(Judgment): 你知道 AI 給出的方案里哪個是最好的。

    Google 用 Gemini 3 告訴我們:AI 不是來替代你的,它是來幫你把腦海中那個最瘋狂的想法,以光速變成現(xiàn)實(shí)的。     

    在這個新時(shí)代,最大的風(fēng)險(xiǎn)不是 AI 太強(qiáng),而是你還抱著舊工具不放。     

Action!     

現(xiàn)在,Gemini 3 已經(jīng)全面上線。Antigravity 雖然還是 Preview,但一定要去申請。     

別睡了,起來試用。因?yàn)榻裢碇?,世界已?jīng)變了。     

標(biāo)簽:

責(zé)任編輯:綜合