国产成人女人在线观看,videosgratis欧美极品,欧美牲交videossexeso,亚洲欧美成人一区二区在线电影,欧美色欧美亚洲另类二区

Ai大模型瘋狂卷出五個(gè)關(guān)鍵趨勢(shì)

發(fā)布日期: 2024年12月31日 shopxx

java商城系統(tǒng)

如果對(duì)比去年同期,你會(huì)發(fā)現(xiàn)今年12月是大模型行業(yè)的一個(gè)熱鬧峰值。
從11月中旬開(kāi)始,OpenAI、微軟、谷歌、字節(jié)跳動(dòng)、百度和智譜等科技公司都召開(kāi)了與大模型相關(guān)的發(fā)布會(huì),推出了一系列新模型、新應(yīng)用和新產(chǎn)品,其中OpenAI的12天連續(xù)直播更是開(kāi)啟了科技公司發(fā)布會(huì)的新流行。
熱鬧之下,比起去年技術(shù)層和競(jìng)爭(zhēng)層的種種不確定性,當(dāng)下模型廠商們的心態(tài)和預(yù)期好很多。一方面,在技術(shù)側(cè),一場(chǎng)推理AI競(jìng)賽已經(jīng)開(kāi)打;另一方面,應(yīng)用層包括AI Agent、搜索等方向也已經(jīng)明確。
隨著OpenAI相繼發(fā)布o(jì)1和o3模型,一場(chǎng)推理競(jìng)賽正在模型廠商間展開(kāi)。
據(jù)OpenAI發(fā)布的o3系列時(shí)給出的評(píng)測(cè)數(shù)據(jù),在數(shù)學(xué)、編碼、博士級(jí)科學(xué)問(wèn)題等復(fù)雜問(wèn)題上的表現(xiàn),o3均展現(xiàn)出了強(qiáng)大的實(shí)力,例如在陶哲軒等60余位全球數(shù)學(xué)家共同推出的最強(qiáng)數(shù)學(xué)基準(zhǔn)的EpochAI Frontier Math中,o3 創(chuàng)下新紀(jì)錄,準(zhǔn)確率高達(dá)25.2%,而其他模型都沒(méi)有超過(guò)2.0%。
而在OpenAI沒(méi)放出o3前,國(guó)內(nèi)外科技公司的目標(biāo)無(wú)疑是追趕o1,谷歌此前發(fā)布全新測(cè)試模型Gemini 2.0 Flash Thinking。
今年11月,月之暗面Kimi的新一代數(shù)學(xué)推理模型k0-math、DeepSeek的推理模型DeepSeek-R1-Lite預(yù)覽版、阿里云通義的QwQ-32B-Preview也相繼發(fā)布,在一些數(shù)學(xué)和編碼評(píng)估表現(xiàn)中,它們的分?jǐn)?shù)比o1還要高。
目前尚不清楚o3是否會(huì)為普通用戶帶來(lái)很大幫助,從模型能力來(lái)看更適合推編碼、數(shù)學(xué)和科學(xué)領(lǐng)域的研究人員,除此以外,推理模型也很昂貴。在Keras之父François Chollet發(fā)起的ARC-AGI基準(zhǔn)測(cè)試顯示,盡管o3在高計(jì)算模式下得分率為 87.5%,但研究人員在該模式下每個(gè)任務(wù)花費(fèi)達(dá)到數(shù)美元,任務(wù)成本很高。
但成本也只是一個(gè)相對(duì)的概念。近期,清華NLP實(shí)驗(yàn)室劉知遠(yuǎn)教授團(tuán)隊(duì)提出了大模型的密度定律(densing law),該定律表明,大約每過(guò)3.3個(gè)月(100天),就能用參數(shù)量減半的模型達(dá)到當(dāng)前最先進(jìn)模型的性能水平,這意味未來(lái)推理成本還會(huì)快速降低。
但至少?gòu)募夹g(shù)端來(lái)看,至少OpenAI再度驗(yàn)證了Scaling Law沒(méi)有消失,只不過(guò)是從預(yù)訓(xùn)練端轉(zhuǎn)向了推理端,通過(guò)強(qiáng)化學(xué)習(xí)和更多的思考時(shí)間,提升模型的復(fù)雜推理能力,這條路是可行的。
對(duì)國(guó)內(nèi)外基礎(chǔ)模型廠商而言,它們需要追趕的新目標(biāo)又出現(xiàn)了。


本文鏈接: http://mwb.net.cn/news/detail/6773447f9194be00018dc59c

服務(wù)熱線

400-776-9999

公眾號(hào)