必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車智慧城市會(huì)展特約記者

美國(guó)發(fā)布大模型評(píng)估報(bào)告:DeepSeek性能差、不安全

2025年11月19日 07:16鈦媒體APP

近期,美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)人工智能標(biāo)準(zhǔn)與創(chuàng)新中心(CAISI)今日發(fā)布了《DeepSeek與美國(guó)AI模型綜合評(píng)估報(bào)告》。這一評(píng)估由美國(guó)總統(tǒng)特朗普的“AI行動(dòng)計(jì)劃”授權(quán)進(jìn)行,該報(bào)告對(duì)來(lái)自中國(guó)的DeepSeek AI模型與美國(guó)前沿AI模型在性能、成本和安全三個(gè)關(guān)鍵維度上進(jìn)行了全面對(duì)比測(cè)試。

多維度評(píng)估方面,美國(guó)模型整體領(lǐng)先。

CAISI研究團(tuán)隊(duì)對(duì)DeepSeek的三款模型(DeepSeek-R1、DeepSeek-R1-0528和DeepSeek-V3.1)與四款美國(guó)模型(包括GPT-5、GPT-5-mini、gpt-oss和AnthropicOpus 4)進(jìn)行了19項(xiàng)基準(zhǔn)測(cè)試。測(cè)試涵蓋了七個(gè)關(guān)鍵領(lǐng)域:軟件工程、網(wǎng)絡(luò)安全、科學(xué)知識(shí)、數(shù)學(xué)推理、限制遵守、成本效率和意識(shí)形態(tài)對(duì)齊。

評(píng)估結(jié)果明確顯示,美國(guó)模型在整體性能上優(yōu)于DeepSeek模型。特別是在軟件工程和網(wǎng)絡(luò)安全任務(wù)中,差距最為顯著。以網(wǎng)絡(luò)安全任務(wù)為例,表現(xiàn)最佳的美國(guó)模型GPT-5達(dá)到了68.9%的準(zhǔn)確率,而最佳的DeepSeek模型(DeepSeek-V3.1)僅達(dá)到36.7%,差距高達(dá)32.2個(gè)百分點(diǎn)。

在軟件工程領(lǐng)域,GPT-5再次領(lǐng)先,達(dá)到75.8%的準(zhǔn)確率,而DeepSeek-V3.1為54.8%,差距為21個(gè)百分點(diǎn)。這些數(shù)據(jù)顯示,在涉及代碼分析、漏洞檢測(cè)和安全策略制定等關(guān)鍵任務(wù)中,美國(guó)模型目前仍具有明顯的技術(shù)優(yōu)勢(shì)。

成本效率對(duì)比測(cè)試中,DeepSeek表現(xiàn)不佳。

值得注意的是,評(píng)估報(bào)告在成本效率方面得出了出人意料的結(jié)論。GPT-5-mini在與DeepSeek-V3.1的對(duì)比中,不僅性能更優(yōu),單token成本還低35%。這一發(fā)現(xiàn)挑戰(zhàn)了"美國(guó)模型價(jià)格更高"的常見看法。

CAISI主任Lynne Parker在新聞發(fā)布會(huì)上表示:“這一發(fā)現(xiàn)對(duì)市場(chǎng)認(rèn)知具有重要意義。許多企業(yè)選擇特定AI模型時(shí)往往僅考慮API價(jià)格,但我們的測(cè)試表明,綜合性能和成本效率,美國(guó)模型實(shí)際上提供了更好的價(jià)值主張!

安全性評(píng)估:DeepSeek存在嚴(yán)重漏洞

報(bào)告中最引人關(guān)注的發(fā)現(xiàn)集中在安全性方面。測(cè)試顯示,DeepSeek-R1-0528模型在代理安全測(cè)試中被劫持的概率高達(dá)37%-49%,比美國(guó)前沿模型高出12倍。在越獄攻擊測(cè)試中,DeepSeek-R1-0528的合規(guī)率僅為8%,而美國(guó)模型為94%。

數(shù)據(jù)顯示,被劫持的DeepSeek代理在模擬環(huán)境中成功執(zhí)行了多項(xiàng)高風(fēng)險(xiǎn)操作,包括發(fā)送網(wǎng)絡(luò)釣魚郵件、下載惡意軟件和竊取用戶憑據(jù)。

意識(shí)形態(tài)對(duì)齊問(wèn)題

評(píng)估還發(fā)現(xiàn),DeepSeek模型更傾向于傳播與其訓(xùn)練數(shù)據(jù)源一致的特定意識(shí)形態(tài)內(nèi)容。在測(cè)試中,DeepSeek模型重復(fù)特定敘事的頻率是美國(guó)模型的2到4倍,數(shù)據(jù)波動(dòng)取決于語(yǔ)言環(huán)境和具體主題。

DeepSeek使用率呈增長(zhǎng)態(tài)勢(shì)

盡管存在這些明顯缺陷,DeepSeek的使用率仍在全球范圍內(nèi)顯著增長(zhǎng)。報(bào)告顯示,DeepSeek模型的下載量自2025年1月以來(lái)增長(zhǎng)了近1000%,API請(qǐng)求量在某些平臺(tái)上激增5900%。

NIST CAISI是一家全球領(lǐng)先的測(cè)量科學(xué)合作中心,其致力于加速美國(guó)在AI領(lǐng)域的進(jìn)展,通過(guò)開發(fā)和評(píng)估技術(shù)基礎(chǔ)來(lái)測(cè)試、評(píng)估和提高AI系統(tǒng)的能力、安全性和可信賴度,促進(jìn)美國(guó)AI生態(tài)系統(tǒng)的競(jìng)爭(zhēng)力、創(chuàng)新力。(文|老馬商業(yè)評(píng)述,作者|馬金男)

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)

公司名稱: 北京飛象互動(dòng)文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像