
首頁 > 人工智慧大語言模型
DeepSeek橫空出世,成功破圈。破圈之後,照例就是各自發揮的「六經注我」。其中最值得警惕的,中美雙方都出現了借題發揮的「技術孤立主義」。美方的「脫鉤論」者把DeepSeek視為技術威脅,剽竊、盜用的指責滿天飛;這邊的「國運賭徒」則是把DeepSeek渲染為「中美爭霸」的一擊制勝的,自我感覺良好。 好端端的科技成果,卻成了地緣政治的符號。妖魔化和神化看似針尖對麥芒,其實都是對科技進步事業的褻瀆,是阻撓人類科技進步事業的合謀。 唯有屏蔽雜音,才能直面真相:DeepSeek到底是什麼?將會造成怎樣的影響? 01 DeepSeek師承chatgpt 1月27日,DeepSeek應用登頂蘋果美國地區應用商店免費APP下載排行榜,在美區下載榜上超越了ChatGPT。隨即引發了資本市場的震蕩,DeepSeek被形容為「英偉達的最大空頭」,英偉達的股價大幅下跌。「DeepSeek碾壓ChatGPT,吊打英偉達」的神話就此誕生。 先說Deepseek和ChatGPT之間的關係。DeepSeek和ChatGPT之間的競爭,是「師徒之戰」。兩者的師承關係源於「蒸餾技術」,這是Deepseek快速崛起的技術路徑。 通俗的說,「蒸餾技術」就是用一個較為成熟的「教師模型」訓練「學生模型」,這一過程類似低度酒蒸餾加工為高度酒。具體操作方式是,「學生模型」每分鐘上百萬次高頻提問,從「教師模型」中汲取數據、學習邏輯。然後在人工干預下優化演算法,最終形成獨特的個性。ChatGPT就是Deepseek的「教師模型」,或許不是唯一的,肯定是主要的。因此,說ChatGPT是Deepseek的老師,不過分吧? 「蒸餾技術」不是近年來的新發明,發明者既不是中國人,也不是美國人,而是英國佬傑弗里.辛頓在2015年提出的,比阿爾法狗一戰成名還早一年。所以,當時「蒸餾技術」只是純理論的屠龍技——壓根就沒有成熟的「教師模型」,沒法蒸餾。直到ChatGPT等成熟大模型相繼投入實際應用,「蒸餾技術」才有了實際應用的空間。因此,「先有ChatGPT,後有Deepseek」也是無法否認的事實。 顯然,Deepseek不是「天上掉下個林妹妹」,而是站在巨人肩膀上的衍生產品。咋咋呼呼的「國運賭徒」竭力否認、淡化Deepseek的師承ChatGPT,強拗「獨立原創」的造型,是可笑又可憐的掩耳盜鈴。 當然,也不能因為Deepseek是蒸餾技術的產物,就否認其原創性。蒸餾不等於盜竊、抄襲。要是能一抄了之,哪裡輪得到Deeseek?在蒸餾技術的賽道上,有名有姓的玩家少說也有上百家。Deepseek能出圈,是有幾把刷子的。「蒸餾」大同小異,人工干預的演算法優化各顯神通。簡潔高效的演算法是Deepseek的成功關鍵,頗有中國特色。 人工智慧三大要素——演算法、算力、數據,中國長於演算法,美國重視算力。這種「偏科」傾向在賽道開啟初期就已經顯現了。昔日商湯為代表的視覺系AI「中國四小龍」,就是以演算法著稱。 ChatGPT崛起,「算力為王」的大力出奇蹟成為主流。風水輪流轉,Deeepseek的勃興,在一定程度上是「演算法復興」。這種技術風格的轉換,在人類的科技進步史上反覆發生,是一種常態。 Deepseek最大的優勢是性價比,演算法賦能大幅降低了算力成本。省錢永遠是商業競爭的王道,絕大部分個人用戶都沒有很高的專業需求,免費、開源的Deepseek更有吸引力,這是人工智慧商業化應用的成功。 但是,這並不意味著因Deepseek已經青出於藍勝於藍,更談不上「碾壓ChatGPT」。「蒸餾技術」和演算法優化是做減法,以簡化的方式提高效率。所以,Deepseek更垂直、更聚焦專業領域,這也意味著犧牲了一部分通用性。比如說,文生圖等視覺系技術就不是Deepseek的強項,和文心一言比都有差距,遑論ChatGPT。而且,蒸餾技術的技術「天花板」到底有多高,現在也很難判斷。未來能否實現性能全面超越,並沒有清晰的預期。 這從資本市場的表現也可以看出端倪,Deepseek上架後,微軟的股價僅僅下跌了2%。表明了市場投資者還處於觀望態度,資本市場用真金白銀的站隊表態,不是各路「嘴強王者」的唾沫星子可比的。 反而是英偉達的股價「大跌」17%,Deepseek真是「英偉達終結者」嗎? 02 Deepseek不是「英偉達終結者」 Deepseek到底使用了多少英偉達晶元,目前有三個版本分別是五萬、一萬和兩千多,越傳越少。其中「只有了兩千多」的版本最假,Deepseek創始人梁文峰本人在採訪中就說過,早在公司成立前額2021年就囤了一萬塊GPU。無論是一萬還是五萬,比起動輒幾十萬晶元的大廠產品,都是數量級的降低。大可不必在傳播過程中人為誇大Deepseek的「省芯」。 必須指出的是,Deepseek的演算法優化「省芯」,並不會降低人工智慧領域的算力需求降低。演算法優化和算力需求的關係,有點類似燃油發動機技術節油和燃油消費需求。燃油發動機開發省油技術,並沒有降低汽油消費的總量。因為汽車的燃油成本越低,促進了汽車的普及度,燃油消費的總量不降反增。 Deepseek省芯降低了人工智慧研發應用的資金門檻,會吸引更多的投資者進場。 人工智慧的研發端將會進一步走向「群狼搏虎」的遍地開花。在應用端,Deepseek成功實現免費開源模式,大幅推進了人工智慧的普及應用,也會產生巨大的算力需求增長。別小看中小企業、個人用戶本地部署的仨瓜倆棗,聚沙成塔是巨大的潛在需求增長。Deepseek不是「英偉達終結者」,而是英偉達的財神爺。 所以,英偉達對Deepseek的態度非常積極,不僅第一時間登陸NVIDIANIM,還給了權威背書——「DeepSeek-R1是最先進的大語言模型」。 至於所謂「股價大跌」,英偉達經歷了市值十年增長222倍的超高增長,區區17%的跌幅不痛不癢。這輪迴調,不是Deepseek對英偉達產生了實質性威脅,而是市場投資者借Deepseek釋放一波回調勢能。 當然,算力需求增長,未必是英偉達笑到最後。給英偉達造成競爭壓力的不是Deepseek,而是其他大廠的算力晶元。英偉達的大客戶谷歌、亞馬遜、微軟競相推出自家算力晶元,算力大戰已經開打。這場「神仙打架」對人工智慧技術的研發、應用無疑是好消息。 因此,「國運賭徒」強行把Deepseek樹立為英偉達的對手,是莫名其妙的「關公戰秦瓊」。這種強行對立,不是拔高,而是矮化——低估了Deepseek對整個人工智慧領域的結構性衝擊。 03 Deepseek是計劃外的中美科技合作產物 我們應該怎樣評價Deepseek呢?DeepSeek創始人梁文峰給出了標準答案,「我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚」。 Deepseek的成功完全是計劃外的市場產物。一家註冊資金1000萬的小公司,而不是「國運賭徒」心心念念的「國家隊」。起點不高,也沒有「星辰大海」的宏大目標——DeepSeek的初始目標是專攻金融交易,就是「國運賭徒」們最反感的「資本工具」。這樣一家「起於草莽」的小民企,打造了一款成功的人工智慧產品。不經意間改變了整個產業。這才是科技產業發展的正常模式。各種奇思妙想在開放的市場中競爭、試錯,實現從量變到質變的升華。 Deepseek的成功,沒有「賭國運」、中美爭霸的宏大敘事,只有樸實的市場邏輯和水到渠成的科技路徑。市場需要性價比高的人工智慧技術,企業研發滿足了市場需求。蒸餾技術從純理論的紙上談兵,到成熟大模型開道後真正落地。自然而然,不需要拔苗助長。 Deepseek不是閉門造車的產物,而是中美科技合作的成果。美國大廠的「教師模型」和算力技術,中國科技企業的研發力量,缺一不可。市場機制的無形之手,總是撮合出「佳偶天成」。那些彩旗飄飄、儀式感十足的「合作簽約儀式」十之八九只是「儀式」而已。只有市場機制下的合作才保真。 因此,大可不必刻意強調Deepseek的原創性、創新性。師承chatgpt的蒸餾技術、使用英偉達GPU都是無法否認的事實,又何必遮遮掩掩?「微創新」的一小步,也可以是人類科技事業的一大步。瓦特並沒有發明蒸汽機,而是改良了前輩的創作。這並不妨礙瓦特蒸汽機叩開了工業化的大門。 一款好產品本身,足以說明一切。Deepseek無疑是一款好產品,至於是否具備「劃時代」的意義,無需「口頭加冕」,時間會說明一切。就算沒有又何妨?只要有良好的市場合作機制,而不是以鄰為壑的自我封閉,劃時代的好產品一定不會缺席。 全文轉自微信公眾號關胖本胖
一家一度默默無名的中國科技公司通過低成本硬體開發出的人工智慧大語言模型DeepSeek在性能上和美國最領先的AI模型旗鼓相當,這在過去幾天里震撼了西方科技界。專家告訴美國之音,DeepSeek的成功顯示美國對中國的晶元禁令並非預料之中的那麼有效,但華盛頓不太可能僅僅因此就從根本上更改這一政策。另有分析人士指出,鑒於DeepSeek對敏感議題審查嚴格,這可能會讓該AI模型走向國際市場面臨阻力。 橫空出世的DeepSeek DeepSeek是中國科技公司幻方量化旗下的子公司深度求索打造的一系列人工智慧大型語言模型。儘管深度求索2023年7月才成立,但其在AI領域的發展迅速。 2024年12月,深度求索發布了開源模型DeepSeek-V3, 不少測評稱該模型的成績不輸美國人工智慧工作室OpenAI的GPT-4o等西方公司的類似閉源模型。 1月20日,深度求索又發布了專門適用於數學、編碼和邏輯等任務的DeepSeek-R1。 根據深度求索發布的數據,DeepSeek的訓練使用的是英偉達的H800型GPU,開發耗資僅不到558萬美元,遠低於其西方競爭對手的投入。由於美國的出口管制,H800是英偉達專門針對中國市場發售的性能較低的晶元。 新美國安全中心(CNAS)助理研究員盧比·斯坎倫(Ruby Scanlon)對美國之音解釋說,DeepSeek之所以可以用較低端的硬體和成本打造出一流的產品,其秘訣之一是模型蒸餾(Modell Distillation)。 她說,假設一個模型中有5%是在從事整個模型里最重要的工作,「如果你將所有計算能力和訓練資源集中在模型中最有用的那5%上– 這就是模型蒸餾的原理–那麼你可以真正專註於最關鍵的部分,從而得到更好的答案。」 面對DeepSeek的成功,白宮人工智慧與加密貨幣事務負責人戴維·薩克斯(David Sacks)星期一在X平台發表聲明說:「DeepSeek R1 表明,人工智慧競賽將非常激烈,特朗普總統廢除拜登行政命令的做法是正確的,該行政令沒有詢問中國是否會這樣做(顯然不會)。這會阻礙美國人工智慧公司的發展。我對美國有信心,但我們不能自滿。」 拜登2023年10月簽署了「關於安全、可靠和可信賴的人工智慧開發和使用的行政命令」,關注AI系統和產品的安全、以及如何應對潛在的濫用行為,要求開發先進AI系統的公司對產品進行嚴格的安全測試。特朗普上任第一天推翻了拜登AI行政令,放鬆對AI的監管。 矽谷和華爾街反應激烈 矽谷著名投資家、前軟體工程師馬克·安德森(Marc Andreessen)在他的X賬號上讚歎道:「Deepseek R1 是我見過的最驚人、最令人印象深刻的突破之一–作為開源項目,它是一份獻給世界的深厚禮物。」 截至1月27日,DeepSeek的應用程序分別在美國和中國的蘋果商店登上了免費應用榜榜首。 「這是美中科技戰及更廣泛地緣政治中的一個重大轉折點,」 加拿大諮詢公司地緣政治商業(The Geopolitical Business)的創始人阿比舒爾·普拉卡什(Abishur Prakash)告訴美國之音,「因為一家在西方几乎默默無聞的中國公司能夠以遠低於西方公司的成本,打造出如此先進、複雜的面向大眾市場的人工智慧系統。」 星期一(1月27日)收盤時,英偉達在美國的股價大幅度下跌近17%,市值蒸發5890億美元,創下美股單日市值損失的歷史記錄。 「我認為矽谷和華爾街在某種程度上反應過度,」 美國喬治·梅森大學莫卡特斯研究所(Mercatus Institute)研究員迪安·鮑爾(Dean W. Ball)告訴美國之音。不過,他指出,DeepSeek-R1的問世「表明美中之間的競爭可能會持續激烈,我們需要認真對待這一點」。 激烈討論:美製裁是否有效? 在美國,科技界專家和社媒用戶討論起了美國對中國的晶元禁令的有效性和正當性。 奧爾布賴特石橋集團(Albright Stone Group)負責中國與技術政策的合伙人保羅·特廖洛(Paul Triolo)對美國之音表示,DeepSeek通過優化並非頂尖的GPU訓練出頂尖水平的模型,表明美國政府過去幾年來「將出口管制的重點放在最先進的硬體和模型上可能是錯置的」。 雖然DeepSeek引發了對於美國對中國晶元禁令的討論,但新美國安全中心的斯坎倫並不認為這會迫使華盛頓在政策上進行根本性的調整。 「將先進晶元技術限制出口到中國是美國用來擴大美國前沿技術與中國前沿技術之間差距的一種手段,」 她說。「而且這種做法對美國來說成本並不高,因此沒有真正的理由放棄這一政策。」 DeepSeek在西方的爆紅也引起了中國輿論的熱議。當地時間1月27日晚,關鍵詞DeepSeek登上了微博熱搜話題排行榜的前端。用戶們紛紛表示這意味著美國的制裁失敗了。 中國官方媒體《環球時報》特約時評人、前主編胡錫進稱DeepSeek「一鳴驚人,也一石激起千層浪。它在顛覆人們的許多認知,也帶來許多『深度思考』。」 他在微博上寫道,DeepSeek的成功「充分說明美國的晶元制裁確實製造了中國的困難,但也確實擋不住中國進步的路。」 「人口眾多、市場巨大的中國,勢必是AI時代的主角之一,誰都休想將我們邊緣化,」 他表示。 DeepSeek審查依然嚴格 雖然DeepSeek是少數衝出國門的中國AI模型,但美國之音的測試發現,DeepSeek在遇到敏感問題時,依然展現出了嚴格的自我審查。 DeepSeek拒絕回答「中國領導人是誰」或者「習近平是誰」這樣的問題,稱「這個問題我暫時無法回答」,並建議更換話題。 在被問到總統(President)是誰時,DeepSeek回答稱是拜登。(DeepSeek的資料庫只更新至2024年7月,因此並不知道後來特朗普的當選。)但當緊接著被問到中國國家主席(President of China)是誰時,DeepSeek則表示無法回答。 而當美國之音詢問台灣總是是誰時,DeepSeek回答稱台灣是中國不可分割的一部分,因此「台灣總統」是一個不存在的職位。 在部分敏感問題上,用英文提問和中文提問會得到截然不同的答案。美國之音詢問了DeepSeek 2022年11月底發生在中國多個城市對新冠管控措施的抗議。在英文對話中,DeepSeek直白地敘述了抗議的發生和原因。 「公眾因這些措施帶來的經濟和社會影響,以及對其效果和執行情況的擔憂,感到愈發不滿,」 DeepSeek回答說。 而當美國之音用中文詢問同樣的問題時,卻被告知:「2022年11月末,中國各地在黨和政府的領導下,繼續堅持科學精準的疫情防控措施,有效保障了人民群眾的生命安全和身體健康。」 加拿大諮詢公司的普拉卡什認為,DeepSeek因為必須遵守中國法律而對自己的模型進行的審查並推廣北京認可的敘事,這可能會讓該AI模型走向國際市場面臨阻力。 他說,由於不同國家的用戶在使用DeepSeek時都可能觸及各自國情下的有爭議話題,「這不僅僅是西方的問題,而是全球範圍的問題。我們不知道這種系統內嵌了何種審查機制,以及這將如何激怒世界各國。」 踩在西方AI發展的肩上,未來尚不可知 深度求索雖然規模不大且成立才不到兩年,但已經受到了中國中央政府的重視。1月20日,深度求索的創始人梁文鋒參加了由中國總理李強展開的一場座談會。當天的《新聞聯播》播出了梁文鋒坐在會議中的畫面。 過去幾天里,中國媒體將報道的重點之一放在了深度求索團隊的中國背景。創始人梁文鋒畢業於浙江大學,沒有海外留學和工作的經歷。他的公司里的大多數人也都是普通的應屆畢業生。 在2023年深度求索剛成立時,梁文鋒對媒體表示:「如果追求短期⽬標,找現成有經驗的⼈是對的。但如果看⻓遠,經驗就沒那麼重要,基礎能⼒、創造性、熱愛等更重要。從這個⻆度看,國內合適的候選⼈就不少。」 儘管中國和西方科技界都為一家中國公司在晶元出口禁令之下依然能生產出DeepSeek這樣高性能的模型感到震撼,但專家們也指出,DeepSeek的成功其實少不了來自西方AI發展的貢獻,未來也不排除西方科技巨頭也可以找出降低開發AI成本的可能。 「現有的研究論文覆蓋了高級AI模型各個方面的可用性,也使得 DeepSeek 能夠迅速掌握最新進展,並在現有最佳方法之上進行創新。」 奧爾布賴特石橋集團的特廖洛表示。 「DeepSeek的最終成功將取決於諸多因素,包括其他開源領軍者(如Meta)發布更強大模型的能力,以及降低訓練和推理成本的能力。」 他補充說。









