來源: DeepTech深科技
當(dāng)?shù)貢r間 1 月 30 日,美國 AI 公司 Anthropic 的 CEO 達(dá)里奧·阿莫迪(Dario Amodei)在個人博客發(fā)表“萬字檄文”,指出對于 DeepSeek 的崛起,美國白宮應(yīng)該加強管制。
達(dá)里奧·阿莫迪博文核心觀點:不應(yīng)將技術(shù)優(yōu)勢拱手讓給中國
達(dá)里奧·阿莫迪(Dario Amodei)寫道:“我暫且不討論 DeepSeek 是否對 Anthropic 等美國 AI 企業(yè)構(gòu)成威脅,盡管我認(rèn)為許多關(guān)于 DeepSeek 威脅美國 AI 領(lǐng)導(dǎo)地位的說法被嚴(yán)重夸大了。我更關(guān)注的是,DeepSeek 的成果發(fā)布是否削弱了美國芯片出口管制政策的合理性。我的看法是否定的。事實上,我認(rèn)為 DeepSeek 的進展反而令出口管制政策顯得比一周前更加重要。出口管制服務(wù)于一個至關(guān)重要的目標(biāo):確保民主國家在 AI 發(fā)展中保持領(lǐng)先地位。需要明確的是,出口管制并不是逃避美中競爭的手段。如果美國和其他民主國家的 AI 公司想要最終勝出,就必須開發(fā)出比中國更卓越的模型。但是,在力所能及的情況下,我們不應(yīng)將技術(shù)優(yōu)勢拱手讓給中國。”
此外,達(dá)里奧·阿莫迪(Dario Amodei)還懷疑 DeepSeek 使用了禁運芯片。他寫道:“DeepSeek AI 芯片艦隊的很大一部分似乎是由以下芯片組成:尚未被禁止的芯片(但應(yīng)該被禁止)、在被禁止之前發(fā)貨的芯片以及一些非常可能走私來的芯片。這表明出口管制實際上正在發(fā)揮作用并正在進行自適應(yīng):(因為)漏洞正在被堵塞。否則,他們很可能擁有全部由頂級的 H100 組成的芯片艦隊。如果我們能夠足夠快地堵塞漏洞,我們或許能夠阻止中國獲得數(shù)百萬塊芯片,從而增加美國領(lǐng)先的單極世界出現(xiàn)的可能性。”
但他同時指出:“DeepSeek-V3 實際上是一項真正的創(chuàng)新,一個月前就應(yīng)該引起人們的注意(我們當(dāng)然注意到了)。作為一款預(yù)訓(xùn)練模型,它在某些重要任務(wù)上的表現(xiàn)似乎已接近美國最先進的模型水平,但訓(xùn)練成本卻大大降低(盡管我們發(fā)現(xiàn) Claude 3.5 Sonnet 在編程等關(guān)鍵任務(wù)上依舊明顯更勝一籌)。DeepSeek 團隊通過一些十分令人印象深刻的創(chuàng)新實現(xiàn)了這一點,同時這些創(chuàng)新主要集中在工程效率上。特別是在‘鍵值緩存(Key-Value cache)’的管理上以及推動‘混合專家(MOE,mixture of experts)’方法的使用上,DeepSeek 團隊取得了創(chuàng)新性的改進?!?/p>
盡管肯定了 DeepSeek 的進步,但是達(dá)里奧·阿莫迪(Dario Amodei)似乎不以為然,他在上述博文中還表示:“總而言之,DeepSeek-V3 并非一項獨特的突破,也并非從根本上改變了大模型的經(jīng)濟性;它只是持續(xù)成本降低曲線上一個預(yù)期的點。這次的不同之處在于,第一個展示預(yù)期成本降低的公司是中國公司。這在以前從未發(fā)生過,并且具有地緣政治意義。然而,美國公司很快也會效仿——而且他們不會通過復(fù)制 DeepSeek 來做到這一點,而是因為降低成本也是這些公司的發(fā)展趨勢?!?/p>
蘋果聯(lián)合 MIT 揭示 DeepSeek 背后秘密
無獨有偶,近期蘋果公司的一項研究提出了類似的觀點。五位蘋果公司的 AI 研究人員聯(lián)合美國麻省理工學(xué)院(MIT)的一名研究人員發(fā)表了一篇論文,該論文也提及了混合專家(MOE,mixture of experts)這一方法,并揭示了 DeepSeek 背后的秘密,即其利用稀疏性在給定的計算能力下獲得更好的結(jié)果,也就是說利用稀疏性來從芯片中榨取更多價值。
稀疏性有多種表現(xiàn)形式。有時,稀疏性會消除 AI 使用的部分?jǐn)?shù)據(jù),因為這些數(shù)據(jù)不會對模型的輸出產(chǎn)生實質(zhì)性影響。如果這樣做不會影響到最終結(jié)果,那么它就會涉及到切斷神經(jīng)網(wǎng)絡(luò)的整個部分。而 DeepSeek 正是采用了神經(jīng)網(wǎng)絡(luò)的“簡約使用”方式。
在這篇論文中,蘋果的研究人員表示他們使用一款名為 MegaBlocks 的代碼庫進行研究。同時,他們明確表示,本次研究結(jié)論也能用于解釋 DeepSeek 的模型原理。
其在論文中表示,在增加稀疏性的同時,當(dāng)按比例地擴大參數(shù)總數(shù)時,那么即使在固定訓(xùn)練計算預(yù)算的限制下,也能持續(xù)降低預(yù)訓(xùn)練損失(預(yù)訓(xùn)練損失指的是神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確度。一般來說,訓(xùn)練損失越低,結(jié)果越準(zhǔn)確)。
在這篇論文中,蘋果的研究人員研究了參數(shù)和每個示例的計算之間的最佳權(quán)衡,以便實現(xiàn)模型容量的最大化。
通過此,他們發(fā)現(xiàn):
首先,在預(yù)訓(xùn)練期間,通過添加更多參數(shù)來增加模型容量,要比增加每個示例的 FLOP 帶來的好處更大。研究人員觀察到,隨著訓(xùn)練預(yù)算的增加(以總 FLOP 來衡量),計算優(yōu)化模型的大小會增加,而計算優(yōu)化模型的有效參數(shù)數(shù)量(與每個示例的 FLOP 有關(guān))會減少。
其次,在推理過程中,每個示例的 FLOP 似乎發(fā)揮著更重要的作用。在多個任務(wù)之中,上游任務(wù)性能都可以很好地預(yù)測下游任務(wù)性能,并且上游性能和下游性能之間的關(guān)系不受稀疏性的影響。然而,蘋果的研究人員觀察到:同等條件之下,稀疏模型即參數(shù)量較少的模型,在特定類型的下游任務(wù)上表現(xiàn)較差。這說明要想完成這些任務(wù),模型可能需要更多的“推理”訓(xùn)練。
同時,這一研究結(jié)果也與之前關(guān)于混合專家擴展法則(MoE Scaling Laws)的相關(guān)研究結(jié)果保持一致。這表明在預(yù)訓(xùn)練過程中,增加稀疏性水平的確可以提高性能和效率??紤]到根據(jù)任務(wù)或示例復(fù)雜性,可以自適應(yīng)地增加推理過程中每個示例的計算量,因此蘋果的研究人員認(rèn)為通過增加稀疏性來降低單位計算成本的 MoE 方法具有很大的前景,因為它們或許能夠提高預(yù)訓(xùn)練效率和推理效率。
這也表明:在訓(xùn)練計算預(yù)算受限時,作為控制 MoE 中每個示例 FLOP 的“旋鈕”,稀疏性是一個能夠優(yōu)化模型性能的強大機制。通過平衡參數(shù)總數(shù)、計算和稀疏性,可以更有效地擴展 MoE。蘋果的研究人員在論文中表示,他們在實驗中引入 MoE 是為了在不顯著增加推理成本的情況下增加模型容量。而論文中的實驗結(jié)果也表明,在總訓(xùn)練計算預(yù)算固定的情況之下,增加 MoE 中的稀疏性不僅可以減少每個示例的 FLOP,還能增加參數(shù)數(shù)量以及降低預(yù)訓(xùn)練損失。
換句話說,在使用 MoE 的前提之下,如果對于參數(shù)總數(shù)沒有限制,并且希望能夠降低預(yù)訓(xùn)練損失,那么通過參數(shù)計數(shù)增加模型的容量可能是一個最優(yōu)策略。另一方面,稠密模型在一些任務(wù)上會表現(xiàn)出更好的性能轉(zhuǎn)移,因為這些任務(wù)可能依賴對于輸入的更深層次的處理,而不是依賴存儲在模型參數(shù)中的知識。
事實上,稀疏性在 AI 研究中并不新鮮,也的確并非一種工程新方法。使用大模型的其中一些總參數(shù)并關(guān)閉其余參數(shù)的能力,是稀疏性應(yīng)用的案例之一,這種稀疏性會對模型的計算預(yù)算產(chǎn)生重大影響。多年來,AI 研究人員一直在證明,當(dāng)消除神經(jīng)網(wǎng)絡(luò)的某些部分時,將能以更少的努力實現(xiàn)同等甚至更好的準(zhǔn)確性。
英偉達(dá)的競爭對手英特爾多年來一直將稀疏性視為實現(xiàn)該領(lǐng)域技術(shù)突破的關(guān)鍵途徑。近年來,一些初創(chuàng)公司的模型基于稀疏性的方法也在行業(yè)基準(zhǔn)上獲得了高分。稀疏性的神奇作用意義深遠(yuǎn),因為它不僅可以為小預(yù)算模型帶來更大的經(jīng)濟效益(如 DeepSeek),還可以反過來發(fā)揮作用:即在花更多的錢的同時,巧妙利用稀疏性來得到更好的收益。正因此,預(yù)計將有更多人加入進來復(fù)制 DeepSeek 的成功。
參考資料:
https://www.zdnet.com/article/apple-researchers-reveal-the-secret-sauce-behind-deepseek-ai/
https://arxiv.org/pdf/2501.12370
https://darioamodei.com/on-deepseek-and-export-controls
排版:Euodia
03/
04/
標(biāo)簽: