<ul id="i6e2g"><center id="i6e2g"></center></ul>
<ul id="i6e2g"></ul>

    幣圈網(wǎng)

    滾燙Deepseek一夜刀掉英偉達(dá)4萬(wàn)億 除夕又搞了個(gè)大的

    DeepSeek大爆出圈,現(xiàn)在連夜發(fā)布新模型——

    多模態(tài)Janus-Pro-7B,發(fā)布即開(kāi)源。

    在GenEval和DPG-Bench基準(zhǔn)測(cè)試中擊敗了DALL-E 3和Stable Diffusion。

    想必大家這幾天完全被DeepSeek刷屏了吧。

    它長(zhǎng)時(shí)間霸榜熱搜第一,甚至AI第一股英偉達(dá)直接被干崩了——最大跌幅近17%,一夜蒸發(fā)5890億美元(約合人民幣4.24萬(wàn)億元),創(chuàng)下美股單日跌幅最大紀(jì)錄。

    而Deepseek神話還在繼續(xù),春節(jié)假期中全國(guó)人民都開(kāi)始體驗(yàn)了,Deepseek服務(wù)器還一度卡到宕機(jī)。

    值得一提,同一夜,阿里旗下大模型通義千問(wèn)Qwen也更新了自己的開(kāi)源家族:

    視覺(jué)語(yǔ)言模型Qwen2.5-VL,包括3B、7B 和 72B三種尺寸。

    真~今夜杭州都不睡,起舞競(jìng)速大模型。

    DeepSeek連夜發(fā)布新模型

    先來(lái)看看DeepSeek新模型,這其實(shí)是此前Janus、JanusFlow的高級(jí)版本和延續(xù)。

    一作為博士畢業(yè)于北大的陳小康。

    具體來(lái)說(shuō),它基于DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base構(gòu)建的,是一個(gè)統(tǒng)一理解和生成的多模態(tài)大模型。整個(gè)模型采用自回歸框架。

    它通過(guò)將視覺(jué)編碼解耦為單獨(dú)的路徑來(lái)解決以前方法的局限性,同時(shí)仍然使用單一、統(tǒng)一的轉(zhuǎn)換器架構(gòu)進(jìn)行處理。

    這種解耦不僅緩解了視覺(jué)編碼器在理解和生成中的角色沖突,還增強(qiáng)了框架的靈活性。

    對(duì)于多模態(tài)理解,它使用SigLIP-L作為視覺(jué)編碼器,支持 384 x 384 圖像輸入。對(duì)于圖像生成,Janus-Pro使用LIamaGen中的VQ標(biāo)記器,將圖像轉(zhuǎn)換為離散的ID,下采樣率為16。

    ID序列被扁平化為一維后,他們使用生成適配器將每個(gè)ID對(duì)應(yīng)的代碼庫(kù)嵌入映射到 LLM 的輸入空間中。然后,將這些特征序列連接起來(lái),形成一個(gè)多模態(tài)特征序列,隨后將其輸入 LLM 進(jìn)行處理。

    除了 LLM 內(nèi)置的預(yù)測(cè)頭,還在視覺(jué)生成任務(wù)中使用隨機(jī)初始化的預(yù)測(cè)頭進(jìn)行圖像預(yù)測(cè)。

    相較于前一個(gè)版本Janus的三個(gè)訓(xùn)練階段,團(tuán)隊(duì)發(fā)現(xiàn)這一訓(xùn)練策略并不理想,會(huì)大大降低計(jì)算效率。

    對(duì)此,他們做了兩處大的修改。

    第一階段Stage I的長(zhǎng)時(shí)間訓(xùn)練:增加了第一階段的訓(xùn)練步驟,以便在 ImageNet 數(shù)據(jù)集上進(jìn)行充分的訓(xùn)練。研究結(jié)果表明,即使在 LLM 參數(shù)固定的情況下,模型也能有效地模擬像素依賴性,并根據(jù)類別名稱生成合理的圖像。

    第二階段Stage II:的集中訓(xùn)練:在第二階段,放棄了 ImageNet 數(shù)據(jù),直接利用常規(guī)文本到圖像數(shù)據(jù)來(lái)訓(xùn)練模型,以生成基于密集描述的圖像。

    此外在第三階段的監(jiān)督微調(diào)過(guò)程中,還調(diào)整了不同類型數(shù)據(jù)集的數(shù)據(jù)比例,將多模態(tài)數(shù)據(jù)、純文本數(shù)據(jù)和文本圖像數(shù)據(jù)的比例從 7:3:10 調(diào)整為 5:1:4。

    通過(guò)略微降低文本到圖像數(shù)據(jù)的比例發(fā)現(xiàn),這一調(diào)整可以讓在保持強(qiáng)大的視覺(jué)生成能力的同時(shí),提高多模態(tài)理解性能。

    最終結(jié)果顯示,實(shí)現(xiàn)了與現(xiàn)有視覺(jué)理解生成SOTA模型持平的水準(zhǔn)。


    △GenEval基準(zhǔn)


    △DPG-Bench基準(zhǔn)

    與上一個(gè)版本 Janus相比,它可以為簡(jiǎn)短提示提供更穩(wěn)定的輸出,具有更好的視覺(jué)質(zhì)量、更豐富的細(xì)節(jié)以及生成簡(jiǎn)單文本的能力。

    更多多模態(tài)理解和視覺(jué)生成能力的定性結(jié)果。

    DeepSeek征服全球用戶

    想必這兩天一定是被DeepSeek刷屏了——

    是科技圈非科技圈、七大姑八大姨都擱那討論的程度。

    像同為杭州六小龍的游戲科學(xué),其創(chuàng)始人CEO、《黑神話:悟空》制作人也專門(mén)發(fā)微博支持:頂級(jí)科技成果,六大突破。

    還有DeepSeek自稱MOSS,也被流浪地球?qū)а莨⒁獾搅恕?/p>

    好好好,DeepSeek是不是直接預(yù)訂下一部主角了(Doge)。

    而這故事的一開(kāi)始,正是前幾天剛剛開(kāi)源的推理模型R1,以其低廉的成本、免費(fèi)的使用以及完全不輸o1的性能,征服了全球用戶,直接引發(fā)行業(yè)地震。

    僅僅花費(fèi)560萬(wàn)美元訓(xùn)練的R1,相當(dāng)于Meta GenAI團(tuán)隊(duì)任一高管的薪資,在很多AI基準(zhǔn)測(cè)試中已經(jīng)達(dá)到甚至超越OpenAI o1模型。

    而且DeepSeek是真的免費(fèi),而ChatGPT雖然在免費(fèi)榜上,但要是想解鎖它的完全體,還是要掏上200美元。

    于是乎,大家開(kāi)始紛紛轉(zhuǎn)向DeepSeek來(lái)“構(gòu)建一切”,也就迅速登頂美區(qū)蘋(píng)果應(yīng)用商店免費(fèi)App排行第一,超越了ChatGPT和Meta的Threads等熱門(mén)應(yīng)用。

    用戶量的激增也導(dǎo)致DeepSeek服務(wù)器多次宕機(jī),官方不得不緊急維護(hù)。

    而聚焦于行業(yè)內(nèi),大家對(duì)于DeepSeek的關(guān)注,在于如何在有限的資源成本情況下,實(shí)現(xiàn)與OpenAI持平的水準(zhǔn)。

    相比于國(guó)外動(dòng)輒百億千億美元成本、幾十上百萬(wàn)張卡這種粗放的模式,用DeepSeek很多技術(shù)細(xì)節(jié)都放在如何降低成本開(kāi)銷上。

    比如蒸餾。R1總共開(kāi)源了6個(gè)在R1數(shù)據(jù)上的蒸餾小模型,蒸餾版Qwen-1.5B都能在部分任務(wù)上超過(guò)GPT-4o。

    還有就是純強(qiáng)化學(xué)習(xí),拋棄SFT環(huán)節(jié),通過(guò)數(shù)千次的強(qiáng)化學(xué)習(xí)來(lái)提升模型的推理能力,然后在AIME 2024上的得分與OpenAI-o1-0912的表現(xiàn)相當(dāng)。

    也正因?yàn)檫@樣,讓人不免想到OpenAI前幾天砸5000億美元建數(shù)據(jù)中心以及英偉達(dá)長(zhǎng)時(shí)間以來(lái)在高端GPU的壟斷地位。

    拿5000億美元建數(shù)據(jù)中心,是有必要的嗎?

    大規(guī)模的AI算力投資,是有必要的嗎?

    這樣的討論,在資本市場(chǎng)得到了響應(yīng)。美股開(kāi)盤(pán)后,英偉達(dá)股價(jià)暴跌17%,創(chuàng)下自2020年3月以來(lái)最大跌幅,市值蒸發(fā)近6000億美元,老黃自己的個(gè)人財(cái)富一夜之間也縮水了超130億美元。

    博通、AMD等芯片巨頭也紛紛大幅下跌。

    對(duì)此,英偉達(dá)公開(kāi)回應(yīng)稱,DeepSeek是一項(xiàng)卓越的人工智能進(jìn)展,也是測(cè)試時(shí)擴(kuò)展的絕佳范例。DeepSeek的研究展示了如何運(yùn)用該技術(shù),借助廣泛可用的模型以及完全符合出口管制規(guī)定的算力,創(chuàng)建新模型。推理過(guò)程需要大量英偉達(dá) GPU和高性能網(wǎng)絡(luò)。如今我們有三條擴(kuò)展定律:持續(xù)適用的預(yù)訓(xùn)練和后訓(xùn)練定律,以及新的測(cè)試時(shí)擴(kuò)展定律。

    同樣被動(dòng)搖的還有Meta、OpenAI。

    Meta內(nèi)部甚至成立了專門(mén)的研究小組,試圖剖析DeepSeek的技術(shù)細(xì)節(jié),以改進(jìn)其Llama系列模型,并且新年計(jì)劃中預(yù)算4000億起步搞AI,年底AI算力將達(dá)130萬(wàn)卡。

    奧特曼也緊急透露新模型o3-mini即將免費(fèi)上線ChatGPT的消息,試圖挽回一點(diǎn)市場(chǎng)熱度。

    現(xiàn)在有了新模型發(fā)布,關(guān)于DeepSeek的討論還在繼續(xù)。

    DeepSeek新版本疑似很快發(fā)布,時(shí)間是2025年2月25日。

    杭州昨夜不眠

    同一個(gè)夜晚,同一個(gè)杭州。

    就在DeepSeek新模型發(fā)布不久,Qwen也更新了自己的開(kāi)源家族:

    Qwen2.5-VL。

    這個(gè)標(biāo)題怎么有三體那味了。

    它有3B、7B 和 72B三種尺寸,可以支持視覺(jué)理解事物、Agent、理解長(zhǎng)視頻并且捕捉事件,結(jié)構(gòu)化輸出等等。

    (詳情內(nèi)容可以參考下一篇推文)

    ps,最后,繼杭州六小龍之后,廣東AI三杰也出現(xiàn)了。

    (杭州六小龍分別是游戲科學(xué)、DeepSeek、宇樹(shù)科技、云深處科技、強(qiáng)腦科技和群核科技)

    他們分別是湛江人梁文鋒(DeepSeek創(chuàng)始人),汕頭人楊植麟(月之暗面、Kimi創(chuàng)始人)以及AI學(xué)術(shù)大佬廣州人何愷明。

    鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。

    久久精品aⅴ无码中文字字幕不卡 久久精品aⅴ无码中文字字幕重口 | 国产激情精品一区二区三区| 日韩精品一二三四区| 国产99视频精品免费观看7| 亚洲国产成人91精品| 日韩精品无码免费一区二区三区| 久久亚洲精品中文字幕三区| 在线观看亚洲精品国产| 精品无人区无码乱码毛片国产| 无码精品人妻一区| 日韩中文字幕免费| 日韩毛片人妻久久蜜桃传媒| heyzo亚洲精品日韩| 国产成人亚洲精品91专区高清 | 国产精品美女一区二区三区| 99热门精品一区二区三区无码| 91精品国产综合久久香蕉 | 3d精品重口littleballerina| 久久精品中文字幕不卡一二区| 精品视频一区二区三区免费| 国精品午夜福利视频不卡| 91视频精品全国免费观看| AV天堂午夜精品一区| 久久精品国产亚洲一区二区三区| 国产高清精品一区| 国产精品小视频免费无限app| 国产成人精品视频2021| 国产精品白丝jkav网站| 亚洲综合精品网站在线观看| 国产精品1024视频| 国产精品一区在线观看你懂的| 国产免费久久精品丫丫| 精品无人区无码乱码大片国产| 久久精品99无色码中文字幕| 久久精品国产一区二区电影| 久久久这里有精品中文字幕| 中文字幕精品在线视频| 97精品依人久久久大香线蕉97| 久久精品成人免费网站| 久久亚洲伊人中字综合精品| 一区二区三区精品|