豆包視頻生成大模型正式發(fā)布，首次突破多主體互動(dòng)難關(guān)

幺雅玘品味生活 2024-09-26 70 0

字節(jié)跳動(dòng)正式宣告進(jìn)軍AI視頻生成。9月24日，字節(jié)跳動(dòng)旗下火山引擎在深圳舉辦AI創(chuàng)新巡展，一舉發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型，面向企業(yè)市場開啟邀測。

活動(dòng)現(xiàn)場展示的視頻生成效果令人驚嘆。無論是語義理解能力，多個(gè)主體運(yùn)動(dòng)的復(fù)雜交互畫面，還是多鏡頭切換的內(nèi)容一致性，豆包視頻生成大模型均達(dá)到業(yè)界先進(jìn)水平?；鹕揭婵偛米T待表示，“視頻生成有很多難關(guān)亟待突破。豆包兩款模型會(huì)持續(xù)演進(jìn)，在解決關(guān)鍵問題上探索更多可能性，加速拓展AI視頻的創(chuàng)作空間和應(yīng)用落地?！?/p> 豆包視頻生成大模型正式發(fā)布，首次突破多主體互動(dòng)難關(guān) 第1張

火山引擎總裁譚待發(fā)布豆包視頻生成模型

創(chuàng)新技術(shù)，破解多主體互動(dòng)和一致性難題

此前視頻生成模型大多只能完成簡單指令，豆包視頻生成模型則能實(shí)現(xiàn)自然連貫的多拍動(dòng)作與多主體復(fù)雜交互。有創(chuàng)作者在搶鮮體驗(yàn)豆包視頻生成模型時(shí)發(fā)現(xiàn)，其生成的視頻不僅能夠遵循復(fù)雜指令，讓不同人物完成多個(gè)動(dòng)作指令的互動(dòng)，人物樣貌、服裝細(xì)節(jié)甚至頭飾在不同運(yùn)鏡下也保持一致，接近實(shí)拍效果。

據(jù)火山引擎介紹，豆包視頻生成模型基于DiT 架構(gòu)，通過高效的DiT融合計(jì)算單元，讓視頻在大動(dòng)態(tài)與運(yùn)鏡中自由切換，擁有變焦、環(huán)繞、平搖、縮放、目標(biāo)跟隨等多鏡頭語言能力。全新設(shè)計(jì)的擴(kuò)散模型訓(xùn)練方法更是攻克了多鏡頭切換的一致性難題，在鏡頭切換時(shí)可同時(shí)保持主體、風(fēng)格、氛圍的一致性，這也是豆包視頻生成模型獨(dú)樹一幟的技術(shù)創(chuàng)新。

經(jīng)過剪映、即夢AI等業(yè)務(wù)場景打磨和持續(xù)迭代，豆包視頻生成模型具備專業(yè)級(jí)光影布局和色彩調(diào)和，畫面視覺極具美感和真實(shí)感。深度優(yōu)化的Transformer結(jié)構(gòu)，則大幅提升了豆包視頻生成的泛化能力，支持3D動(dòng)畫、2D動(dòng)畫、國畫、黑白、厚涂等多種風(fēng)格，適配電影、電視、電腦、手機(jī)等各種設(shè)備的比例，不僅適用于電商營銷、動(dòng)畫教育、城市文旅、微劇本等企業(yè)場景，也能為專業(yè)創(chuàng)作者和藝術(shù)家們提供創(chuàng)作輔助。

目前，新款豆包視頻生成模型正在即夢AI內(nèi)測版小范圍測試，未來將逐步開放給所有用戶。剪映和即夢AI市場負(fù)責(zé)人陳欣然認(rèn)為，AI能夠和創(chuàng)作者深度互動(dòng)，共同創(chuàng)作，帶來很多驚喜和啟發(fā)，即夢AI希望成為用戶最親密和有智慧的創(chuàng)作伙伴。

豆包大模型推出業(yè)界最高并發(fā)流量標(biāo)準(zhǔn)

此次活動(dòng)中，豆包大模型不僅新增視頻生成模型，還發(fā)布了豆包音樂模型和同聲傳譯模型，已全面覆蓋語言、語音、圖像、視頻等全模態(tài)，全方位滿足不同行業(yè)和領(lǐng)域的業(yè)務(wù)場景需求。

在產(chǎn)品能力日益完善的同時(shí)，豆包大模型的使用量也在極速增長。據(jù)火山引擎披露，截至9月，豆包語言模型的日均tokens使用量超過1.3萬億，相比5月首次發(fā)布時(shí)猛增十倍，多模態(tài)數(shù)據(jù)處理量也分別達(dá)到每天5000萬張圖片和85萬小時(shí)語音。

此前，豆包大模型公布低于行業(yè)99%的定價(jià)，引領(lǐng)國內(nèi)大模型開啟降價(jià)潮。譚待認(rèn)為，大模型價(jià)格已不再是阻礙創(chuàng)新的門檻，隨著企業(yè)大規(guī)模應(yīng)用，大模型支持更大的并發(fā)流量正在成為行業(yè)發(fā)展的關(guān)鍵因素。

據(jù)譚待介紹，業(yè)內(nèi)多家大模型目前最高僅支持300K甚至100K的TPM（每分鐘token數(shù)），難以承載企業(yè)生產(chǎn)環(huán)境流量。例如某科研機(jī)構(gòu)的文獻(xiàn)翻譯場景，TPM峰值為360K，某汽車智能座艙的TPM峰值為420K，某AI教育公司的TPM峰值更是達(dá)到630K。為此，豆包大模型默認(rèn)支持800K的初始TPM，遠(yuǎn)超行業(yè)平均水平，客戶還可根據(jù)需求靈活擴(kuò)容。

“在我們努力下，大模型的應(yīng)用成本已經(jīng)得到很好解決。大模型要從卷價(jià)格走向卷性能，卷更好的模型能力和服務(wù)?！弊T待表示。

【如果您有新聞線索，歡迎向我們報(bào)料，一經(jīng)采納有費(fèi)用酬謝。報(bào)料微信關(guān)注：ihxdsb，報(bào)料QQ：3386405712】

本文由 @幺雅玘發(fā)布在中正管業(yè)自媒體網(wǎng)，如有疑問，請聯(lián)系我們。
文章鏈接：http://de-soie-et-de-feu.com/post/6347.html