AI文生視頻領(lǐng)域,幾乎只剩Sora還是個期貨了。
最近兩個月,國內(nèi)外的AI-generated Video應(yīng)用持續(xù)爆發(fā),中國的快手、字節(jié)、智譜AI、生數(shù)科技、愛詩科技,海外的谷歌、Luma、Runway,格局如八仙過海。
雖然不同平臺水平差異依舊存在,但整體可用性已經(jīng)大大提高,而且風(fēng)格化特征也比較全面。唯一的缺憾是,在融入工作流方面,AI視頻工具們的水平還是差了一點。Sora畫的餅,要交給這些后來者去圓了。
放棄期貨,文生視頻應(yīng)用爆發(fā)
業(yè)界民間都把視頻視為AI應(yīng)用落地的重點領(lǐng)域。英偉達(dá)CEO黃仁勛在7月30日的全球頂級計算機(jī)圖形學(xué)會議SIGGRAPH 2024上邀請了Meta的CEO扎克伯格進(jìn)行對話,雙方都認(rèn)可視頻能力會是AI大模型的進(jìn)化方向。
出身于英偉達(dá)研究小組的Luma AI首席科學(xué)家宋佳銘,在與a16z合伙人Anjney Midha對談時說,視頻關(guān)聯(lián)著3D世界,從學(xué)習(xí)角度看,視頻數(shù)據(jù)使模型更好地理解和推理3D世界。所以,實時高質(zhì)量的視頻生成,最終會推動具身AI的發(fā)展。
視頻就是這樣一座“橋”,而現(xiàn)在大量的AI公司正在試圖搶先通過它,尤其是OpenAI讓Sora變成了外界用不到的期貨,給了其他平臺進(jìn)一步發(fā)展的空間。
(整理自公開信息)
(圖源:天眼查)
超長戰(zhàn)線背后是這些公司的試探。一部分是關(guān)于商業(yè)模式,另一部分是關(guān)于技術(shù)應(yīng)用前景。
可靈、即夢、Vidu等都推出了會員訂閱模式,在C端進(jìn)行應(yīng)用普及化嘗試。愛詩科技創(chuàng)始人王長虎此前在接受財新采訪時表示:“愛詩目前的策略以2C(面向消費(fèi)者)為主,廣泛收集國內(nèi)外用戶反饋,以更好地基于用戶體驗迭代底層模型。”至于更遠(yuǎn)的應(yīng)用,現(xiàn)在來談則為時尚早,主要是因為C端的收費(fèi)模式無法承擔(dān)成本。
Luma AI采取了To C的產(chǎn)品形態(tài),不過它原本專注于3D領(lǐng)域,進(jìn)入視頻生成領(lǐng)域是為了探索3D生成與重建的更多可能性,以視頻驅(qū)動3D發(fā)展。這在產(chǎn)業(yè)領(lǐng)域有更多的應(yīng)用前景,例如批量制造電影需要的三維素材等。
最重要的是,Luma AI的期望不是售賣技術(shù)或者素材,而是建立類似TikTok這樣的平臺,也就是一個基于3D的生態(tài)系統(tǒng)。王長虎也在和極客公園創(chuàng)始人張鵬對話時表示,愛詩科技也瞄準(zhǔn)的是“AIGC時代的平臺性機(jī)會”,但平臺的形態(tài)暫時無法預(yù)測,因為AI產(chǎn)業(yè)不會以復(fù)制現(xiàn)在已有的平臺的方式成長。
不僅如此,目前讓AI-generated Video進(jìn)入完整工作流的應(yīng)用已經(jīng)在成形。開源視頻編輯工具Clapper最近熱度上升,它的特色就是集合各類AI技術(shù),用prompt的方式調(diào)動AI Agent生成和迭代故事,直接跳過了手工編輯文件的過程。
(圖源:機(jī)器之心)
由此可見,AI-generated Video的進(jìn)化速度遠(yuǎn)比我們想象得要快。目前,行業(yè)的重點無疑在于生成速度和生成效率兩個方面。但是,大模型并不提供完全確定的商業(yè)模式方向,這更多取決于團(tuán)隊的選擇。而在這個過程中,除了商業(yè)化之外,AI公司還要思考怎么避免陷入合規(guī)困境、成本困境。所以,把文生視頻變得成熟并不容易,現(xiàn)在僅僅相當(dāng)于ChatGPT剛剛問世的階段。
AI-generated Video的“硬傷”和突破口
a16z之前就發(fā)表過觀點,巨頭在從科研成果到商業(yè)產(chǎn)品的轉(zhuǎn)化中需要更關(guān)注法律安全、版權(quán)等問題,所以往往效率會慢。我們不去考慮Sora是不是因為這個原因始終不露面,單看行業(yè)都要面對的相關(guān)問題,邏輯其實是一樣的。
1.商業(yè)化的“落差”,目前的AI-generated Video很難滿足甲方們的需求
彭博社曾報道,OpenAI一直試圖向好萊塢推薦Sora,但并不成功。用Sora制作的第一則商業(yè)化廣告是6月公開的玩具反斗城廣告。然而,這則視頻不但用了一些舊素材,公開新聞稿也沒有說完全由AI生成。
導(dǎo)演Nik Kleverov還在一條已經(jīng)刪除的動態(tài)里表示,制作這些鏡頭的創(chuàng)意機(jī)構(gòu)Native Foreign提供了大約十幾個工作人員參與工作,Sora支持了80%到85%的流程。這對需要高效低成本的AI-generated Video來說算不上什么好消息。
2.訓(xùn)練成本、高質(zhì)量數(shù)據(jù)集難以滿足
視頻的本質(zhì)可以視為一系列圖像,圖像有很多公開的數(shù)據(jù)集,但是視頻沒有。OpenAI遇到過違規(guī)使用YouTube視頻進(jìn)行訓(xùn)練的指控,英偉達(dá)最近被媒體曝光從Netflix和YouTube收集了大量數(shù)據(jù),用來訓(xùn)練自己的Cosmos項目,用于支持其AI產(chǎn)品往現(xiàn)實世界發(fā)展。它每天可以下載相當(dāng)于80年的視頻內(nèi)容。
這體現(xiàn)了兩個關(guān)鍵點:一是黃仁勛和Luma的觀點類似,AI視頻的發(fā)展確實對AI進(jìn)入3D世界意義重大,英偉達(dá)也是這樣做的:文本——圖像——視頻——三維模型——現(xiàn)實世界。二是視頻數(shù)據(jù)集是個大問題,除了版權(quán)問題,這些視頻數(shù)據(jù)還缺乏標(biāo)簽,斯坦福大學(xué)教授Stefano Ermon說,現(xiàn)階段缺乏篩選和過濾好視頻的方法,而且篩選后還要考慮它們的標(biāo)簽和描述。
3.AI資產(chǎn)泡沫的問題,AI必須為用戶解決重要復(fù)雜的問題才能有價值,但現(xiàn)在它的發(fā)展成效,遠(yuǎn)遠(yuǎn)不能和互聯(lián)網(wǎng)等技術(shù)當(dāng)年初生時的情況相比
Benchmark合伙人Michael Eisenberg在最近的一期訪談中,引用了其好友Atreides Management創(chuàng)始人Gavin Baker關(guān)于大模型發(fā)展的觀點:“基礎(chǔ)模型是歷史上貶值最快的資產(chǎn)。”
他所舉的例子來自Seeking Alpha的創(chuàng)始人,類似金融領(lǐng)域這種每分鐘都會進(jìn)行業(yè)務(wù)和數(shù)據(jù)更新的高頻領(lǐng)域,訓(xùn)練出來的模型只能完成寫報告之類的常規(guī)工作,但無法應(yīng)對數(shù)據(jù)的高速刷新,滿足金融預(yù)測未來的需求。
而且,其他技術(shù)的發(fā)展是確定性的,互聯(lián)網(wǎng)發(fā)展早期雖然泡沫巨大,但已經(jīng)體現(xiàn)了應(yīng)用路徑;而AI渾身都是不確定性。互聯(lián)網(wǎng)發(fā)展的邊際成本幾乎約等于0(或者說其中不少都分擔(dān)給了運(yùn)營商和用戶),然而AI成長的邊際成本涉及大量固定資產(chǎn),現(xiàn)在都由創(chuàng)業(yè)者自己承擔(dān),而且越投入邊際改善效應(yīng)越弱。大量的早期投入,很可能是一個陷阱。
技術(shù)革命之后必須伴隨產(chǎn)業(yè)革命,產(chǎn)業(yè)革命則需要現(xiàn)象級產(chǎn)品的引領(lǐng)。AI更需要的是一個成功的場景。目前看來,AI-generated Video還沒有拿到這類成果的起色。
Perplexity的創(chuàng)始人Arin對此提供了另外一個觀點,那就是基礎(chǔ)模型的價值本質(zhì)映射著背后團(tuán)隊的價值,即Sora之于OpenAI,文心大模型之于百度。不是Sora能革了視頻的命,只是外界相信由OpenAI領(lǐng)導(dǎo)的Sora具備這樣的可能性而已。當(dāng)Sora沒能提供符合我們預(yù)期的突破時,誰能在這個領(lǐng)域擔(dān)起大任呢?
由此出發(fā),關(guān)鍵或許在于誰能先把AI-generated Video真正融入到某一個商業(yè)系統(tǒng)的工作流中去,就像Clapper對視頻制作的探索一樣。而這就是一個更大的問題了,因為它涉及到和其他領(lǐng)域的融合——氣象、城市、影視、汽車、制造業(yè)。也許Sora會在今年的某天拿出一個更具體的成果,也許是其他的創(chuàng)業(yè)公司顛覆了我們對AI視頻的認(rèn)知。
來源:松果財經(jīng)
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!
作為這一輪全球AI科技周期的風(fēng)向標(biāo)企業(yè),自2023年初截至今年6月31日,英偉達(dá)股價翻了近7.5倍。然而,自6月創(chuàng)下了歷史高點后,截至當(dāng)?shù)貢r間8月12日收盤,其股價回撤幅度約20%。同時,這一時期,英偉達(dá)多位高管也在持續(xù)拋售公司股份。據(jù)統(tǒng)計,在6月13日至8月9日期間,CEO黃仁勛已累計套現(xiàn)超5.5
大廠員工們的喜大普奔時刻,騰訊宣布“漲薪”了。具體內(nèi)容:一是將服務(wù)獎,即「十三薪」,均攤到每月月薪中,折算后每月漲薪8%;二是將“易居”計劃的年度房補(bǔ),納入月薪中。兩項調(diào)整給新老員工的月薪帶來了不小的變化。今年,裁員潮的陰影一直籠罩全球,但包括騰訊在內(nèi)的國內(nèi)互聯(lián)網(wǎng)大廠卻開始了一波“反向操作”,這背后
近日,谷歌母公司Alphabet在美股盤后公布了第二季度財報,其中,總營收847億美元,同比增長14%,高于分析師普遍預(yù)期的842億美元
商業(yè)化愿景下,AI應(yīng)用元年已經(jīng)到來。2024年以來,諸多已布局AI大模型技術(shù)的科技公司都開始加速推出AI應(yīng)用產(chǎn)品。比如,今年7月16日,騰訊旗下大模型應(yīng)用“騰訊元寶”推出“3D角色夢工廠”玩法,成為首個擁有打印級3D生成能力的通用大模型App。無獨(dú)有偶,百度也推出了一款名為“文小言”的AI數(shù)字人社交
文|智能相對論作者|葉遠(yuǎn)風(fēng)松弛感,是這屆奧運(yùn)會開幕式給很多人留下的直觀感受。而讓用戶觀看奧運(yùn)的過程也獲得松弛感,同樣是各路APP在奧運(yùn)季努力的方向。從各種大型賽事報道來看,一般來說,APP們往往致力于整合信息、形成專題頁面,方便用戶一站式瀏覽,從容選擇、查看。但“智能相對論”觀察到,一些嘗試推動用戶
Manus撕開一道真相
文/八真來源/節(jié)點財經(jīng)具身智能賽道,誰最有可能拔得A股資本市場的頭籌?答案大概率是誕生剛剛兩年,由華為"天才少年"、B站百萬粉絲科技UP主稚暉君(彭志輝)創(chuàng)立的智元機(jī)器人。近期,從事新材料研發(fā)與生產(chǎn)的上緯新材(688585.SH)丟出重磅炸彈,宣布智元機(jī)器人及相關(guān)主體將通過收購其至少63.62%的股
文/道哥大舉裁員、清空賬號、國內(nèi)IP無法訪問——曾被譽(yù)為“中國AIAgent希望之星”的Manus,在估值飆至5億美元的高光時刻“閃離”中國市場。近日,Manus“裁員、出走”的消息在媒體端大量發(fā)酵。消息稱,Manus公司總部將由中國遷至新加坡,其國內(nèi)團(tuán)隊也將大幅裁撤——原有120人規(guī)模團(tuán)隊除40余
四個月前邀請碼炒至10萬元,如今官網(wǎng)變灰、社交賬號清空,這家AI新貴的閃電遷移折射中國科技企業(yè)出海潮涌。7月11日,打開Manus官網(wǎng)的用戶發(fā)現(xiàn)一則突兀提示:“Manus在你所在的地區(qū)不可用”。而就在不久前,這個位置還顯示著“Manus中文版本正在開發(fā)中”的樂觀聲明。同時,Manus官方微博和小紅書
文/十界來源/節(jié)點財經(jīng)一場圍繞算力自主的競賽,正在科創(chuàng)板上演。近日,國產(chǎn)全功能GPU廠商摩爾線程遞交科創(chuàng)板招股書,擬募資約80億人民幣,成為今年上半年科創(chuàng)板擬募資規(guī)模最大的沖刺者,也打響了“國產(chǎn)英偉達(dá)”上市的第一槍。據(jù)招股書顯示,摩爾線程自2020年成立以來,主營全功能GPU芯片的研發(fā)與銷售,以自主
“AI大模型六小虎”百川智能危機(jī)重重。這是前搜狗CEO王小川創(chuàng)辦的AI公司。昨天就爆出新聞,百川智能的聯(lián)合創(chuàng)始人離職,這是王小川入局AI的第一道大坎。接下的成敗非常關(guān)鍵:(1)拿下河北(2)學(xué)習(xí)科大訊飛百川智能離職高端概覽:(1)2025年7月10日,百川智能技術(shù)聯(lián)合創(chuàng)始人謝劍將離職。他是百川只能的
百度AI團(tuán)隊今日正式推出PaddleOCR3.1版本,以突破性的多語言組合識別(MultilingualCompositionPerception,MCP)技術(shù)為核心,徹底重構(gòu)復(fù)雜文檔處理邊界。此次升級標(biāo)志著OCR領(lǐng)域首次實現(xiàn)對同一文檔內(nèi)任意混合語言文本的精準(zhǔn)識別,為全球化企業(yè)、跨境業(yè)務(wù)及多元文化場
“宇樹已形成硬件、算法、場景聯(lián)動的業(yè)務(wù)飛輪,自研率超95%的技術(shù)壁壘讓其成為全球機(jī)器人賽道不可忽視的中國力量。”首程資本管理合伙人朱方文在追加投資時如是評價。7月7日,據(jù)每日經(jīng)濟(jì)新聞從宇樹科技投資方處獲悉,國內(nèi)人形機(jī)器人領(lǐng)軍企業(yè)宇樹科技(UnitreeRobotics)已明確計劃于科創(chuàng)板IPO,預(yù)計
推理與多模態(tài)的終極融合,將徹底終結(jié)用戶在不同模型間切換的煩惱。7月7日,OpenAI正式確認(rèn)將在今年夏季推出新一代人工智能模型GPT-5。這一突破性產(chǎn)品將整合現(xiàn)有的多個強(qiáng)大模型,特別是融合專注推理能力的“O系列”與具備多模態(tài)功能的“GPT系列”,為用戶提供前所未有的統(tǒng)一體驗。OpenAI開發(fā)者體驗負(fù)