2025 世界人工智能大會(huì)(WAIC)期間,智象未來(HiDream.ai)聯(lián)合創(chuàng)始人兼首席技術(shù)官姚霆發(fā)表主題演講,系統(tǒng)闡釋了多模態(tài)智能體在內(nèi)容創(chuàng)作領(lǐng)域的技術(shù)突破與商業(yè)化實(shí)踐。作為聚焦多模態(tài)生成的 AI 創(chuàng)新企業(yè),智象未來期待通過探索多模態(tài)大模型的有效落地形式, “讓創(chuàng)作回歸靈感,讓時(shí)間忠于故事” ,推動(dòng)內(nèi)容創(chuàng)作從工具效率提升向生產(chǎn)力革命跨越。
AI技術(shù)的爆發(fā)式發(fā)展,正從實(shí)驗(yàn)室快速走向產(chǎn)業(yè)應(yīng)用。智象未來始終以“解決真實(shí)創(chuàng)作痛點(diǎn)”為導(dǎo)向,在商業(yè)化落地中探索出一條“技術(shù)筑基、場(chǎng)景破局、價(jià)值閉環(huán)”的路徑。智象未來認(rèn)為,真正的AI商業(yè)化不是單點(diǎn)技術(shù)的炫耀,而是從模型能力到服務(wù)形態(tài),再到最終成果的全鏈路賦能。
智象未來持續(xù)致力于從技術(shù)到價(jià)值的產(chǎn)品化思路,在這一過程中,智象構(gòu)建了“MaaS-SaaS-RaaS”的遞進(jìn)商業(yè)化體系
MaaS(Model as a Service) 是根基。打造百億級(jí)多模態(tài)基礎(chǔ)模型,支持圖像、視頻、音頻、文本等多模態(tài)的生成與理解。
SaaS(Software as a Service) 是橋梁?;诨A(chǔ)模型,開發(fā)面向垂直場(chǎng)景的產(chǎn)品,建設(shè)個(gè)人創(chuàng)作者平臺(tái)和社區(qū),將技術(shù)能力轉(zhuǎn)化為開箱即用的服務(wù),降低創(chuàng)作門檻。
RaaS(Result as a Service) 是終局。通過商業(yè)視頻營(yíng)銷服務(wù)、新媒體創(chuàng)作智能體,直接為客戶交付“可落地的成果”,讓AI真正成為創(chuàng)作的“生產(chǎn)力工具”而非“技術(shù)概念”。
這種 “模型支撐服務(wù),服務(wù)落地場(chǎng)景” 的邏輯,已在實(shí)際應(yīng)用中驗(yàn)證:智象多模態(tài)生成平臺(tái)已服務(wù)于影視制作、產(chǎn)品營(yíng)銷、文旅互娛等領(lǐng)域,實(shí)現(xiàn)從技術(shù)研發(fā)到商業(yè)價(jià)值的閉環(huán)。
多模態(tài)技術(shù)突破:從 “能生成” 到 “生成優(yōu)”
技術(shù)實(shí)力是商業(yè)化的底氣。智象多模態(tài)模型以“高維理解、精準(zhǔn)生成”為核心,構(gòu)建了覆蓋圖像、視頻、編輯的全棧能力矩陣。
技術(shù)層面,智象多模態(tài)基礎(chǔ)模型歷經(jīng)三次重要迭代,構(gòu)建起 “理解深、控制準(zhǔn)、畫質(zhì)高” 的核心優(yōu)勢(shì)。模型從 2023 年 8 月的 1.0 版本(擴(kuò)散模型 DiT,實(shí)現(xiàn)多模態(tài)對(duì)齊),到 2024 年 6 月 2.0 版本(擴(kuò)散自回歸模型 DiT+AR,強(qiáng)化時(shí)空建模),再到 2024 年 12 月 3.0 版本(MoE 多場(chǎng)景學(xué)習(xí),記憶增強(qiáng)),持續(xù)突破生成技術(shù)瓶頸。
這些能力轉(zhuǎn)化為三大核心價(jià)值:語義一致性(如 IP 故事活化時(shí)保持風(fēng)格統(tǒng)一)、精準(zhǔn)可控性(支持個(gè)性化定制與元素自由調(diào)整)、影視級(jí)畫質(zhì)(4K 分辨率、長(zhǎng)時(shí)序穩(wěn)定輸出),為專業(yè)創(chuàng)作提供技術(shù)保障。
在圖像生成領(lǐng)域,HiDream 系列開源模型表現(xiàn)亮眼,累計(jì)下載量超 60 萬次,被 Diffusers庫、ComfyUI 、Recraft等主流工具集成。智象多模態(tài)全系列模型均在國(guó)際權(quán)威榜單排名前列。HiDream-I1 全面開源后24小時(shí)內(nèi)即登頂 Artificial Analysis 榜單,成為首個(gè)問鼎榜首的中國(guó)自研模型,Hugging Face實(shí)時(shí)排名全球第一,下載量與點(diǎn)贊數(shù)持續(xù)攀升。此外,智象大模型家族已實(shí)現(xiàn)文本、圖像、視頻的聯(lián)合建模,其視頻生成產(chǎn)品支持4K高清畫質(zhì)、全局 / 局部可控及劇本多鏡頭生成,被行業(yè)專家評(píng)價(jià)為「重新定義 AIGC 的美學(xué)標(biāo)準(zhǔn)」。同時(shí),結(jié)合其開源的交互式編輯模型HiDream-E1,用戶通過自然語言指令即可完成圖像生成及編輯,直接降低創(chuàng)作門檻,助力全球開發(fā)者與創(chuàng)作者實(shí)現(xiàn)“所想即所得”。
7月,繼問鼎圖像生成開源模型競(jìng)技場(chǎng)榜單后,最新開源模型HiDream E1.1再次強(qiáng)勢(shì)躋身Artificial Analysis圖像編輯智能體榜單第一梯隊(duì),作為領(lǐng)先的開源圖像編輯模型,性能全面超越Flux.1 Kontext等主流模型,支持自然語言驅(qū)動(dòng)的圖像編輯 —— 用戶通過文字指令即可完成背景替換、顏色修改、局部重繪等操作。
在視頻生成領(lǐng)域,模型支持文生視頻、圖生視頻、首尾幀生成,可精準(zhǔn)復(fù)刻國(guó)漫、吉卜力等風(fēng)格,實(shí)現(xiàn)鏡頭運(yùn)動(dòng)與畫面運(yùn)動(dòng)的聯(lián)合學(xué)習(xí)。通過擴(kuò)散自回歸模型(DiT+AR),我們解決了視頻生成中“時(shí)空一致性”難題,讓生成內(nèi)容更貼近真實(shí)物理世界的規(guī)律。
在創(chuàng)作工具箱層面,AI口播、視頻模板、運(yùn)動(dòng)筆刷、虛擬換衣、圖像超分等功能,形成了“生成-編輯-優(yōu)化”的完整閉環(huán),滿足從個(gè)人創(chuàng)作者到企業(yè)客戶的全場(chǎng)景需求。
產(chǎn)品形態(tài):agent驅(qū)動(dòng)的“創(chuàng)作革命”,重構(gòu)內(nèi)容創(chuàng)作全流程
在產(chǎn)品形態(tài)上,智象以 “智能體” 為核心形態(tài),構(gòu)建覆蓋圖像生成、視頻創(chuàng)作、營(yíng)銷傳播的工具鏈。
作為面向短視頻二創(chuàng)的智能體,vivago agent以“多模態(tài)輸入、智能拆解、交互式生成”為核心優(yōu)勢(shì)。用戶只需提供圖像、視頻、音頻、文本等素材(例如咖啡館的logo、照片、宣傳語),即可自動(dòng)分析需求、拆解任務(wù)(分鏡設(shè)計(jì)、劇本生成、素材檢索),調(diào)用圖像/視頻生成模型補(bǔ)全內(nèi)容,并通過智能剪輯工具整合輸出。它不僅能理解“棕色線條勾勒的火焰+波浪logo”的視覺特征,還能捕捉“靜謐奢華的吧臺(tái)場(chǎng)景”的氛圍,讓短視頻創(chuàng)作從“從零開始”變?yōu)?ldquo;按需生成”。
智象未來即將正式發(fā)布長(zhǎng)視頻編輯智能體-HiClip。針對(duì)長(zhǎng)視頻“內(nèi)容過載、分發(fā)低效、回報(bào)周期長(zhǎng)”的痛點(diǎn),HiClip通過多模態(tài)語義理解,精準(zhǔn)解構(gòu)內(nèi)容核心(如提取高光片段、生成音頻摘要),實(shí)現(xiàn)“一次創(chuàng)作、全域適配”的二次傳播。無論是影視片段的高光剪輯,還是教育課程的知識(shí)點(diǎn)拆解,HiClip都能讓長(zhǎng)視頻內(nèi)容煥發(fā)新的流量生命力。
產(chǎn)品化落地實(shí)現(xiàn)了創(chuàng)作方面的互補(bǔ):vivago agent 聚焦短視頻二創(chuàng),通過模板檢索、智能剪輯、多模態(tài)生成,幫助用戶快速制作個(gè)性化內(nèi)容,解決傳統(tǒng)模板化創(chuàng)作的同質(zhì)化問題;HiClip則針對(duì)長(zhǎng)視頻 “內(nèi)容過載、分發(fā)低效” 的痛點(diǎn),以多模態(tài)語義理解解構(gòu)長(zhǎng)視頻核心信息,實(shí)現(xiàn)高光片段提取、跨平臺(tái)適配剪輯,激發(fā)長(zhǎng)視頻二次傳播價(jià)值。
生態(tài)共創(chuàng):鏈接全產(chǎn)業(yè)鏈的價(jià)值網(wǎng)絡(luò)
AI的價(jià)值,在于連接與賦能;技術(shù)與產(chǎn)品的落地,離不開生態(tài)的協(xié)同支撐。目前,智象未來正攜手跨境、互聯(lián)網(wǎng)、影視、新媒體、文旅等多領(lǐng)域伙伴,構(gòu)建覆蓋多領(lǐng)域的生態(tài)網(wǎng)絡(luò),形成 “技術(shù)-場(chǎng)景-生態(tài)” 的共贏格局。
讓每個(gè)創(chuàng)作者都能更好釋放創(chuàng)意潛力,是智象的始終堅(jiān)持。讓AI 真正 “理解創(chuàng)作、輔助創(chuàng)作”,讓內(nèi)容產(chǎn)業(yè)的生產(chǎn)力革新正加速到來。智象未來期待以多模態(tài)智能體為支點(diǎn),與行業(yè)伙伴共同探索“技術(shù)為筆,創(chuàng)意為墨”的新可能——讓每個(gè)創(chuàng)作者都能聚焦靈感,讓每個(gè)故事都能抵達(dá)更遠(yuǎn)的地方。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!