近日,搜狗分身技術團隊聯(lián)合清華大學天工智能計算研究院賈珈老師團隊共同發(fā)表的數字人技術論文《ChoreoNet:基于舞蹈動作單元的音樂-舞蹈合成框架》被2020國際頂級盛會ACM Multimedia錄用為長文。
(截圖來源:ACM Multimedia官網https://2020.acmmm.org)
ACM Multimedia專注于推進多種媒體的研究與應用,涉及人工智能、計算視覺、數據科學、深度學習、人機交互等多個新興領域,是中國計算機學會推薦的多媒體領域唯一A類國際學術會議,被認為是多媒體技術領域奧運級別的盛會。雖然鼓勵來自全球的各類機構分享、交流最新研究成果,但該會議論文接受率很低,只有對日常生活和技術突破具有巨大影響潛力的研究項目才會被通過。
“攻克難關”備受認可
音樂和舞蹈是與人們生活密不可分且高度相關的兩種藝術形式,近年來,“樂舞合成”也是業(yè)內高度關注的領域。不過,早期合成基于相似度檢索進行,合成結果的多樣性有限,而目前通行的方法是利用神經網絡模型,將音樂特征映射到人體骨骼關鍵點,但由于人類骨架關鍵點的高度冗余和帶噪特性,逐幀關鍵點預測非常困難,導致合成質量有限,成為困擾業(yè)內人士的一大“難關”。
搜狗分身技術團隊與清華天工研究院賈珈老師團隊在論文中提出了一個極具創(chuàng)造性的解決方案,該方案將人類編舞知識融合到樂舞合成框架中,設計多個舞蹈單元(CAU),并使用CAU序列預測模型,開發(fā)了一個像人類一樣根據音樂編排舞蹈動作的舞蹈合成框架——ChoreoNet。通過實驗驗證和數據對比,相較于基線法,ChoreoNet性能更好,合成動作也更加自然逼真,無論是音樂匹配度、動作自然度還是其他方面,表現(xiàn)都更加優(yōu)秀。
(截圖來源:ChoreoNet論文)
此次,該論文被ACM Multimedia認可并錄取為長文,不僅代表了搜狗AI分身技術在身體動作及姿態(tài)生成方面的突破,也從側面印證了搜狗強大的AI技術實力和能夠實現(xiàn)持續(xù)輸出的創(chuàng)新能力。值得注意的是,搜狗是在業(yè)內率先選擇通過音頻來驅動身體動作作為研究課題的先行者。
“死磕技術”引領方向
在搜狗的AI戰(zhàn)略版圖中,“自然交互+知識計算”是核心方向,技術研究和推動技術向產品的快速轉化均以此為基礎和方向,而搜狗“分身”是其中關鍵和重要一環(huán)。
在2018年發(fā)布全球首個AI合成主播之后,搜狗分身持續(xù)研究并打造更加逼真自然的數字人能力,在2D/3D數字人領域構建了音畫同步、逼真的面部表情唇動生成及驅動能力。此外,如何能夠讓數字人更加自然并且富有表現(xiàn)力也是搜狗分身的重點研究方向,其中身體動作以及姿態(tài)的表達至關重要。搜狗在首代AI合成主播問世后不到3個月的時間,便成功推出與“坐播”截然不同的“站播”合成主播,今年5月推出的3D AI合成主播不止面部細節(jié)經得起高清鏡頭考驗,更是實現(xiàn)了自如行走。本次與清華大學天工智能計算研究院的工作選擇了音樂場景,重點研究如何提升身體動作生成及驅動的表現(xiàn)力和自然度,為AI數字人的技術探索開啟了新方向。
“未來應用”前景廣闊
人工智能是未來科技的風向標,而5G時代的到來又大大加速了這一進程。自2018年搜狗推出全球首個AI合成主播之后,能夠與普通人的生活深度交融并廣泛運用于各行各業(yè)的“AI分身”便深受關注,不少科技企業(yè)躬身入局。
從上文可以看出,搜狗從未停下突破的步伐,從2D到3D、“坐播”到“站播”、從支持單一語種到支持多語種、再到支持互動。目前搜狗分身技術已經在司法、傳媒、會展、藝術、金融客服等多個場地落地,為新華社、央視、平安惠普、北京互聯(lián)網法院等打造了多個AI合成主播、AI合成客服、AI虛擬法官等,也創(chuàng)造了雅妮、新小微、新小浩、新小萌等多個經典AI數字人形象。
由音頻驅動的數字人或數字舞蹈演員,擁有巨大的想象空間和市場化應用前景。特別是與搜狗現(xiàn)有3D數字人的技術相結合后,使用場景可以從目前集中的傳媒、金融、法律等領域向影視、娛樂領域進軍,攪動萬億規(guī)模的市場。
AI為人賦能,這是搜狗人工智能的發(fā)展理念,也是搜狗分身技術的愿景。作為一項既能解決行業(yè)痛點,又能為用戶創(chuàng)造價值,既能給社會帶來變革、又能對科技產生影響,同時還能持續(xù)突破和進步的前沿技術,搜狗分身的未來,無疑具備更多的可能性、極大的想象空間。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
雖然我國汽車芯片行業(yè)還處在發(fā)展初期,但已經迸發(fā)出無限潛力。一方面,智能汽車的發(fā)展不斷帶動需求增長;另一方面,政策引導下,汽車芯片企業(yè)持續(xù)搶占高地。對此,在7月5日-7日舉辦的2023年中國汽車論壇上,中國汽車工業(yè)協(xié)會副秘書長李邵華就做出表示,“中國將成為未來汽車芯片發(fā)展的集聚地”。車規(guī)芯片行業(yè)近日的
2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網大廠、運營商、科研院所等優(yōu)秀團隊
這幾個月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特
文:互聯(lián)網江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發(fā)者大會上,發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0,希望通過一個平臺+四大開發(fā)服務,建立起IoT生態(tài)。對于這場發(fā)布會,市場的態(tài)度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩(wěn)定
Manus撕開一道真相
文/八真來源/節(jié)點財經具身智能賽道,誰最有可能拔得A股資本市場的頭籌?答案大概率是誕生剛剛兩年,由華為"天才少年"、B站百萬粉絲科技UP主稚暉君(彭志輝)創(chuàng)立的智元機器人。近期,從事新材料研發(fā)與生產的上緯新材(688585.SH)丟出重磅炸彈,宣布智元機器人及相關主體將通過收購其至少63.62%的股
文/道哥大舉裁員、清空賬號、國內IP無法訪問——曾被譽為“中國AIAgent希望之星”的Manus,在估值飆至5億美元的高光時刻“閃離”中國市場。近日,Manus“裁員、出走”的消息在媒體端大量發(fā)酵。消息稱,Manus公司總部將由中國遷至新加坡,其國內團隊也將大幅裁撤——原有120人規(guī)模團隊除40余
四個月前邀請碼炒至10萬元,如今官網變灰、社交賬號清空,這家AI新貴的閃電遷移折射中國科技企業(yè)出海潮涌。7月11日,打開Manus官網的用戶發(fā)現(xiàn)一則突兀提示:“Manus在你所在的地區(qū)不可用”。而就在不久前,這個位置還顯示著“Manus中文版本正在開發(fā)中”的樂觀聲明。同時,Manus官方微博和小紅書
文/十界來源/節(jié)點財經一場圍繞算力自主的競賽,正在科創(chuàng)板上演。近日,國產全功能GPU廠商摩爾線程遞交科創(chuàng)板招股書,擬募資約80億人民幣,成為今年上半年科創(chuàng)板擬募資規(guī)模最大的沖刺者,也打響了“國產英偉達”上市的第一槍。據招股書顯示,摩爾線程自2020年成立以來,主營全功能GPU芯片的研發(fā)與銷售,以自主
“AI大模型六小虎”百川智能危機重重。這是前搜狗CEO王小川創(chuàng)辦的AI公司。昨天就爆出新聞,百川智能的聯(lián)合創(chuàng)始人離職,這是王小川入局AI的第一道大坎。接下的成敗非常關鍵:(1)拿下河北(2)學習科大訊飛百川智能離職高端概覽:(1)2025年7月10日,百川智能技術聯(lián)合創(chuàng)始人謝劍將離職。他是百川只能的
百度AI團隊今日正式推出PaddleOCR3.1版本,以突破性的多語言組合識別(MultilingualCompositionPerception,MCP)技術為核心,徹底重構復雜文檔處理邊界。此次升級標志著OCR領域首次實現(xiàn)對同一文檔內任意混合語言文本的精準識別,為全球化企業(yè)、跨境業(yè)務及多元文化場
“宇樹已形成硬件、算法、場景聯(lián)動的業(yè)務飛輪,自研率超95%的技術壁壘讓其成為全球機器人賽道不可忽視的中國力量?!笔壮藤Y本管理合伙人朱方文在追加投資時如是評價。7月7日,據每日經濟新聞從宇樹科技投資方處獲悉,國內人形機器人領軍企業(yè)宇樹科技(UnitreeRobotics)已明確計劃于科創(chuàng)板IPO,預計
推理與多模態(tài)的終極融合,將徹底終結用戶在不同模型間切換的煩惱。7月7日,OpenAI正式確認將在今年夏季推出新一代人工智能模型GPT-5。這一突破性產品將整合現(xiàn)有的多個強大模型,特別是融合專注推理能力的“O系列”與具備多模態(tài)功能的“GPT系列”,為用戶提供前所未有的統(tǒng)一體驗。OpenAI開發(fā)者體驗負