文 | 曾響鈴
來源 | 科技向令說(xiangling0815)
用文字描述“一個女人打著紅色的雨傘在路上走”,系統(tǒng)呈現(xiàn)出一張唯美的街拍;
有一張飛機起飛的照片,想配上一段適合的聲音,上傳圖片后,一段發(fā)動機呼嘯聲的音頻播放出來;
把淅淅瀝瀝的下雨聲導入進去,江南水鄉(xiāng)老宅的氤氳雨景圖展現(xiàn)在了眼前……
這些,是已經(jīng)實現(xiàn)了的多模態(tài)AI應用,橫貫文字、圖像、語音,在初級應用功能上就已經(jīng)展現(xiàn)出相比單模態(tài)更智能、更自然、更多樣化的魅力,其前景被普遍關注,只不過很長一段時間以來,多模態(tài)的發(fā)展速度一直不算快。
現(xiàn)在,事情正在發(fā)生變化。
在華為全聯(lián)接2021期間,中國科學技術信息研究所、AITISA(新一代人工智能產(chǎn)業(yè)技術創(chuàng)新戰(zhàn)略聯(lián)盟)和鵬城實驗室聯(lián)合了發(fā)布《人工智能計算中心發(fā)展白皮書2.0——從人工智能計算中心走向人工智能算力網(wǎng)絡》,其中明確提到了以“大算力+大數(shù)據(jù)”使能大模型(多模態(tài)多樣化的能力一般都由大模型才能更好的實現(xiàn),或者說多模態(tài)的形式表現(xiàn)為大模型)。會上,中國科學院自動化研究所發(fā)布了全球首個三模態(tài)大模型紫東.太初,這無疑讓多模態(tài)的發(fā)展進入了一個全新的落地階段。
多模態(tài)大模型,正在與人工智能算力網(wǎng)絡互相促進,成為彼此的最佳伴行者。
多重因素下,多模態(tài)大模型已成大勢所趨
隨著AI的技術和產(chǎn)業(yè)發(fā)展逐步走向深入,多模態(tài)大模型的趨勢十分明朗,這主要表現(xiàn)在三個方面:
首先,是AI自身的能力進化要求。
在單模態(tài)領域,例如歸屬NLP的跨語種翻譯這類應用,機器可以說早已超越人類,實現(xiàn)了重要的技術和產(chǎn)業(yè)價值,如果要進一步往前走,多模態(tài)自然而然就成為AI技術和產(chǎn)業(yè)突圍的新方向。與此同時,單模態(tài)本身也面臨“知識冰山”的瓶頸問題,進一步智能化也需要大模型來支撐,例如對“老王去吃食堂”的理解,單純的文字數(shù)據(jù)很難讓AI辨別“吃食堂”不是把食堂吃掉而是“到食堂吃飯”,但一張場景圖片或視頻就可以很容易解釋清楚并關聯(lián)起來。
然后,是“數(shù)據(jù)”供給的要求。
數(shù)據(jù)是AI發(fā)展的根本、是AI的“食物”,在全球范圍內(nèi),包括中國市場上,互聯(lián)網(wǎng)的出現(xiàn)幫助AI模型訓練的數(shù)據(jù)量越來越龐大,它們讓AI得到了快速的能量補充。
然而,目前互聯(lián)網(wǎng)音視頻數(shù)據(jù)高速增長,占比超過80%,單一數(shù)據(jù)類型例如文本只占不多的比例,這使得更豐富的語音、圖像、視頻等數(shù)據(jù)并未被充分利用與學習,以多模態(tài)的方式將更深度、更廣泛地挖掘這些數(shù)據(jù)的價值,反過來,大量的各種屬性的數(shù)據(jù)投喂也將推動AI擺脫單模態(tài),朝著多模態(tài)大模型不斷前進。
最后,是產(chǎn)業(yè)需求的倒逼。
隨著AI逐步落地,產(chǎn)業(yè)需求也在往深處走,更多場景應用需要多模態(tài)大模型來支撐,例如,跨模態(tài)檢索、智能問答、文學藝術創(chuàng)作、視頻配音、視頻摘要等等。
可以說,越是在技術層面將圖像、文字、語音相互融合,一個應用在場景中表現(xiàn)的價值就越為明顯,也更能讓AI的場景應用真正告別常常被詬病的“雞肋”感。
算力、框架、技術積累三位一體,多模態(tài)大模型加速落地
為什么紫東.太初這樣的多模態(tài)大模型得以實現(xiàn),原因主要有三大方面,缺一不可:
1、人工智能算力網(wǎng)絡成為多模態(tài)、大模型的重要推進因素
多模態(tài)大模型的一個重要特征,是訓練的參數(shù)規(guī)模呈現(xiàn)指數(shù)級的上升。
以往的單模態(tài),單一類型的數(shù)據(jù)“喂養(yǎng)”幫助AI模型獲取知識、迭代能力,相對而言模型本身并不需要太多的參數(shù),就如同小學生不斷學習加減乘除一樣只要理解基本的數(shù)學規(guī)則一樣。
而當不同模態(tài)加入后,一個可以識別圖像、文字、語音的通用算法,不僅需要理解單模態(tài)的各種數(shù)據(jù),還需要理解不同數(shù)據(jù)之間極端復雜的聯(lián)系,模型的參數(shù)發(fā)生膨脹,這就如同專業(yè)的大學理工科學習需要綜合各種學科知識進行復雜地算一樣。
這時候,很顯然,算力就成為最基本的支撐,只有超大規(guī)模的算力才能支撐大模型的訓練,才能讓多模態(tài)應用有更好的效果。
所以,在提供強大集群化算力的各地人工智能計算中心基礎上,人工智能算力網(wǎng)絡的出現(xiàn),進一步解決了多模態(tài)大模型的算力需求問題,成為重要的推進因素。
事實上,由于大模型的運算很多時候還有波峰波谷的問題(即計算時算力耗費巨大,而不計算時則算力閑置),而人工智能算力網(wǎng)絡又能在全國范圍內(nèi)感知、分配、調(diào)度人工智能算力,根據(jù)各中心算力資源的情況和各地區(qū)的需求情況進行算力動態(tài)調(diào)配,雙方的供需關系除了“量”之外在“節(jié)奏”上也十分契合。
反過來看,多模態(tài)大模型的技術發(fā)展以及在產(chǎn)業(yè)中的應用,也將推動本身作為各地產(chǎn)業(yè)集群推進力量的人工智能算力網(wǎng)絡更好地發(fā)展,“物盡其用”同時技術不斷進步,可見二者是相互促進的關系。
2、昇思MindSpore特性推動開發(fā)加速
由于模型參數(shù)十分龐大,光有算力支撐還不行,多模態(tài)大模型開發(fā)所依托的AI框架也需要有承載和利用算力、支持龐大參數(shù)的能力,而這方面,過去國內(nèi)外已有的一些主流開發(fā)框架都只支持簡單的數(shù)據(jù)并行,滿足不了大模型的需要。
本次在華為全聯(lián)接2021上發(fā)布的多模態(tài)大模型紫東.太初,就基于昇思框架訓練的,這是業(yè)界首個支持全自動并行的框架,全球首個中文預訓練大模型鵬程.盤古就出自其手。
昇思框架與多模態(tài)大模型相契合的主要技術優(yōu)勢在于,可以在訓練過程中自動將模型切分到不同的設備,并高效地利用龐大的計算設備集群來完成并行訓練,相當于建立了一套行之有效的中樞指揮系統(tǒng),將計算任務以同時進行的方式分配下去,再大的訓練任務也能有條不紊實現(xiàn)加速,而不是堵塞起來。
其實現(xiàn)過程,是通過多維度自動并行這一獨特能力來實現(xiàn)的——通過數(shù)據(jù)并行、模型并行、Pipeline并行、異構并行、重復計算、高效內(nèi)存復用及拓撲感知調(diào)度,降低通信時間的占用,實現(xiàn)整體迭代時間最小,簡單來說就是通過一系列技術創(chuàng)新來讓并行更有規(guī)模和效率,無需像其他AI框架一樣半自動甚至是手動來完成大模型的并行執(zhí)行開發(fā)。
在最新的1.5版本更新中,昇思框架還增加了多種并行調(diào)優(yōu),支持在大集群下高效訓練千億至萬億參數(shù)模型。
3、已有多模態(tài)大模型相關經(jīng)驗基礎
多模態(tài)能力一定建立在單模態(tài)能力的基礎之上,這是毫無疑問的。此次紫東.太初的開發(fā)者即中國科學院自動化研究所,是昇騰AI的重要生態(tài)伙伴,在發(fā)布紫東.太初之前,中科院自動化研究所就已經(jīng)在圖像、語音、文本三個方面自研了業(yè)界領先的模型:
在此基礎上,中科院自動化研究所與昇騰AI攜手,還實現(xiàn)了一些“前期準備”能力的構建,包括圖文跨模態(tài)理解與生成性能、視頻理解與描述性能的全球領先,這些都成為紫東.太初的重要支撐:
最終可以看到,全球首個三模態(tài)大模型紫東.太初應運而生,讓多模態(tài)從常見的兩個模態(tài)一躍邁入了三模態(tài)時代,不僅可以實現(xiàn)跨模態(tài)理解(比如圖像識別、語音識別等任務),也能完成跨模態(tài)生成(比如從文本生成圖像、從圖像生成文本、語音生成圖像和視頻等任務)。
看起來,兩個模態(tài)與三個模態(tài)似乎只有數(shù)量的差別,但從技術上,其實現(xiàn)難度或與二維世界到三維世界的跨越類似,需要大量的技術積累與創(chuàng)新。而一旦三模態(tài)得以實現(xiàn),相比較兩模態(tài),AI的交互會變得更加自然,能夠離強人工智能更近一步。
結(jié)語
多模態(tài)大模型正在加速賦能產(chǎn)業(yè),在開源開放的大前提下,昇騰AI加持的紫東.太初正在走入智能駕駛、工業(yè)質(zhì)檢、影視創(chuàng)作、智慧醫(yī)療等應用場景,合作客戶包括上汽集團、魏橋創(chuàng)業(yè)等知名企業(yè),一幅多模態(tài)大模型賦能千行百業(yè)的圖景正在展開。
從多模態(tài)大模型的發(fā)展可以看出,未來,隨著人工智能算力網(wǎng)絡、昇思框架這樣的基礎軟硬件突破性項目的發(fā)展,中國的AI將實現(xiàn)從基礎技術到產(chǎn)業(yè)應用的全面領先,憑借技術和模式創(chuàng)新?lián)碛姓嬲母偁幈趬尽?/p>
*本文圖片均來源于網(wǎng)絡
*此內(nèi)容為【科技向令說】原創(chuàng),未經(jīng)授權,任何人不得以任何方式使用,包括轉(zhuǎn)載、摘編、復制或建立鏡像。
【完】
曾響鈴
1鈦媒體、品途、人人都是產(chǎn)品經(jīng)理等多家創(chuàng)投、科技網(wǎng)站年度十大作者;
2虎嘯獎評委;
3作家:【移動互聯(lián)網(wǎng)+ 新常態(tài)下的商業(yè)機會】等暢銷書作者;
4《中國經(jīng)營報》《商界》《商界評論》《銷售與市場》等近十家報刊、雜志特約評論員;
5鈦媒體、36kr、虎嗅、界面、澎湃新聞等近80家專欄作者;
6“腦藝人”(腦力手藝人)概念提出者,現(xiàn)演變?yōu)?ldquo;自媒體”,成為一個行業(yè);
7騰訊全媒派榮譽導師、多家科技智能公司傳播顧問。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!
2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據(jù)悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯(lián)手26家行業(yè)領軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯(lián)網(wǎng)大廠、運營商、科研院所等優(yōu)秀團隊
這幾個月來,以ChatGPT為代表的生成式AI展現(xiàn)出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經(jīng)沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓練模型來實現(xiàn)圖像識別、聲音識別、語言處理等特
文:互聯(lián)網(wǎng)江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發(fā)者大會上,發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0,希望通過一個平臺+四大開發(fā)服務,建立起IoT生態(tài)。對于這場發(fā)布會,市場的態(tài)度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩(wěn)定
美團曾經(jīng)的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外,以20億賣給美團,再度引發(fā)市場對大模型的熱議。
2020年底,王慧文在朋友圈寫下這句話時,外界本以為這位伴隨中國互聯(lián)網(wǎng)發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是,一個曾經(jīng)多次創(chuàng)業(yè),正值壯年的互聯(lián)網(wǎng)老將心中的創(chuàng)業(yè)熱情是難以熄滅的。
Manus撕開一道真相
文/八真來源/節(jié)點財經(jīng)具身智能賽道,誰最有可能拔得A股資本市場的頭籌?答案大概率是誕生剛剛兩年,由華為"天才少年"、B站百萬粉絲科技UP主稚暉君(彭志輝)創(chuàng)立的智元機器人。近期,從事新材料研發(fā)與生產(chǎn)的上緯新材(688585.SH)丟出重磅炸彈,宣布智元機器人及相關主體將通過收購其至少63.62%的股
文/道哥大舉裁員、清空賬號、國內(nèi)IP無法訪問——曾被譽為“中國AIAgent希望之星”的Manus,在估值飆至5億美元的高光時刻“閃離”中國市場。近日,Manus“裁員、出走”的消息在媒體端大量發(fā)酵。消息稱,Manus公司總部將由中國遷至新加坡,其國內(nèi)團隊也將大幅裁撤——原有120人規(guī)模團隊除40余
四個月前邀請碼炒至10萬元,如今官網(wǎng)變灰、社交賬號清空,這家AI新貴的閃電遷移折射中國科技企業(yè)出海潮涌。7月11日,打開Manus官網(wǎng)的用戶發(fā)現(xiàn)一則突兀提示:“Manus在你所在的地區(qū)不可用”。而就在不久前,這個位置還顯示著“Manus中文版本正在開發(fā)中”的樂觀聲明。同時,Manus官方微博和小紅書
文/十界來源/節(jié)點財經(jīng)一場圍繞算力自主的競賽,正在科創(chuàng)板上演。近日,國產(chǎn)全功能GPU廠商摩爾線程遞交科創(chuàng)板招股書,擬募資約80億人民幣,成為今年上半年科創(chuàng)板擬募資規(guī)模最大的沖刺者,也打響了“國產(chǎn)英偉達”上市的第一槍。據(jù)招股書顯示,摩爾線程自2020年成立以來,主營全功能GPU芯片的研發(fā)與銷售,以自主
“AI大模型六小虎”百川智能危機重重。這是前搜狗CEO王小川創(chuàng)辦的AI公司。昨天就爆出新聞,百川智能的聯(lián)合創(chuàng)始人離職,這是王小川入局AI的第一道大坎。接下的成敗非常關鍵:(1)拿下河北(2)學習科大訊飛百川智能離職高端概覽:(1)2025年7月10日,百川智能技術聯(lián)合創(chuàng)始人謝劍將離職。他是百川只能的
百度AI團隊今日正式推出PaddleOCR3.1版本,以突破性的多語言組合識別(MultilingualCompositionPerception,MCP)技術為核心,徹底重構復雜文檔處理邊界。此次升級標志著OCR領域首次實現(xiàn)對同一文檔內(nèi)任意混合語言文本的精準識別,為全球化企業(yè)、跨境業(yè)務及多元文化場
“宇樹已形成硬件、算法、場景聯(lián)動的業(yè)務飛輪,自研率超95%的技術壁壘讓其成為全球機器人賽道不可忽視的中國力量?!笔壮藤Y本管理合伙人朱方文在追加投資時如是評價。7月7日,據(jù)每日經(jīng)濟新聞從宇樹科技投資方處獲悉,國內(nèi)人形機器人領軍企業(yè)宇樹科技(UnitreeRobotics)已明確計劃于科創(chuàng)板IPO,預計
推理與多模態(tài)的終極融合,將徹底終結(jié)用戶在不同模型間切換的煩惱。7月7日,OpenAI正式確認將在今年夏季推出新一代人工智能模型GPT-5。這一突破性產(chǎn)品將整合現(xiàn)有的多個強大模型,特別是融合專注推理能力的“O系列”與具備多模態(tài)功能的“GPT系列”,為用戶提供前所未有的統(tǒng)一體驗。OpenAI開發(fā)者體驗負