在人工智能驅(qū)動的數(shù)字時代,海量數(shù)據(jù)的高效存儲與快速調(diào)用成為AI應(yīng)用的核心支柱。從智能推薦系統(tǒng)的實時數(shù)據(jù)處理,到深度學(xué)習(xí)模型的參數(shù)訓(xùn)練,固態(tài)硬盤(SSD)以其卓越的讀寫速度與穩(wěn)定性,正成為AI基礎(chǔ)設(shè)施的關(guān)鍵組件。然而,鮮為人知的是,在微觀世界中,中子輻射引發(fā)的比特翻轉(zhuǎn)問題,正悄然威脅著AI的數(shù)據(jù)安全與系統(tǒng)穩(wěn)定性。
1.測試背景與環(huán)境
1.1測試背景
中子,作為一種不帶電的亞原子粒子,廣泛存在于宇宙射線、高海拔地區(qū)、核電站周邊等環(huán)境中。當(dāng)這些微小的粒子穿透SSD的存儲單元時,可能會導(dǎo)致存儲芯片中的比特值發(fā)生意外翻轉(zhuǎn),使得原本存儲的“0”變成“1”,“1”變成“0”。這種看似微不足道的變化,在AI應(yīng)用的海量數(shù)據(jù)處理場景下,可能引發(fā)數(shù)據(jù)錯誤、模型訓(xùn)練偏差,甚至系統(tǒng)崩潰,嚴(yán)重影響AI應(yīng)用的可靠性與效率。
憶聯(lián)作為國內(nèi)唯一高分通過中子輻照測試的SSD廠商,聯(lián)合國內(nèi)知名機構(gòu)中國散裂中子源在遠超地表中子輻射量的模擬環(huán)境下,實測PCIe Gen5 ESSD UH812a的高可靠性,以期為AI時代提供更安全高效的存儲解決方案。
1.2驗證平臺
中國散裂中子源是國際前沿的高科技多學(xué)科應(yīng)用的大型研究平臺,依托中國散裂中子源建成的大氣中子輻照譜儀是國內(nèi)首臺、國際先進的大氣中子地面模擬加速測試平臺,可為航空、電力電子、智能駕駛、高性能存儲與計算等領(lǐng)域的高可靠性的電子元器件及系統(tǒng)提供大氣中子單粒子效應(yīng)風(fēng)險評估和測試服務(wù)。
1.3測試產(chǎn)品
本次試驗選取憶聯(lián)PCIe Gen5 ESSD UH812a及國際友商A、國內(nèi)友商B的同代際產(chǎn)品進行測試,所有SSD均在相同的中子注量率下持續(xù)輻照,直至盤片全部失效。
1.4測試環(huán)境
本次測試使用的中子注量率為9.6*104n/ (cm2·s) (En≥1MeV)。在國內(nèi)地面條件下,阿里地區(qū)作為中子量最多的地區(qū)之一,其中子注量率僅為5.09*102n (cm2 ·h) (En≥1MeV)。由此可見,在模擬宇宙射線峰值環(huán)境(中子注量率達阿里地面條件的68萬倍)的極限測試中,憶聯(lián)UH812a SSD仍能保持優(yōu)秀的穩(wěn)定性和可靠性,可護航千卡GPU集群完成百億參數(shù)大模型訓(xùn)練,開創(chuàng)存儲設(shè)備抗輻射性能新高度。
圖1:中子試驗環(huán)境實拍
2.測試關(guān)鍵結(jié)果
2.1在嚴(yán)苛模擬工作負載環(huán)境下,憶聯(lián)UH812a SSD正常運行時長遠超友商
圖2:憶聯(lián)與友商同類產(chǎn)品實測對比
基準(zhǔn)值232s是在高中子環(huán)境下SSD的使用壽命,等于在常規(guī)環(huán)境下SSD的5年使用壽命。在高中子環(huán)境下,SSD實際運行時間(實測值)比基準(zhǔn)值越長,則說明其可靠性及數(shù)據(jù)保護能力越強。在本次測試中,憶聯(lián)UH812a實際運行時間為416秒,比國內(nèi)友商B的同類產(chǎn)品運行時間長約60%,比國際友商A的同類產(chǎn)品運行時間長約400%。在模擬環(huán)境的中子注量率下,為達到5年使用壽命,SSD正常運行時間需達到232秒,而憶聯(lián)UH812a平均運行時長高出5年使用壽命等效時長79%,可明顯滿足用戶在高中子環(huán)境下對SSD耐用性和可靠性的使用需求。
2.2在高中子注量環(huán)境下,憶聯(lián)UH812a SSD平均每小時故障率遠低于上一代產(chǎn)品
平均每小時故障率指SSD在單位時間(每小時)內(nèi)發(fā)生故障的概率,反映了SSD在運行過程中出現(xiàn)故障的頻率,該指標(biāo)越低則說明SSD的可靠性越高。
圖3:UH812a與上一代產(chǎn)品及友商平均每小時故障率對比
在高中子注量率的測試環(huán)境下,通過實測UH812a與上一代產(chǎn)品的故障率,可明顯發(fā)現(xiàn)UH812a的故障率不僅低于上一代產(chǎn)品,同時也遠低于友商同代際產(chǎn)品。UH812a的單個硬盤平均每小時故障率為3.22E-06,上一代際產(chǎn)品單個硬盤平均每小時故障率為4.18E-06,而友商Gen5代際產(chǎn)品平均每小時故障概率為6.95E-06。這說明在正常使用情況下,不管是跟友商對比,還是跟上一代產(chǎn)品對比,UH812a出現(xiàn)故障的可能性更小,更能夠為用戶提供更穩(wěn)定、持久的存儲服務(wù),有效保障數(shù)據(jù)的安全和業(yè)務(wù)的連續(xù)性。
3.憶聯(lián)UH812a SSD采用多重數(shù)據(jù)保護技術(shù),為AI應(yīng)用的數(shù)據(jù)安全保駕護航
憶聯(lián)UH812a除具備優(yōu)秀的硬件配置外,還采用了增強的LDPC糾錯算法、智能錯誤檢測與糾正(ECC)模式及不可糾正錯誤(UNC)保護模式,為用戶牢筑AI數(shù)據(jù)安全防線。
? LDPC糾錯算法:可提供比Flash顆粒要求更高的糾錯能力,能夠精準(zhǔn)識別并修正數(shù)據(jù)傳輸與存儲過程中出現(xiàn)的各類錯誤,實現(xiàn)小于1E-18的UBER(不可修復(fù)錯誤比特率)。
? ECC模式:能夠?qū)崟r監(jiān)測存儲數(shù)據(jù)狀態(tài),快速定位并糾正因中子輻射引發(fā)的比特翻轉(zhuǎn)錯誤,有效保障數(shù)據(jù)讀寫的準(zhǔn)確性。
? UNC保護模式:憑借智能錯誤識別與快速隔離技術(shù),在面對不可糾正錯誤時,通過隔離錯誤區(qū)域防止數(shù)據(jù)進一步損壞和丟失,全方位保障系統(tǒng)穩(wěn)定運行與業(yè)務(wù)連續(xù)性。
圖4:憶聯(lián)UH812a亮點介紹
UH812a作為憶聯(lián)強勢推出的重量級PCIe Gen5 ESSD之一,其采用的多重數(shù)據(jù)保護技術(shù),在面對中子輻射的威脅時,可最大限度降低數(shù)據(jù)丟失風(fēng)險,以全場景、全周期的數(shù)據(jù)防護策略,為大模型訓(xùn)練、智能決策等AI業(yè)務(wù)構(gòu)筑堅不可摧的存儲安全屏障。
4.中子輻射環(huán)境下的數(shù)據(jù)保障方案,筑牢安全與效率雙保險,有效降低用戶TCO
受政策、自然環(huán)境等因素的影響,數(shù)據(jù)中心紛紛落戶高海拔地區(qū)。數(shù)據(jù)中心作為AI發(fā)展的基礎(chǔ)支撐,不僅可以提供海量存儲空間,也為AI模型訓(xùn)練和推理提供強大計算力,加速模型訓(xùn)練過程。在高海拔環(huán)境下,數(shù)據(jù)中心及AI應(yīng)用極有可能受到中子影響,導(dǎo)致數(shù)據(jù)錯誤,引發(fā)模型訓(xùn)練偏差、分析結(jié)果失真等,造成人力、物力與時間成本的浪費,增加運營成本。
對于用戶而言,在高海拔的數(shù)據(jù)中心采用通過大氣中子測試的ESSD意味著為數(shù)據(jù)安全與業(yè)務(wù)效率雙重賦能。憶聯(lián)UH812a憑借出色的數(shù)據(jù)保護能力,能夠有效降低SSD失效率,確保企業(yè)的智能決策系統(tǒng)、智能客服等AI應(yīng)用穩(wěn)定運行,保障數(shù)據(jù)的真實性與完整性,減少運維成本及人力,有效降低用戶TCO。
在AI驅(qū)動的智能時代,選擇經(jīng)過嚴(yán)苛大氣中子測試的憶聯(lián)UH8系列SSD,就是選擇更穩(wěn)定的系統(tǒng)運行、更精準(zhǔn)的數(shù)據(jù)分析、更高效的業(yè)務(wù)推進與更低的運維成本,為企業(yè)數(shù)字化轉(zhuǎn)型與技術(shù)創(chuàng)新筑牢可靠根基。
未來,憶聯(lián)將繼續(xù)深耕AI存儲技術(shù)領(lǐng)域,持續(xù)創(chuàng)新,不斷優(yōu)化產(chǎn)品性能,為AI時代的數(shù)據(jù)存儲需求提供更安全、更高效、更可靠的解決方案,與客戶攜手共筑智能時代的數(shù)據(jù)基石。
注:本文的所有測試數(shù)據(jù)均基于中國散裂中子源大氣中子輻照譜儀輻射環(huán)境下的實測數(shù)據(jù),測試對象包含憶聯(lián)SSD及主要國內(nèi)外友商的同代際產(chǎn)品,相關(guān)數(shù)據(jù)僅供參考。
申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!