近年來,隨著深度學習和人工智能的突破,以及無人配送車、無人出租車、無人公交車等智能駕駛場景的逐步深入,自動駕駛行業獲得了越來越多的關注和進步。然而,要想真正實現在路上行駛,許多技術問題仍然需要解決。作為車輛路徑規劃的基礎之一,感知系統需要通過“數據訓練”夯實基礎,以監督學習的方式向算法提供數十PB的訓練數據,并通過它生成具有通用感知能力的模型,幫助自動駕駛汽車更好地感知實際道路、車輛位置,障礙物信息等方面,從而達到實時感知途中風險并做出具體行為決策的目的。隨著越來越多的雷達、攝像頭等傳感器部署在車內,各個環節的工作量與日俱增,尤其是高性能自動駕駛汽車對數據存儲有著巨大的需求。一天內生成的數據量可以達到3-8 TB左右。因此,如何高效、穩定地保證自動駕駛過程中收集的大量數據,并快速形成自動駕駛的計算模型,成為各大自動駕駛企業首要關注的問題。
本文中,延融科技將以國內一家專注于L4級自動駕駛技術研究與應用的自動駕駛公司為基礎,分享YRCloudFile在自動駕駛培訓場景中IO模型、容器化部署、性能提升、智能分層等方面的實踐經驗和啟示,圍繞自動駕駛出行和自動駕駛本地貨運兩大場景,希望能為相關從業者解決類似問題提供一些參考和幫助。海量數據,每一分錢都要爭。此前,國內一家L4級自動駕駛公司主要采用開源存儲解決方案,以融合的形式部署GPU計算和存儲。但隨著文件數量的增加,性能明顯下降,原有的存儲方式逐漸開始影響訓練效率。因此,他們開始考慮升級現有的存儲解決方案。在升級過程中,該公司專注于并解決以下問題:·如何在日益海量的數據場景中提高設備性能并加快培訓進度·盡管開源解決方案有能力解決海量文件,但隨著數據量的增加,如何確保產品穩定性,避免難以維護的問題·如何解決在集成存儲和計算架構下無法根據需求獨立擴展的問題·怎樣解決數據收集、清理和培訓過程中產生的冷數據問題。YRCloudFile如何回應?在了解了公司的駕駛培訓場景后,延融科技對其自動駕駛培訓數據集進行了一系列分析,總結出其培訓數據具有以下特點:·數據文件龐大,培訓數據集中的文件數量從數十億到數十億甚至數百億不等·小文件難以管理,大多數文件的大小從幾千字節到幾兆字節不等,有些功能文件的大小只有幾十到幾百字節·讀得多寫得少。將數據寫入存儲器后,將根據訓練要求執行多次讀取。針對上述特點,延融科技提供了一系列高性能、高可用、可擴展的存儲解決方案,從元數據處理能力、目錄熱點、多級智能緩存、定向調優到智能分層。
Yanrong YRCloudFile自動駕駛應用場景的工作流01元數據處理能力是處理海量數據文件的基石。在面對海量文件時,由于MDS無法及時響應讀寫請求,很容易遇到無法充分利用預期性能的情況。如果你想突破存儲瓶頸,主要的解決方案是提高元數據的處理能力。為此,延融科技選擇通過橫向可擴展的MDS架構來實現MDS集群。這主要是c……
從以下三個方面考慮:第一,MDS集群有利于緩解CPU和降低內存壓力。第二,多個MDS有利于企業存儲更多樣化的數據信息。第三,在擴展元數據處理能力水平的同時,提高對海量文件的并發訪問性能。目前,Yanrong YRCloudFile主要采用靜態子樹和目錄哈希相結合的方式來構建水平可擴展的MDS架構,主要包括三個主要元素:·在MDS節點固定根目錄·每個級別的目錄都將基于條目名稱進行哈希,并且將再次選擇MDS以確保水平擴展的能力。在目錄中文件的元數據存儲過程中,不再進行哈希,而是在與父目錄相同的節點上進行哈希,以確保一定程度的元數據本地化。這種體系結構方法有兩個好處。首先,它實現了元數據的分布式存儲,通過擴展元數據節點,可以支持數百億的文件數;其次,在一定程度上保證了元數據的檢索性能,減少了對元數據檢索和多節點操作的需要。02目錄熱點,解決熱點帶來的問題的關鍵是大數據集群中無數的目錄和文件數據。因此,在自動駕駛汽車的訓練過程中,如果多個計算節點需要同時讀取這批文件,那么它所在的MDS節點就會成為熱點。整體結構如下圖所示:
為了進一步完善小文件的過濾和治理流程,延融科技采用了添加虛擬子目錄的方式。盡管這種方法增加了一層目錄查詢操作,但它具有很強的靈活性,可以將熱點分配給集群中的所有元數據節點。同時,這種解決方案還可以解決另一個問題——單個目錄中的文件數量問題,使單個目錄能夠支持大約20億個文件,并根據虛擬子目錄的數量靈活調整。整體結構如下圖所示:
我們可以嘗試通過訪問/dir1/dir2/file1來了解虛擬子目錄是如何實現的。在這里,我們假設dir2已經啟用了dirStripe功能。主要訪問過程如下:獲取MDS1上根目錄的inode信息,檢查dirStripe是否未啟用以獲取MDS1中dir1的dentry信息,查找已獲取mds2中dir1 inode信息的所有者(mds2),檢查是否未啟用dirStripe以獲取mds2上dir2的dentry信息,找到在mds3上獲取了dir2的inode信息的所有者(mds3),根據file1的文件名檢查是否啟用了dirStripe,Hash到虛擬目錄2,獲取mds3上虛擬目錄2的dentry信息。找到所有者(mds4),獲取mds4上file1的inode信息,并將其返回給客戶端。在整個模擬測試過程中,我們模擬了多個客戶端同時訪問同一目錄。完成后,我們通過比較發現,目錄拆分的性能提高了10倍以上。03多級智能緩存,提高整體性能的最佳實踐。由于自動駕駛訓練數據類型眾多,無法估計為不同數據信息存儲的數據量。因此,普通的文件緩存往往只提供內存緩存,導致容量有限。通常,GPU服務器只有幾十GB的可用內存緩存;
同時,它還容易出現內存緩存LRU替換算法和每個歷元中歷元緩存命中率低的問題。為了解決上述問題,Yanrong YRCloudFile客戶端采用了多級智能緩存功能,可以提高整體性能:·在客戶端緩存過程中,它由內存緩存和GPU服務器本地SSD緩存組成·可以指定緩存大小和位置·訓練程序首先從客戶端內存緩存加載,如果未命中,它是從客戶端服務器SSD加載的。如果未命中,則最終從文件系統集群加載。對培訓框架和應用程序完全透明。
通過Yanrong YRCloudFile提供的解決方案,YRCloudFile客戶端多級智能緩存工作圖可以在整個訓練過程中使數據集加載速度提高5倍。04有針對性的調整和優化解決方案,以提高存儲性能。大多數存儲制造商在產品規劃、產品穩定性、技術服務等方面更加專業。在現場POC測試過程中,Yanrong YRCloudFile進行了測試,包括但不限于功能、性能、可靠性和其他方面。我們發現集群的性能已經超過了原始存儲系統的性能,但還沒有達到預期值。因此,我們可以通過對現場環境的分析,提出以下優化措施:1。增加節點上的sock數量以獲得更大數量的連接;2.調整線程工作者的數量,使其與訪問次數相匹配;3.調整收聽線程的數量;
4.調整輪詢策略,以平衡響應速度和CPU資源。經過測試,YRCloudFile可以通過有針對性的調整,將上述存儲參數的調整性能提高20%-30%。05智能分層,數據流的最佳決策。了解數據存儲的朋友都知道,訪問頻繁的數據是熱數據,訪問較少的數據是冷數據。然而,一旦冷數據過多,不僅會占用大量存儲空間,還會增加存儲成本。為了解決這些問題,Yanrong YRCloudFile專門在文件存儲系統的目錄級別提供了智能分層功能。通過將高性能文件存儲與低成本對象存儲相結合,有效實現了人工智能等新興業務對熱點數據的持續使用,提供高性能訪問。同時,冷數據可以有效地保存在用戶現有的低成本對象存儲中。目前,Yanrong YRCloudFile智能分層技術可以支持以下功能:·根據不同的目錄,可以定義不同的冷熱數據和數據流策略·冷數據自動流到低成本的對象存儲·提供標準的POSIX接口,使冷熱數據層之間的數據流對業務完全透明。通過對冷熱數據進行智能分層,我們旨在滿足絕大多數企業在自動駕駛培訓期間對高性能存儲和長期數據保存的需求。此外,對于絕大多數客戶應用場景來說,數據具有周期性熱訪問的特點:經過一定時間后,80%以上的數據逐漸變冷,不需要使用高性能的存儲資源和介質來存儲這些冷數據。針對分階段熱訪問數據的特點,Yanrong YRCloudFile文件存儲系統提供的智能分層功能可以根據客戶需求定義熱數據和冷數據。冷數據自動流向對象存儲,并且仍然為企業提供標準的POSIX文件訪問接口。熱數據層和冷數據層之間的數據流對企業來說是完全透明的。
總體而言,Yanrong YRCloudFile的智能分層技術具有以下特點:·冷數據的性能不降低,并采用本地讀寫模式來確保冷數據的讀寫性能·根據冷數據的最后訪問時間靈活定義分層策略。支持為不同的目錄定義多個不同的執行周期,以及按天、小時或分鐘定義數據刷新操作的最后訪問時間。支持本地和云環境,支持本地對象存儲和公共云對象存儲,并為不同目錄定義不同的對象存儲。同時,在多云混合環境中,不同目錄的數據可以實時下載到不同的公共云對象存儲中。分層鏡像雙重活動支持數據實時向下刷新到本地和公共云對象存儲器,確保數據安全和業務連續性。讀取數據時,默認優先級是讀取本地對象存儲,以確保讀寫性能。如果出現本地故障,請再次讀取公共云上的文件。目前存儲了用于自動駕駛場景的YRCloudFile無縫集成容器。為了提高自動駕駛訓練和測試的效率,大多數制造商和人工智能應用程序都選擇在Kubernetes平臺上以容器為應用程序運行載體運行人工智能訓練和推理任務。Kubernetes在人工智能訓練方面有兩個主要優勢:首先,Kubernets支持GPU調度,這可以減少協調GPU資源所需的人力。同時,可以實現GPU資源的自動回收,實現資源的有效分配。其次,Kubernetes支持多種負載調度方式,適應不同的業務場景,作業與培訓任務的兼容性非常高。
在自動駕駛培訓過程中,存儲系統在與容器場景對接時經常會遇到以下問題:·使用樹內型存儲代碼,如CephFS、GlusterFS、NFS等,導致Kubernetes與存儲供應商代碼之間的緊密耦合。·更改樹內型存儲代碼需要用戶更新Kubernete組件,這是昂貴的。樹內存儲代碼中的錯誤會導致Kubernetes組件的不穩定。樹內存儲器插件享有相同的特權……
作為Kubernetes的核心組件,這會帶來安全風險;僅支持一些功能,如訪問模式、PV管理和故障。Yanrong YRCloudFile從設計到實現的主要場景是解決Kubernetes環境中基于容器的應用程序的存儲訪問需求。Yanrong YRCloudFile通過支持CSI和FlexVolume等插件支持AI場景容器持久化存儲,并根據客戶實踐和應用優化容器場景的功能:·在大規模光伏場景中,快速定位光伏熱點,支持RWO、RWX等多種讀寫模式。實現光伏CSI的智能調度。依托光伏快速跨節點重構Pod。呈現Pod、PV和PVC的實時監控和關聯關系。YRCloudFile滲透自動駕駛存儲增長的整個鏈條
YRCloudFile的高性能分布式文件存儲體系結構圖是基于YRCloudFile的集成。這家L4級自動駕駛公司突破了存儲性能瓶頸,完美整合了容器服務,完成了數據跟車服務。此外,通過快速定位光伏熱點,該公司實現了Pod、PV和PVC的實時監控和關聯等創新管理功能,提高了集裝箱管理效率。目前,借助Yanrong YRCloudFile高性能、高可用、易于擴展的分布式存儲支持平臺,L4級自動駕駛公司可以輕松應對海量小文件性能和容量的挑戰。同時,它滿足了未來的擴張需求。未來,公司員工將大大減少在存儲系統管理、配置和故障排除方面的時間,并將更多精力投入到業務培訓中。
2021年12月2日,賽力斯在重慶兩江智慧工廠發布高端智慧汽車品牌AITO。
1900/1/1 0:00:0012月8日,威馬將正式向W6用戶推送livingmate33版本升級軟件。延續實用、靈敏、好玩的產品特性,本次OTA從智能駕駛和人車交互兩大層面進行了體驗提升。
1900/1/1 0:00:002019年起,一汽大眾邁騰GTE和探岳GTE的先后上市構建起GTE家族產品矩陣。
1900/1/1 0:00:00近日鄭州正式發布了“關于市區道路交通管理措施的通告”。
1900/1/1 0:00:002021年12月1日,由華晨寶馬主辦的可持續發展之旅成果展示活動在華晨寶馬大東工廠盛大開幕,同時作為提升華晨寶馬可再生能源供給能力的太陽能光伏系統在大東工廠正式啟用。
1900/1/1 0:00:00唐人聯盟資訊唐人聯盟唐天勝報道即將過去的2021年國內新能源汽車市場已進入“下半場”爭奪競爭日趨白熱化。唐人聯盟唐天勝指出造車新勢力熱度不減。特斯拉市值破萬億中國市場銷量一枝獨秀。
1900/1/1 0:00:00