如今,無論是中國,還是美國,物流市場的規模都已達萬億級別,而且,市場規模都還在不斷擴大。毫無疑問,這是一個擁有無限潛力的市場。
然而,這一市場正在面臨尷尬的局面——巨大的就業缺口、高昂的運營成本、頻發的駕駛安全事故,這些都成為當代物流行業亟待解決的痛點。
近日,雷鋒網邀請了智加科技高級主任科學家崔迪瀟來進行業內分享。以下為崔迪瀟演講內容,雷鋒網進行了不改變原意的整理:
大家晚上好,我是來自智加科技的崔迪瀟。
我今天分享的主題是打磨安全的干線物流自動駕駛,會分享智加過去在干線物流自動駕駛領域的實踐,以及智加對技術落地的思考和推演。
主要的內容分為四個版塊:
• 當前干線物流的現狀和自動駕駛的機遇;
• 自動駕駛落地應用的 5 個階段;
• 干線物流自動駕駛的關鍵技術和挑戰;
• L2+ 到 L4 級所面臨的數據閉環問題。
一、當前干線物流的現狀和自動駕駛的機遇
物流在國家經濟的組成部分中占重要位置,尤其在中美兩地,物流市場已形成萬億規模,公路運輸長期占據國內整體貨運量的 75% 左右。
然而,這一巨大市場面臨著嚴峻的結構性人力供給短缺問題,主要表現為勞動力流失率高和未來勞動力補給不足——如今有超過半數的卡車司機計劃未來不再做司機,而 96% 的卡車司機不希望自己的下一代成為司機。
此外,重卡的運營成本也很高,從燃油、司機、保險、車輛折舊等方面進行統計分析,在美國,人力和油耗占運營成本的 70%,在中國,這一比例也超過 50%。同時,長途運輸中的駕駛安全問題也備受關注。
基于上述現狀,利用自動駕駛技術來填補勞動力缺口、優化成本、提高重卡行駛過程中的安全性,已成為大勢所趨。這也使得干線物流成為能夠最早實現自動駕駛商業落地的場景之一。
經過幾年的發展,產業界和學術界已經基本達成共識:隨著自動駕駛技術的應用,重卡運營成本可以降低26%,事故率可降低 80%。
基于中美兩地市場的現狀,以及對自動駕駛技術光明前景的判斷,智加科技從成立起便以落地應用為主導,以構建生態為核心,定位為全球最大的兩個物流市場進行賦能。目前,智加在中美兩地均設有辦公室和研發中心,超過 25% 的員工有博士學位,超過 80% 的工程師畢業于中美兩地排名前五的工科院校;擁有自動駕駛核心技術的全棧研發能力,包括感知、地圖、定位、決策、規劃、控制等。資本方面,智加也得到了紅杉資本、金沙江資本、滿幫集團等多方的支持。
智加在過去的幾年里取得了不錯的成績:
• 2017 年 3 月,智加獲得了加州交管局頒發的自動駕駛路測牌照,成為第一家獲得路測牌照的中國初創公司;
• 隨后,智加在硅谷的真實車流中完成了近2000公里的實際路測;
• 2018 年,智加和與中國市場份額最大車貨匹配平臺滿幫集團達成了獨家戰略合作,并聯合滿幫、一汽解放和英偉達成立了四方同盟;
• 2018 年 11 月,智加獲得了公安部、交通部、工信部和江蘇省政府聯合發布的中國首張營運自動駕駛測試牌照;
• 2019 年 1 月,在哥倫布智慧物流大會上,智加與一汽解放完成了首批智能重卡的交接儀式。
近期也有一些進展:
去年底,智加取得了全國首張跨區域的測試牌照,可在江蘇、安徽、浙江、上海、三省一市的相關道路上進行測試和數據收集;
去年,智加聯合一汽解放成立了蘇州摯途科技有限公司,攜手推進智能重卡的落地量產;
在美國,智加也在持續進行商業試運營。去年圣誕前夕,智加的重卡自動駕駛了三天三夜,橫跨美國東西海岸完成了生鮮運輸工作,行駛里程達 2800 英里。
二、自動駕駛落地應用的5個階段
智加對自動駕駛技術落地的 5 個階段有自己的見解:
• 在干線物流的場景下,第一個階段叫作“原型期”。在這一階段要做好三件事:確定 L4 級重卡自動駕駛的價值,制定大致的技術發展方向,同時尋找可靠的伙伴共同來推進。
• 第二個階段叫作“工程驗證期”。在這一階段,最主要的工作是通過驗證,證明自動駕駛的安全性和經濟性。而且驗證不僅僅是路測驗證,還包括建立仿真系統來進行驗證。
• 第三個階段叫作“設計驗證期”,此前工程驗證期驗證通過的自動駕駛系統,需要與量產車進行融合設計,從而設計出一款真正的自動駕駛的重卡。
• 第四個階段叫作“生產驗證期”,要進行流水線和生產方面的準備,包括把供應鏈打通、把工廠建設好,這是重卡主機廠擅長的事情。
• 第五個階段就是“量產”,到了這個階段,自動駕駛重卡已經開始大規模商業化落地,類似于滿幫這樣的角色將會在這個階段發揮最大效果,推動自動駕駛重卡進行規模的商業化試運營。
基于以上的五個階段,智加也分別做了相應的規劃和準備,包括一些技術上的創新。
三、干線物流自動駕駛的關鍵技術和挑戰
一輛時速為 120 公里每小時、帶掛的重卡,它的制動距離通常在 180 米。如果有更大的重量,將會有 0.6 秒到 0.8 秒的制動延時,這會導致更長的制動距離。
此外,重卡在濕滑的路面上行駛的制動距離將進一步增加。為了安全起見,在濕滑路面下的重卡制動距離通常需要至少 300 米。另一方面,由于車身高帶掛的特性,重卡司機的感知盲區遠比乘用車大,因此也引發了大量的事故。
由此引出的自動駕駛乘用車和重卡在技術上的差異,包括感知、標定、地圖、定位等內容,我接下來會為大家做拆解。
• 標定
首先是標定。多傳感器同步和內外參數標定是所有智能駕駛系統必須解決的問題,其誤差會通過感知層逐步遞增到規劃和控制,影響最終的自主行駛。
傳感器的標定可以分為離線的靜態標定和在線的動態標定。
針對靜態標定,通常采用基于標記物的標定方法。這種標定方法需要選取和設計利于不同傳感器能夠同時進行準確觀測的特殊標記物。為了上述目標,選取標記物時要考慮其幾何結構和表面材質,比如相機對紋理和角點的觀測精度、激光對深度(尤其是深度不連續位置)的觀測精度、以及雷達對金屬的強反射性等。
標定的整體流程分為兩大類,一類是以 3D 的點集配準為主要方法,基于 3D 坐標之間的對應關系來實現標定。 另一類是典型的 2D 和 3D 的對應點之間的標定問題,可以使用 PNP 的方式來求解。
重卡面臨的另一個問題是在線標定。由于車身懸掛的抖動明顯,可能會導致兩個標定問題——第一個是不同傳感器之間的相對位置會發生變化,比如相機和相機的相對位置、相機和激光的相對位置發生偏移。第二是傳感器相對于大地的坐標系會發生變化。
針對第一個問題,可以利用左右雙目的高區分度的特征點來進行在線校正。針對第二個問題,可以直接使用激光中深度不連續位置和圖像中逆距離變換求取的邊緣來實現對傳感器外參數漂移的在線標定。
不過,值得注意的是,所有好的在線標定系統都對初值有著嚴格要求,所以首先還是要實現重復性高的離線標定,來提供相對準確的初值。
• 感知
感知方面。智加基于多個攝像頭、激光雷達、毫米波雷達實現了車周無盲區,以及遠距離的感知。在前向距離上,智加可以實現超過500米的靜態和動態障礙物的檢測和跟蹤。這種傳感方案與單純地強調遠距離感知不同,還兼顧了感知的視野范圍,可以感知到路面的起伏情況。這是實現重卡安全運營的一大重要手段。
另外,在技術方案中,智加充分利用了多基線配置的雙目視覺和來自于激光毫米波雷達的數據的深度融合。
如今,隨著算法的迭代和優化,智加車頂傳感器的數目不斷減少,但始終保留了雙目的配置。這是因為雙目在傳感器的自檢、動態標定和深度估計上都給了感知模塊和整體系統很多冗余,比如雙目深度比單目準,點云密度比激光高,同時左右兩側相機可互為冗余,以防其中一個出現故障。同時,雙目本身也利于在線標定。
而且,由于雙目點云的天然特性,它的幾何結構的信息穩定性高于紋理信息,使得它和激光雷達的數據融合可以在深度層面上展開。
• 車道線檢測和障礙物感知
車道線檢測的方法層出不窮,但實際上,大多數時候,對車道線的檢測和改進都是基于二維空間,關于高度的信息估計幾乎是缺失的。在一些特殊的場景下,車道線的準確性會大打折扣。以高速公路收費處的匝道為例,其路面并不是一個典型的平面,而是高度逐漸升高/降低的曲面。
智加用基于立體視覺估計的曲面來實現路面點云的稠密化,從而實現圖像像素和激光的點和點對齊;且這種方式使得感知結果可以和車體坐標系建立清晰的物理對應關系。
有了準確的路面估計以后,則需要考慮障礙物的感知問題,尤其是針對重卡的遠距離障礙物感知。有了來自于雙目的顏色和深度信息以后,多傳感融合則有更多的操作空間,實現對障礙物的類別、位置、朝向的檢測和跟蹤。
• 建圖和定位
智加的建圖和定位依然是多傳感融合的方式。智加高精地圖創建包含了 3D 點云和 2D 圖像作為地圖數據的輸入,然后通過離線完成幾何度量信息的生成和優化,并在最終使用前進行人工的確認;尤其是要對不同時間和不同車輛采集后生成的地圖之間的建圖精度、一致性和重復性進行可視化顯示,最終地圖的采集會隨著車輛的測試運營不斷進行增量式的更新。
特別在高速公路這種具有結構化特點的場景下,創建地圖會有一些便利,比如可以預先采集、建立一套典型的適合高速公路環境的幾何模板,并基于此來完成檢測重建。
不過建圖中有一個容易被大家忽略的問題。未來商用地圖采集車大部分都會是乘用車,然而它的傳感器配置類型和安裝位置都與重卡有很大不同,比如激光數據的測距精度、返回強度等都有可能出現較大差異。現在行業內許多公司在測試時或 demo 使用的采集車是同一款車,甚至是同一輛車。這就導致地圖精度和傳感器類型、安裝位置、甚至多傳感的標定誤差嚴重耦合。
智加較早意識到這點,所以目前用來進行地圖數據采集的是乘用車,用來定位驗證的是重卡;同時,智加內部也會實行類似的交叉驗證,完善建圖方法,以及定位算法。
• 系統冗余設計/系統架構設計
最終的 L4 級系統是不需要安全員的,所以需要從系統設計方面考慮可靠和冗余。智加對系統的可靠冗余設計包含五個維度,分別是可靠硬件平臺、傳感器的冗余、功能算法的冗余、系統架構的設計以及測試驗證。
可靠的硬件平臺,主要是指車輛平臺,尤其是執行機構以及計算平臺的可靠性。對車輛平臺來說,它的可靠性體現在轉向、制動、動力的冗余。
計算平臺則要滿足功能安全。 L4 級對于算力的要求會比 L2 系統或者 ADAS 系統有顯著的提升,計算架構也逐步從分布式向中央集成式過渡。但這種中央集成式的 ADU 的大功耗也存在著安全隱患,所以智加采用的混合結構,部分計算任務在傳感器端做,部分計算任務在中央 ADU 端做,平衡了算力和功耗。而且,這樣的架構也方便之后的冗余系統的設計與實現。
傳感器的可靠性主要是體現滿足車規,以攝像頭為例,性能上滿足算法對圖像質量的要求。除了傳感器本身的連接穩定性,傳感器的靈敏度動態范圍也要有顯著提升。
傳感器的冗余,即在傳感器故障時有硬件備份,更重要的是,同一類型的傳感器可以用來做相互校驗,檢測系統里的軟失效,如立體視覺。相應的還有功能算法冗余,即通過功能算法的冗余來判斷傳感器是否失效。
重點是智加現在正在采用的 simplex 的架構設計,其中包括抽象的傳感器、抽象的執行單元,還有一個 safe landing 系統。這是一套包含了硬件傳感、軟件算法、失效質檢、硬件(問題硬件)自隔離的系統。
最后,還需要一系列高效的測試驗證把整套研發環節跑通,在一些常規測試的基礎上加大難度,對系統的性能邊界進行驗證。同時,還要有一套高效運作的測試或研發數據管理體系,來對信息進行篩選、整理、分類,從而反哺模型的提升和系統的迭代。
建立數據管理系統,要解決三個問題:第一、怎么收集數據?第二、怎么篩選數據?第三、怎么使用數據?
圍繞這三個問題,智加已經打通和完善了一整套的數據管理系統。這個系統可以用來跟蹤所有路測車輛的狀況,包括自動駕駛比例、車輛所在位置、油耗里程等等信息,然后通過人工或者自動化的方式來標注和篩選出有價值的場景數據。
這些數據一部分會進入智加的內部平臺,依據場景分類信息來進行自適應的采樣,形成二級或者三級的標注數據,用于模型的訓練、測試和評測。另一部分則用于生成仿真測試場景。
經過感知團隊和標注團隊的努力,智加已經圍繞困難場景的車道線標定收斂出來一套標準。以車道線檢測為例,這套標準大體上包含兩個方向:
第一,關心數據的分布,要建立一個完備的場景,以及定的多層次分類體系。也就是說,不僅要評估模型在比如天氣、光照、道路、場景、交通流等某個一級分類維度的性能,還要分析它對應的某個二級分類維度的性能,同時還要建立不同分類、不同維度之間的關聯關系。
第二,要獨立客觀地去評測模塊和跟蹤模塊,即檢測和跟蹤要分開。目前,常見的車道線模塊的評測采用兩種方式,只評測車道線模塊;或者把車道線模塊評測和跟蹤同時進行,做最終結果的評測。上面兩種方式操作起來確實簡單,但基于這些方式的評測結果十分寬泛,并沒有對檢測模塊和跟蹤模塊的性能邊界有一個明晰的判斷。類比現在傳感器性能突飛猛進,但我們要清醒地知道,感知模塊性能的提升,到底是得益于傳感器廠商的進步,還是得益于自己處理數據能力的增強。所以,一定要做類似的獨立客觀冷靜的測試。
具體方法為:首先給跟蹤模塊輸入完美的感知數據/感知真值,然后不斷增加噪聲,降低感知輸入的質量,模擬車道線的缺失、遮擋、丟幀、處理延時等,評測和確定跟蹤模塊的性能邊界,以及對感知模塊數據輸入的要求。
有了一套分類體系和一套可以獨立拆分模塊的評價體系以后,就能夠解決數據使用的問題。如何讓系統在測試過程中自動化去識別一些不明物體,支撐采集數據和篩選數據兩個環節,這個問題接下來會展開講。
四、L2+ 與 L4 的數據閉環問題
前文提到了自動駕駛技術量產的五個階段,在整個自動駕駛的演進中,從更高維度理解可以把一個 L2+ 系統等同于一個 L4 系統的設計驗證階段。然后,把 L2+ 系統里的量產、落地,以及在大量運營中積累的數據,轉換為 L4 的系統的生產力。
然而,我們在討論這個話題的時候,要考慮好兩個核心問題:
• 數據的價值。比如特斯拉 Autopilot 是 L2+ 系統,Waymo Robotaxi 是 L4 級系統,但兩者之間的數據閉環并沒有太多價值,因為兩者的數據特性不一樣,配置也不一樣。
• 收集數據的效率和成本。海量用戶數據打通之后,安排標注員在后臺翻看數據幾乎不現實,效率也十分低下,這種情況根本無法支撐數據閉環。
針對第一個問題,有觀點認為,特斯拉明確表示不需要激光,僅靠視覺就能實現無人駕駛。但同樣在視覺領域頗有建樹的 Mobileye 在其官網上對 EyeQ 系列芯片的發展介紹中寫道,“EyeQ 4 支持 L3 級自動駕駛,EyeQ 5 支持 L4 級以上自動駕駛”。
然而,這并不代表靠視覺起家的 Mobileye 認為僅靠視覺就能實現高級別自動駕駛。其官網上同樣用加粗的黑體字介紹道,“It has the capacity to process data from more than eight camera sensors,in addition to radars and LiDARs…more than sixteen multi-mega-pixel cameras and other sensors”。
至于上述“other sensors”是什么,目前未有明確的說法,但我大膽推測,這里面應該包含激光雷達。因而在絕大多數的、非特斯拉的自動駕駛公司的心里面,要實現 L4 就需要激光雷達來提供準確的深度信息。
L4 系統對場景理解的準確性提出了新的要求,因此對傳感器數據的需求將從模態分裂走向模態融合。我們不再把數據按照激光、視覺、毫米波雷達來區分,而是按照紋理、色彩、深度甚至速度來理解。
因此我們要回答數據閉環的價值問題,本質上是要判斷 L2+ 系統的傳感器類型以及使用方式與 L4 級階段的差異有多大?差異越小,它的數據閉環就越有價值。
乘用車作為生活資料,它在 L2+ 階段無法省掉駕駛員,它的利潤也只能通過載客服務來實現。因此,單車成本上,預留給傳感器和計算平臺的成本有限,可能無法負擔起激光雷達的成本。同時它的算力也受限制,通常只能進行后融合。因此 L2+ 階段的傳感器針對乘用車來說,它的傳感類型和使用方式與 L4 級階段有著比較顯著的差異。
商用車雖然在 L2+ 階段也無法省掉駕駛員,但是它作為生產資料,本身就在持續創造營收。同時,還可以通過節油和提升車輛保值來進一步增大利潤空間,從而使得單車成本上可以預留更多給傳感器和計算平臺。
這種情況下的 L2+ 級階段傳感器的類型和使用方式與 L4 階段的差異較小。這也是為什么我們認為干線物流在這方面會優先落地的原因。
基于此,我也分享一下智加目前的相關工作。我們融合了立體視覺和低成本激光雷達,通過后處理來實現場景的三維重建,從而獲得成本低、精度高且稠密的 RGBD 數據。未來我們可以從這種稠密的深度信息里抽樣,泛化成在 L4 級階段使用的激光雷達的點云數據。
數據的價值判斷問題處理好了,再來看看收集或篩選這些有價值數據所要付出的成本,以及它的效率。
在大規模運營后的產生的海量數據,只有通過在線且自動化的方式才能保證數據收集和篩選的效率高、成本低。智加的數據來源目前主要有 4 個,包括在線人工標注、離線人工標注、離線自動標注和在線自動標注。
目前我們已經從前面的三個階段逐步過渡到了第四個階段,即在線自動化標注,意味著我們數據收集的成本會越來越低,效率會越來越高。
在線自動化的典型代表是大家津津樂道的影子模式,通過來比較人工駕駛的軌跡和系統規劃的軌跡之間的偏差,比如說當路徑上的橫向位置、縱向速度和加速度偏差超過系統設定閾值時,就自動抓取當前場景的數據并回傳。從這種設計上我們可以看出,它采集的數據本身是面向決策和規劃端的,我個人認為這種設計有兩個不足:
第一,采集的數據容易非平衡。影子模式基于人工駕駛的情況下、軌跡端結果觸發,所以它沒有辦法直接反映出其他模塊的問題,容易導致數據的非平衡性。
第二,數據采集成本比較高。由于它的觸發條件在系統功能層面,粒度較粗,無法反映出上游模塊的問題,只能采用事件觸發點前后的全量數據采樣,在數據存儲空間和流量空間有限的情況下,極容易導致冗余數據,從而導致數據使用效率下降,數據采集成本攀升。
智加內部有一套 Plum 系統,它包含離線自動化標注和在線自動化標注兩大部分,我們還針對感知、定位、決策、規劃、控制等各個模塊制定了相關指標,用于自動化篩選有價值場景數據。
對于需要強算力或者需要大存儲空間、或者需要進行多幀數據關聯的指標,我們采用離線計算。對于經過輕巧設計、對算力和存儲要求低的指標,我們則采用在線自動化的方式,幫助我們更高效、更低成本的抓取數據。
今天的技術內容講了很多,除此之外也談到了現狀、產業和數據閉環等內容。
自動駕駛還是一個新興學科,它的標準和規范尚未健全,因此,我們大家都是這一領域的參與者、設計者和建設者,期待未來更多交流和碰撞。
(來源:雷鋒網)