作(zuò)者 | Jessie
出品 | 焉知(zhī)
本文(wén)接續前文(wén),首先進一(yī)步廣泛調查自(zì)動駕駛端到(dà♣£≤♥o)端開(kāi)發方法面臨的(de)關鍵挑戰。同時(shí),我們總結了(le)主要(yào)方φ©面并提供了(le)深入的(de)分(fēn)析,包括普遍性、語言引導學習(₽<•xí)、因果混亂等主題。
涵蓋了(l≥≠£ e)如(rú)何采用(yòng)大(dà)型基礎模型和(hé)數(shù)據引擎的(de)更₽ 廣泛影(yǐng)響。我們相(xiàng)信,這(zh ↔è)一(yī)研究領域及其提供的(de)大(d<×à)規模高(gāo)質量數(shù)據可(kě)∞∏≥以顯著(zhe)推進該領域的(de)發展。
5、可(kě)解釋性
可(kě)解釋性有(yǒu)© 助于人(rén)類理(lǐ)解端到(dào)端模型的(de)決策過程、感知(zhī)故障和(hé)輸出的(de)可(kě)靠性,因此,可(kΩ×ě)解釋性在自(zì)動駕駛中起著(zhe∏>)至關重要(yào)的(de)作(zuò)用(yòng)。它使工(gōng)程師(shī♠$β✘)和(hé)研究人(rén)員(yuán)能(néng)夠更好(hǎo)地(dì)測試、調試和(♥←hé)改進系統,從(cóng)社會(huì)角度提供性能(néng)✔δ♠↑保證,增加用(yòng)戶信任,促進公衆接受。然而,實現(x&✔iàn)端到(dào)端自(zì)動駕駛模型(通(tōng)常被稱為(wèi)黑' &(hēi)匣子(zǐ))的(de)可(kě)解釋性具有(✘σyǒu)挑戰性。
給定訓練有(yǒu)素的(de)自(zì)動駕駛模型,✔®∏δ一(yī)些(xiē)事(shì)後 X-AI(可(kě)解釋的(de)人(r≤←én)工(gōng)智能(néng))技(jì)術(shù)可(kě)以應≈β用(yòng)于學習(xí)模型以獲得(de)顯著(z'£he)圖。顯著(zhe)圖突出顯示模型主要(yào)λ依賴于視(shì)覺輸入進行(xíng)規劃的(de)特定區(qū)域。然而,這( ββzhè)種方法提供的(de)信息有(yǒu)限,其有(yǒ↑"¥u)效性和(hé)有(yǒu)效性難以評估。相(xiànα©εg)反,我們專注于直接增強模型設計(jì)可(kě♦™)解釋性的(de)自(zì)動駕駛框架。我們将在下(xià)面的(de)圖6中介紹每€$個(gè)類别的(de)可(kě)解釋性。
圖 6:不(bù)同形式的(de)可(kě)解釋性總結。
5.1 注意力可(kě)視(shì)化(h•≤uà):
注意力機(jī)制(zhì)通(≤§tōng)常提供一(yī)定程度的(de)可(kě)解釋性。可(kě)以應用(yòng<☆♠)學習(xí)的(de)注意力權重來(lá≤&♦φi)聚合中間(jiān)特征圖中的(de€★)重要(yào)特征。學習(xí)注意力權重以自(♣<zì)适應地(dì)組合來(lái)自(zì)不(bù)同對(duì)象區(qū)域或固定<★¶網格的(de) ROI 池化(huà)特征。NEAT×≥叠代聚合特征來(lái)預測注意力權重并細化(huà)聚合特征。最近(jìn),Tr≈ ♠♦ansformer注意力機(jī)制(zhì)在許多(duō)自(zì)動駕駛模型中得(' de)到(dào)了(le)普遍應用(yòng)。采用(yòng)Transforε$€mer注意力塊來(lái)更好(hǎo)地(dì)聚合來(lái)自(zì)傳感器←σ(qì)輸入的(de)信息,注意力圖顯示輸入中用(yòng)↑™↔于駕駛決策的(de)重要(yào)區(qū)域。在 PlanT 中,注意力層處理(÷✔α₩lǐ)來(lái)自(zì)不(bù)同車(chē)輛(liàng)的(de)特征,♥ 為(wèi)相(xiàng)應的(de)動作(zuò)提供可 ¥©&(kě)解釋的(de)見(jiàn)解。與事(s$₽↓αhì)後顯著(zhe)性方法類似,雖然學習(xí)到(dào)的(de)注α♣÷意力圖可(kě)以提供一(yī)些(xiē)關于模₩'型焦點的(de)直接線索,但(dàn)它們的(de)忠實度和( ¥hé)實用(yòng)性仍然有(yǒu)限。
5.2 可(kě)解♠☆λ"釋的(de)任務:
在深度駕駛模型中,輸£≠•€入最初被編碼為(wèi)中間(jiān)表示以供後續σ '>預測。因此,許多(duō)基于IL的(de)工(gōng)作(zuò)通(tōng)過将潛在&±特征表示解碼為(wèi)其他(tā)有(yǒu)意義的(deφ ♣)信息來(lái)引入可(kě)解釋性,δβ例如(rú)語義分(fēn)割,對(duì)象檢測,可(kě)供性預測,運動預測和(h£≈Ω↑é)注視(shì)圖估計(jì)。盡管這(zhè)些(xiē)方法提供<∏了(le)可(kě)解釋的(de)信息,但(dàn)大(dà)多(duō)數(shù)僅将這(zhΩ è)些(xiē)預測視(shì)為(wèi)輔助任§ 務,對(duì)最終的(de)駕駛決策沒有(yǒu)明(míng)££↓∏确的(de)影(yǐng)響。一(yī)σ₽些(xiē)通(tōng)過将這(zhè)些(xiē)輸出用(₹₽←yòng)于最終駕駛動作(zuò),但(dàn)它們僅用(yòn×δ ₩g)于執行(xíng)額外(wài)的(de)安全檢查。
5.3 成本學習(xΩ€☆í):
<Ω✘ 基于成本學習(xí)的(de)方法與傳統的(de)模塊化±∏β★(huà)自(zì)動駕駛系統有(yǒu)一(yī)些(xiē)相(xiàng)似之處,因α→↑此表現(xiàn)出一(yī)定程度的(de)可(k∏λě)解釋性。NMP和(hé) DSDNet 結合檢測和(≤☆hé)運動預測結果構建成本量。P3 将預測的(de)語義占用(yòng)圖與舒适度和(h÷₹é)交通(tōng)規則約束相(xiàng)結合來(lái)構建成本函 '∏數(shù)。采用(yòng)各種表示形式對(duì)采樣軌迹進行(xíng)評分(fē£≤n),例如(rú)概率占用(yòng)和(hé)時(shí)間(jiγ♦ān)運動場(chǎng)、緊急占用(yòng)和(hé)自φ£♦↓(zì)由空(kōng)間(jiān)。安全性、舒适性、交通(tōng)規則以及基于感↓αδ知(zhī)和(hé)預測輸出的(de)路(lù)線等因素都(dōu)被明(míγ≈☆ng)确包含在內(nèi)來(lái)構建成₩>本量。
5.4 語言可(kěεφ✘←)解釋性:
可(kě)解釋性的(de)一(yī)個≠≤(gè)方面是(shì)幫助人(rén)類理(lǐ)解系統,因此自(zì)然語言是(sh₹↔∞σì)實現(xiàn)此目的(de)的(de)合适選擇。生(shē>Ω↓≠ng)成 BDD-X 數(shù)據集,将駕駛視(shì)頻(p'β✔∏ín)與描述和(hé)解釋配對(duì)。他(tā)們還(hái¥♠£)提出了(le)一(yī)種帶有(yǒu)車(ch§ε¶ē)輛(liàng)控制(zhì)器(qì)←¶>和(hé)解釋生(shēng)成器(qì)的(de)自(zì)動駕駛模型,并強制(zhìφ₹π)兩個(gè)模塊的(de)空(kōng)間(jiān)注意力權重保持一(yī) β•₹緻。BEEF提出了(le)一(yī)個(gè✘₩™α)解釋模塊,融合預測軌迹和(hé)中間(jiān)感知(zhī)特征來(lΩ↔ái)預測決策的(de)理(lǐ)由。也♣↔↓(yě)有(yǒu)引入了(le)一(yī)個(gè)名為(wèi) ✘> BBD-OIA 的(de)數(shù)據集,其中包括駕駛決策的(de)注釋和(héπ>)高(gāo)密度交通(tōng)場(chǎng)景'↓的(de)解釋。最近(jìn),ADAPT 提出了(le)一(yī)種基于 Transforme↑♦r 的(de)網絡,根據 BBD-X 數(shù)據♣集中的(de)駕駛視(shì)頻(pín)來(lái)聯合估計(jì)動作(zu★↕♦•ò)、叙述和(hé)推理(lǐ)。鑒于多(du€₽→§ō)模态和(hé)基礎模型的(de)最新進展,我們€↕相(xiàng)信,進一(yī)步将語言與自(zì)動駕駛模型相(xiàng)結合有(yǒu)望₹∞實現(xiàn)卓越的(de)可(kě)解釋☆∑≈性和(hé)性能(néng)。
5.5 不(bù)确定性建模:
不(bù)确定性是(shì)解釋模型≈γ←輸出可(kě)靠性的(de)定量方法。由于規劃結果并不(bù)總是(shì)準确"或最佳,因此設計(jì)者和(hé)用(yòng ≥™)戶必須識别不(bù)确定的(de)情況以進行(xíng)改進或必要(yào)的(de)幹預。λ≤♠≠對(duì)于深度學習(xí)來(lái)說(shuō),有(yǒu)兩種類型的(de)不(b♣>©↔ù)确定性:任意不(bù)确定性和(hé)認知(zhī)不(bù€★)确定性。任意不(bù)确定性是(shì)任務固有(yǒu≠ )的(de),而認知(zhī)不(bù)确定性是(shì)由于有(yφ↔&ǒu)限的(de)數(shù)據或建模能(néng)力造成的(deλ≥±)。對(duì)端到(dào)端自(zì)動駕駛系統的(de)不(bù)确定性進行(xíng₽•↓™)了(le)定量評估,可(kě)以有(yǒ<<♣u)效利用(yòng)模型中的(de)某些(xiē)随機(jī)正↓♠則化(huà)來(lái)執行(xíng)多§σ¥ε(duō)個(gè)前向傳遞作(zuò)為(wèi)樣本₽Ω®來(lái)測量不(bù)确定性。然而,多(duō)次前向傳遞的(de∑™₽)要(yào)求在實時(shí)場(chǎng)景中是(shì) σ&不(bù)可(kě)行(xíng)的(de)。RIP建議(yì)通(tōng)過專家(jiā)似然λ←×模型集合來(lái)捕獲認知(zhī)不(bù)确定性"₹<,并彙總結果以執行(xíng)安全規劃。關于φφ建模任意不(bù)确定性的(de)方法中明(m'®∑δíng)确預測了(le)駕駛行(xíng)為(wèi)/規劃和(hé)不(bù)确定&∑®÷性(通(tōng)常用(yòng)方差表示)。根據預測的(de)不(bù)确定性,從(cón<Ω×g)多(duō)個(gè)輸出中選擇不(bù)'确定性最低(dī)的(de)輸出,生(shēng)成建議(yìδ$")行(xíng)動的(de)加權組合。VTGN≠©₽et不(bù)直接使用(yòng)不(bù)确定性進行(↕≤xíng)規劃,但(dàn)證明(míng) 對(duì)數(shù)據不(bù)确定性進行(xíng)建模可(kě)以提高(gāo)總體α≈♦€(tǐ)性能(néng)。目前,預測的(de)不(bù)确定性主要(yào)與硬編碼規則結合使用(≤∏yòng)。有(yǒu)必要(yào)探索更好(hǎo)的(de)方法來(lái)建模和(hé)利δ∑δ•用(yòng)自(zì)動駕駛的(de)不(bù)确定性。≤↑₩$
5.6 因果混亂
駕駛是β→ €(shì)一(yī)項表現(xiàn)出時(shí)間(jiΩ&φān)平滑性的(de)任務,這(zhè)使得(de)過去(qùΩ€)的(de)動作(zuò)可(kě)以可(kě)靠地(dì)預測下(xià)一(y€♣ī)個(gè)動作(zuò)。然而,使用(yòng)多(duō)個(g€♦αè)幀訓練的(de)方法可(kě)能(néng)會(huì)過度依賴此快•γ(kuài)捷方式,并在部署過程中遭受災難性失敗。這(zhè)個(gè)問(∞Ω∑↓wèn)題在一(yī)些(xiē)作(zuò)品中被稱γα• 為(wèi)模仿問(wèn)題,是(shì)因★•¶€果混亂的(de)表現(xiàn),即訪問(wπ≠"èn)更多(duō)信息會(huì)導緻性能(néng)更差↕≤γ。LeCun 等人(rén)最早報(bào)道(dào)了(le)這(zhè)種效應,他('®tā)們使用(yòng)單個(gè)輸入幀進行(xíng)轉向Ωδ預測,以避免這(zhè)種推斷。盡管很(hěn)簡單,但'&₽(dàn)這(zhè)仍然是(shì)當前最先進的(de)模仿學習(xí)方法¥₹'中的(de)首選解決方案。不(bù)幸的(de)是(shì),使用(y ®σòng)單幀的(de)缺點是(shì)無法提取周圍運動體(tǐ)的(de)速度。因果混亂的(deε )另一(yī)個(gè)來(lái)源是(shì)速度測量,如(r§≤λ<ú)下(xià)圖 7 顯示了(le)汽車(chē)等紅(hóng)燈的(de)示例。
圖 7:模仿學習(xí)中的(de)因果♦∞混亂
汽車(chē)的>÷₩(de)速度與制(zhì)動動作(zuò)高(gāo)度相(xiàng)關,因為(wè±∑i)汽車(chē)正在等待許多(duō)速度為™↓₩(wèi)零且動作(zuò)為(wèi)制(zhì)動的(> •de)幀。僅在交通(tōng)信号燈從(cóng)紅(↔$hóng)色變為(wèi)綠(lǜ)色的(de)單幀處,這(zh∞ ₹è)種相(xiàng)關性才會(huì)被打破。實際上(shàng),汽車(chē)§¥φ•當前的(de)動作(zuò)與低(dī)維虛假特征(¶↓±§例如(rú)速度或汽車(chē)過去(qù→€≥)的(de)軌迹)密切相(xiàng)關₩β♣。端到(dào)端模型可(kě)能(néng)會(huì)抓住它們,導緻因果混亂。
使用(yòng)多(duō)個(gè)框架時(↔↓shí),有(yǒu)多(duō)種方法可(&φ∏kě)以解決因果混淆問(wèn)題。ChauffeurNet通(tōng)過在&nλ♥♦bsp;BEV 中使用(yòng)中間(jiān)視(shì)₩σ<覺抽象來(lái)解決這(zhè)個(gè)問(wè>♥✔÷n)題。一(yī)種抽象是(shì)自(zì)我代理(lǐ)的(de)過去(qù↓≠σ ),而其他(tā)抽象不(bù)包含此信息。在訓練期間(jiān),自≤∞✘(zì)我代理(lǐ)過去(qù)的(de)動作(zuò)以 50% 的∏∞¥(de)概率被丢棄。然而,為(wèi)了(le)使這(zhè)種方法有(yǒu£≥α₩)效地(dì)工(gōng)作(zuò),需要(yàπ∞'o)顯式的(de)抽象。有(yǒu)研究者試圖通(tōng)過訓練預測自(zì)我代理(λ→lǐ)過去(qù)行(xíng)為(wèi)的∞¶λ>(de)對(duì)抗模型,從(cóng)學習(xγ≠δ♣í)到(dào)的(de)中間(jiān)瓶頸表示中消除虛假的(de)時(sh☆δ í)間(jiān)相(xiàng)關性。這(zhè)導緻了(le)最 ←¥小(xiǎo)-最大(dà)優化(huà)問(wèn)題,其中模仿損失最小(xiǎo←)化(huà),而對(duì)抗性損失最大(dà)化(huà)。直觀地(dì)說¶β(shuō),這(zhè)訓練網絡從(cóng)中間(jiān)層☆ελ©消除自(zì)己的(de)過去(qù)。這(zhè)種方法在 M÷✘↑uJoCo 中效果很(hěn)好(hǎo)±∑♥✔,但(dàn)無法擴展到(dào)複雜(zá)的(de)基于視(shì)覺的(de)駕€ ∑₽駛。第一(yī)個(gè)緻力于驅動複雜(zá)性的(de)是(shìλΩ )建議(yì)增加訓練損失中關鍵幀的(de)權重。關鍵幀是(shì)發生(shēng)↕∏ε決策更改的(de)幀(因此無法通(tōng)過推斷過去(qβ↓ù)來(lái)預測)。為(wèi)了(le)找σβ∑到(dào)關鍵幀,他(tā)們訓練了(le)一(yī)種策略,僅以自(zì)我代理♥(lǐ)的(de)過去(qù)作(zuò)為(wèi)輸入來(lái)預測動作(zuò)>π÷。PrimeNet通(tōng)過使用(yòng)集成來( ¶≤lái)提高(gāo)與關鍵幀相(xiàng)比的(d$∑∑e)性能(néng),其中單幀模型的(de)預測作(zuò)為(wèi "↑)多(duō)幀模型的(de)附加輸入給出。後又($γ§<yòu)有(yǒu)用(yòng)動作(zuò)殘差而不(bù)是(shì)π®∞動作(zuò)來(lái)監督多(duō)幀網♦¶≈α絡。OREO将圖像映射到(dào)表示語義對(duì₹")象的(de)離(lí)散代碼,并将随機(j₩δī)丢棄掩碼應用(yòng)于共享相(xiàng)同離(lí§")散代碼的(de)單元。這(zhè)在 Confounded Atari 中很(hěn☆&)有(yǒu)幫助,因為(wèi)之前的(de)操 ♥'€作(zuò)會(huì)呈現(xiàn)在屏幕上(shà←£₩αng)。在自(zì)動駕駛中,可(kě)以通(tōng)∑₽&過僅使用(yòng)激光(guāng)雷達曆史(具有(λ★∏®yǒu)單幀圖像)并将點雲重新對(duì)齊到(dào)同一(yī)坐(zuò♥λε÷)标系來(lái)避免因果混亂的(de)問(wèn)題。這(zhè)會(h♦↑uì)删除有(yǒu)關自(zì)車(chē$♣≤→)運動的(de)信息,同時(shí)保留有(yǒu)關其他(tā)車(chē)輛(liàng←÷βπ)過去(qù)狀态的(de)信息。
近(jìn)二十年(niá↕βn)來(lái),模仿學習(xí)中的(d§™®e)因果混亂一(yī)直是(shì)一(yī)個(gè)持續的(de)挑戰∞'®。近(jìn)年(nián)來(lái),人(rén)們投入了(le)大$&¥(dà)量精力來(lái)研究這(zhè)個(gè)問(wèn)•≥題。然而,這(zhè)些(xiē)研究使用(yòng)≈↑'了(le)經過修改的(de)環境,以簡化(huà)因果混淆問(wèn)題的(de)研究。™₩在最先進的(de)設置中顯示性能(néng)改進仍然是(shì)一(yī)個(gè)懸而未≠λ決的(de)問(wèn)題。
6、魯棒性評測
6.1 長(cháng)尾分(φ≈♦fēn)布
長(cháng)尾分(fēn)布問(wèn±≤£)題的(de)一(yī)個(gè)重要(yào)方面是(shì)數÷£(shù)據集不(bù)平衡,其中少(shǎo)數(shù)類$÷±别占大(dà)多(duō)數(shù),而許多(duō)☆'其他(tā)類别隻有(yǒu)有(yǒu)限數(shù)量的(de)樣本,如(rú)下(¶β✔xià)圖8(a)所示。
圖 8:穩健性方面的(de)挑戰
與數(shù)據集分(×✘∏fēn)布差異相(xiàng)關的(de)三個(gè)主要(yào)泛化($≈huà)問(wèn)題,即長(cháng)®β尾和(hé)正常情況、專家(jiā)演示和(hé)測試場(ch↔>ǎng)景以及位置、天氣等領域的(de)轉移。這(zhè)對(du•$↔ì)模型泛化(huà)到(dào)各種環境提出了(le)巨大(dà)∞δ的(de)挑戰。有(yǒu)多(duō)種方法通(tε←ōng)過數(shù)據處理(lǐ)來(lái)解決這(zhè)個(gè)問(w★←&èn)題,包括過采樣,欠采樣和(hé)數(shù)據增強。此外(wài),基于加權≠π的(de)方法也(yě)常用(yòng)于¶♠緩解數(shù)據集不(bù)平衡問(wèn)題。研究通(tōng)過對(£★λλduì)抗性攻擊以數(shù)據驅動的(de)±方式生(shēng)成安全關鍵場(chǎng)景。有(yǒu)用(©₽€σyòng)貝葉斯優化(huà)被用(yòng)來(lái)生(≥✘shēng)成對(duì)抗場(chǎng)景。學習(xí) ®₹碰撞将駕駛場(chǎng)景表示為(wèi)構建塊上(sh∞↓≥àng)的(de)聯合分(fēn)布,并應β 用(yòng)策略梯度 RL 方法來(lái)生(shēng)成風(fē₹₹♦ng)險場(chǎng)景。AdvSim修改代理(lǐ)的(de)軌÷§迹,同時(shí)仍然堅持物(wù)理(lǐ)合理(l←§♥ǐ)性,以導緻失敗并相(xiàng)應地(dì)更新 LiDAR。最近(jìn)的(de)工(gōng)作(zuò)提出了(le)一(yī)✘♣種通(tōng)過可(kě)微(wēi)運動學模型使用(yòng)梯度來(l≥≈ái)解決安全關鍵擾動的(de)優化(huà)→ε₹算(suàn)法。
Ω←±'一(yī)般來(lái)說(shuō),有(yǒu)效生(shēng)成涵蓋長₩☆ (cháng)尾分(fēn)布的(de)現(xiàn)實安全關鍵場(chǎng)景仍™↔"₽然是(shì)一(yī)個(gè)重大(dà)挑戰。雖然許多(duō)工(gōn♠≤↕¥g)作(zuò)關注模拟器(qì)中的(de)對(duì)抗場(chǎng)§δ景,但(dàn)更好(hǎo)地(dì)利用(yòng)現(xiàn)實世界數(shù)據進☆π≈'行(xíng)關鍵場(chǎng)景挖掘和(hé)對(duì)模拟的(de)潛在适應也(εγyě)至關重要(yào)。此外(wài),系統、嚴格、全面、現(xiàn←÷')實的(de)測試框架對(duì)于評估這(zhè)些(xiē)長(chángα✔₩)尾分(fēn)布式安全關鍵場(chǎng)景下(xià)的(de)端到(dào)端自(¶♠zì)動駕駛方法至關重要(yào)。
6.2 協變量平移
行(xíng)為(wèi)克隆的(de)一(≈÷yī)個(gè)重要(yào)挑戰是(shì)協變量轉變δ↕。專家(jiā)策略的(de)狀态分(fēn)布和(hé)經過訓練的δ↓(de)代理(lǐ)策略的(de)狀态分(fēn★€Ω™)布不(bù)同,當經過訓練的(de)代理(lǐ)部署×<₹在看(kàn)不(bù)見(jiàn)的(de)測試環境中或當其他(tā)代理(lǐ)的(de✔¥)反應與訓練時(shí)間(jiān)不(εΩ∏↓bù)同時(shí),會(huì)導緻複合÷© 錯(cuò)誤。這(zhè)可(kě)能(néng)會(₩•Ω♠huì)導緻受過訓練的(de)代理(lǐ)處于專家(÷☆jiā)訓練分(fēn)布之外(wài)的(de)狀态,從(cóng)而導緻嚴重的(π↓de)失敗。
圖 8 (b) 給®£ 出了(le)一(yī)個(gè)示例。DAgger(數(shù)↕✔α 據集聚合)是(shì)克服這(zhè)個(gè)問®®(wèn)題的(de)常用(yòng)方法。DAgger 是(shì)一(yε✘♥δī)個(gè)叠代訓練過程,在每次叠代中推≤♣>γ出當前訓練的(de)策略來(lái)收集新數(shù)據,并使用(yòng)專家(jiā)來'≠(lái)标記訪問(wèn)過的(de)狀↔↕≈¶态。通(tōng)過添加如(rú)何從(cónσ$<≤g)不(bù)完美(měi)的(de)策略可(kě)能(néng)訪ε <問(wèn)的(de)次優狀态中恢複的(de)示例,豐富了(✔≤le)訓練數(shù)據集。然後在增強數(shù)據集上(shàng)訓練該策略,并重複該過程 ≠←。然而,DAgger 的(de)一(yī)個(gè)缺點是(sh↕©ì)需要(yào)一(yī)位可(kě)用(yòng)的(de)專家(j €iā)在線查詢。
對(duì)于端到(dào)端自(γ✘'zì)動駕駛,通(tōng)過結合 DAgger 和(hé)基于 MPC 的(≤₹★•de)專家(jiā)。為(wèi)了(le)減少(shǎo)不(bù)斷查詢專家(jiā)≥Ω ♣的(de)成本并提高(gāo)安全性,Safe÷₹DAgger 通(tōng)過學習(xíαγ§)估計(jì)當前策略與專家(jiā)策略之間(jiβ ₽ān)偏差的(de)安全策略來(lái)擴展原始 DAgger 算(s←γσ™uàn)法。隻有(yǒu)當偏差較大(dà)時(shí)才會(huì)詢問(<≈ε©wèn)專家(jiā),在那(nà)些(xiē)危險的(de)情況下(xià)專家$♣(jiā)就(jiù)會(huì)接手。MetaDAgger将元學習(x←'&í)與 DAgger 結合起來(lái),聚合來(lái)自(zì)多(duō)個(gè)環←★境的(de)數(shù)據。LBC采用(y♠±òng)DAgger對(duì)數(shù)據進行(§≠↓♣xíng)重采樣,使得(de)損失較高(gāo<"€)的(de)樣本被更頻(pín)繁地(dì)采樣。在→☆Ω≠ DARB中,對(duì) DAgger 進行(xíng)了(l↓πe)一(yī)些(xiē)修改以适應駕駛任務。¥≤&∑為(wèi)了(le)更好(hǎo)地(dì)利©≠★∏用(yòng)故障或安全相(xiàng)關樣本,它提出了♠ ∑¥(le)多(duō)種機(jī)制(zhì),包括基于任務、基于策略以及基于策略和(hé↓≥♠λ)專家(jiā)的(de)機(jī)制(zhì),來(lái)對(duì)此類關鍵狀态進₽↔"∞行(xíng)采樣。它還(hái)使用(yòng)固定大(dà)小(xiǎo)的(λ₽↕¶de)重播緩沖區(qū)進行(xíng)叠代訓練♣∞,以增加多(duō)樣性并減少(shǎo)數(shù)據集偏差。
6.3 域适配
在端到(dào)端自(zì)動駕駛的(de)背景下(xi₹→↕↑à),長(cháng)尾分(fēn)布問(wèn)題尤為(wèi)嚴重。數(shù)據集不(bù)☆'¥平衡在駕駛數(shù)據集中尤其成問(wèn)題,因為(wèi)大(dà)多(duō)數(s∑>hù)典型的(de)駕駛都(dōu)是(shì)重複且無趣的(de),例©¶÷Ω如(rú),在許多(duō)幀中沿著(zhe)車(chē)道(dào)行§πΩ(xíng)駛。相(xiàng)反,有(yǒu)趣的(de)安全關鍵場(chǎng)景×₹很(hěn)少(shǎo)發生(shēng),但(dàn∞∑)本質上(shàng)是(shì)多(duō ε)種多(duō)樣的(de)。為(wèi)了(le)解決這(zhè)個(gè)問→↓₩(wèn)題,一(yī)些(xiē)工(gōng)作(zuò)依賴于手工(gōng)制(zhì™™)作(zuò)的(de)場(chǎng)景來(lái)在模拟中生(shēn✔₩•g)成更加多(duō)樣化(huà)和(hé)有(yǒ© πu)趣的(de)數(shù)據。LBC 利用(yòng)特權代理(lǐ)來(lái)創建 ∞≠以不(bù)同導航命令為(wèi)條件(jiàn)的(de)假想監督。LAV 認γ←為(wèi),雖然用(yòng)于數(shù)據收集的(de)自(zì)車(chē)很(hěn)少§≤Ω₹(shǎo)有(yǒu)容易發生(shēng)事(shì)故的(de)情況,但(dàn☆®δ)其他(tā)智能(néng)體(tǐ)可(kě)能(néng)經曆過一(yī)些(xiē)安¶↓≠全關鍵或有(yǒu)趣的(de)情況。因此✔♣,它包括其他(tā)智能(néng)體(tǐ)的 ₹₽±(de)軌迹進行(xíng)訓練,以促進數(shù)據多(duō)樣§♣€¶性。
領域×✘适配(DA)是(shì)一(yī)種遷移₹σ學習(xí),其中目标任務與源任務相(xiàng)同,但(dàn)領≠★ 域不(bù)同。在這(zhè)裡(lǐ),我們討(tǎo)論源域有(yǒוu)可(kě)用(yòng)标簽而目标域沒有(yǒuφ♣♠)标簽或可(kě)用(yòng)标簽數(shù)♣$∑量有(yǒu)限的(de)場(chǎng)景。域随機(jī)化(huà)也(yě)是(₽γshì)一(yī)種簡單有(yǒu)效的(de)技(jì)術(shù),用(yòng)于在模拟≠>器(qì)中進行(xíng) RL 策略學習(xΩ∏÷í)的(de)模拟到(dào)真實的(de)适應,并進一(yī)步适用(yòngα≠)于端到(dào)端自(zì)動駕駛。它是(shì♠π)通(tōng)過随機(jī)化(huà)模拟器(qì)的(de)渲染和(hé)物™₹₹(wù)理(lǐ)設置來(lái)實現(xiàn)的δ∏'(de),以覆蓋訓練過程中現(xiàn)實世αΩ界的(de)可(kě)變性,并獲得(de)€§具有(yǒu)良好(hǎo)泛化(huà)↕能(néng)力的(de)訓練策略。
 •♠ ↓;如(rú)圖8(c)所示,自(zì)動駕駛任務的(de)領域适應包含幾種情況。這(δ'¥zhè)裡(lǐ)需要(yào)注意的(de)是(shì)≥ε,上(shàng)述情況經常重疊。
① 模拟到(dào)真實:用(yòng)于訓練的(de)模拟器(qì)與用(yòng)于部署的(de)現(xià ♣¶n)實世界之間(jiān)存在巨大(dà)差距。
② 地(dì)理(lǐ)位置到(dào)地(dì)理(lǐ)位置:不(bù)同的(de)地(dì)理(lǐ)位ε₽®ε置具有(yǒu)不(bù)同的(de)環境外(wà©i)觀。
③ 天氣變化(huà):由雨(yǔ)、霧和(hé)雪(xuě)等天氣條件(jiàn)引起的(de)傳感器→≈δ(qì)輸入變化(huà)。
④ 晝夜:傳感器(qì)輸入的(de)照(zhào)度變化(huà)。
⑤ 傳感器(qì)與傳感器(qì)之間(jiān):傳感器(qì)特性可(kě)能(néng)存在差異,例如(rú)分(fēn)辨率和(h↔↑ é)相(xiàng)對(duì)位置。
VISRI等人(rén)使用(y±→≈òng)翻譯網絡将模拟圖像映射到(dào)真實圖像,并使用(yòng)分(fēn)割圖作(zuò) ≥¶♦為(wèi)中間(jiān)表示。強化(huà)學習(xí)代理(lǐ)根據翻∑±譯後的(de)模拟圖像進行(xíng)訓練。通(tōng)過圖像翻譯器(qì)和(hé)¥↓✘≈鑒别器(qì)實現(xiàn)域不(bù©≈$)變特征學習(xí),将兩個(gè)域的(de)圖像★✘≠映射到(dào)公共潛在空(kōng)間(jiān)。類似地(dì),LUSR ✘γ ≤采用(yòng)循環一(yī)緻 VAE 将圖像投影(yǐng)到(dào)由特定領域部分(fē ↔n)和(hé)通(tōng)用(yòng)領域部分(fēn)組成的(de)潛在表示中,并λ → 在此基礎上(shàng)學習(xí)策略。UAI♠✔§↕L 通(tōng)過将不(bù)同天氣條件(jiàn)下(xià)的(de)圖像分(fēn★₽α)解為(wèi)可(kě)區(qū)分(fēn)的€↑'ε(de)風(fēng)格空(kōng)間(jiān)和(hé)與 GA≤↕↕N 共享的(de)內(nèi)容空(kōng)間(jiān)來(lái)實現₹₩(xiàn)天氣到(dào)天氣的(de)适應。在SESR 中,從(cóng)語 &>義分(fēn)割掩模中提取類解纏結編碼,以減少(shǎo)模拟器(qì)中的(de)圖像與現"↓(xiàn)實世界之間(jiān)的(de)域差距。
♦☆≠ 目前,通(tōng)過源目标圖像映射或域不(bù)變特征學習(xí)進行(xíng)模σλ€✘拟到(dào)真實的(de)适應是(sh♠↑©ì)端到(dào)端自(zì)動駕駛的(de)焦點。其他(tā)領域适 ε≠應案例,例如(rú)地(dì)理(lǐ)到(dào)地(dì)理(lǐ)或天氣到(d& ào)天氣的(de)适應,是(shì)通(tōng)過訓練數(shù)據集的(de)多(duō↓)樣性和(hé)規模來(lái)處理(lǐ)的(de)。由于激光(guāng)雷達已成為♥®(wèi)一(yī)種流行(xíng)的(de)駕駛輸入方式,鑒于當前的(de)工(←←gōng)作(zuò)主要(yào)集中在基于圖像φ¥←"的(de)自(zì)适應上(shàng),因此還(hái)必須設計(jì)适合激光(g÷"<₽uāng)雷達特性的(de)特定自(zì)适應技(jì)術(shù)。此外(wài),→± 應注意交通(tōng)人(rén)員(yuán)的(de)行(xíng)♣★為(wèi)和(hé)模拟器(qì)與現(xiàn)實世界之間(jiān)的(de)交通(tō¶≠≤↑ng)規則差距,因為(wèi)當前的(de•™>)方法僅關注圖像中的(de)視(shì)覺差距。通(tōng)過 Ne∑₩₽RF 等技(jì)術(shù)将現(xiàn)實世界的(de)數(shù)據納入模拟則是(s γφhì)另一(yī)個(gè)有(yǒu)前途≤ 的(de)方向。
7、未來(lái)趨勢
考慮到(dào)所討(tǎo)論的(de)挑戰和(h∞↑é)機(jī)遇,本文(wén)列出了(le)未來(lái)研究的(de)一(y♣¶ ®ī)些(xiē)關鍵方向,這(zhè)些(xiē)方向可(kě)能(néεφng)會(huì)在該領域産生(shēng)更廣泛的(de)影(yǐng)響。
7.1 零樣本和(hé)少(shǎo)樣本學習(x >í)
自(zì)動駕駛模型最終不(bù)可(kě)☆αα避免地(dì)會(huì)遇到(dào)超出訓練數(shù)據分(fēn∏☆)布範圍的(de)現(xiàn)實場(chǎng)景。這(zhè)就(jiù)提出了(le)一(y♥≠ī)個(gè)問(wèn)題:我們是(shì)否可(kě)以成功地(dì)将模型适∑₩π±應一(yī)個(gè)看(kàn)不(bù)見(jiàn)的(de)目标領域 δ,其中可(kě)用(yòng)的(de)标記數±★(shù)據是(shì)有(yǒu)限的(de)甚至沒有(yǒu)。将這(zhè)項任務形式化(✔ huà)為(wèi)端到(dào)端駕駛領域并結合零樣本/少(shǎo)樣本學習(xí)文(wén≤®∞)獻中的(de)技(jì)術(shù)是(shì)實現(xiàn)這(zhè♦¥✘∑)一(yī)目标的(de)關鍵步驟。
7.2¶ 模塊化(huà)端到(dào)端規劃
模塊化(huà)端到(dào)端規劃框架優化(huà♣÷)多(duō)個(gè)模塊,同時(shí)優先考慮下(xià)遊規劃任務,其具有(yǒλ∑★u)可(kě)解釋性的(de)優勢,某些(xiē)行(xíng)業(yè)解決方案(Te↓®sla、Wayve 等)也(yě)涉及類似的(de)想法。在設計γ(jì)這(zhè)些(xiē)可(kě)微(wēi)感知(z←±♣≠hī)模塊時(shí),會(huì)出現(xiàn)一(yī)些(xiē)關于損失函數(γ↔shù)選擇的(de)問(wèn)題,例如(rú)用(yòng)于對(duì)象檢測的(de) ✔♣¶3D 邊界框的(de)必要(yào)性、占用(yòng)表示是(shì)否足以檢測一(Ω★yī)般障礙物(wù),或者選擇 BEV 分(fēn)割相(xiàng)對(duì)于 β車(chē)道(dào)的(de)優勢靜(jìng)态場(chǎng)景σ€β感知(zhī)的(de)拓撲。
7.3 數(shù)據引擎
大(d₽♥à)規模、高(gāo)質量數(shù)據對(duì)于自(zì)動駕駛的(de)重要(≈≠yào)性怎麽強調都(dōu)不(bù)為(wèi)過。建立具↑β↕有(yǒu)自(zì)動标記管道(dào)的(♠↑de)數(shù)據引擎可(kě)以極大(dà>≥™♣)地(dì)促進數(shù)據和(hé)模型的 "(de)叠代開(kāi)發。自(zì)動駕駛的(de)數(shù)據引擎,特别是(sh§®ì)模塊化(huà)的(de)端到(dào)端規劃系統,需要(≤β ✘yào)借助大(dà)型感知(zhī)模型,以自(∏≠±zì)動的(de)方式簡化(huà)高(gāo)≈←♣質量感知(zhī)标簽的(de)标注過程。它還(hái)應該α←Ωγ支持挖掘困難/極端情況、場(chǎng)景生(shēng)成和(hé)編輯,÷✔以促進數(shù)據驅動評估。促進數(shù)據的(de)多(duō)樣性×↕和(hé)模型的(de)泛化(huà)能(néng)力≤¥γ。數(shù)據引擎将使自(zì)動駕駛模型能(néng)夠不(bù)斷改進'>×。
7.4 基礎模型
π↓↕↑語言和(hé)視(shì)覺大(dà)型基礎模 ×≈型的(de)最新進展對(duì)社會(huì)的(de)各個(gè)方✘→面産生(shēng)了(le)重大(dà)影(yǐng)響。大(dà)規模數(shù∏ε)據和(hé)模型能(néng)力的(de)利用(yòng)釋放(fàng)了(le)人( ©→®rén)工(gōng)智能(néng)在高(gāo)級推理(lǐ)任務中的(de)巨"大(dà)潛力。微(wēi)調或即時(shí)學習(xí)的(de)範式、自(zì)監督€重建或對(duì)比對(duì)形式的(de)優化(h₽↓ uà)以及數(shù)據流水(shuǐ)線等都(dōu)适用(yòng)于端到(dào)端端自¥♦(zì)動駕駛領域。然而,直接語言模型注入自(zì)動駕駛代理(lǐ)似乎在兩個(gè)目标σ≤的(de)不(bù)同目标之間(jiān)不(bù)一(yī)緻。自(zì)主代理¥>(lǐ)的(de)輸出通(tōng)常需要(yào)穩定且準确的(de)測量,而語言模型中的α∏π(de)生(shēng)成序列輸出旨在表現(xiàn)得(de)像人(rén≥☆)類,而不(bù)管其準确性如(rú)何。開(kāi)發大(dà)型自(zì¶₽)動駕駛模型的(de)一(yī)個(gè)可(kě) ♥行(xíng)解決方案是(shì)訓練一(yī)個(gè)'λ視(shì)頻(pín)預測器(qì),該視(shì)頻(pín)預測器(qì)≈→可(kě)以以 2D 或 3D 方式對(duì)環境進←行(xíng)長(cháng)期預測。為(wèi)了(λ☆le)在規劃等下(xià)遊任務上(shàng)表現(xiàn)良好(hǎo),大(dφ←↔à)型模型的(de)優化(huà)目标需要(yào)足夠複雜(zá),超出幀級感知(z≠α♥πhī)。
7↔Ω∏.5 車(chē)對(duì)萬物(wù)(V2X)
遮擋和(hé)超出感知(zhī)範圍的(de)障礙物(wù)是(shì)現 ♥(xiàn)代計(jì)算(suàn)機(jī)視(shì)覺技(jì)∑ ↕術(shù)的(de)兩個(gè)基本挑戰,這(zhè)甚至 ↑會(huì)給人(rén)類駕駛員(yuán)在需要(yào)對(duì)交叉代理(lǐ)↑做(zuò)出快(kuài)速反應時(shí)帶來(lái)很(hěn)←©↕大(dà)困難。車(chē)對(duì)車(chē)(V2V)、車(c≥↕hē)對(duì)基礎設施(V2I)和(hé)車(chē)對(duì)βα✘α一(yī)切(V2X)系統為(wèi)解決這(zhè)個(gè)難題提供了(le§↔₩)有(yǒu)前景的(de)解決方案,來(lái)自(zì)不(bù)同觀點的(₹☆de)信息補充了(le)自(zì)車(chē)盲點。這(zhè)些÷"(xiē)系統見(jiàn)證了(le)多(duō)智能(néng)體(tǐ)場(chǎnσ≥♠ g)景信息傳輸機(jī)制(zhì)的(de)進步,可(kě)以提供一(yī)種解決方案來↔•≥↑(lái)實現(xiàn)自(zì)動駕駛車(chē)輛(liàng)之間(jiān)的(de)高✔✔π(gāo)級決策智能(néng)。
總結
本文(wén)對(duì∑©α)端到(dào)端自(zì)動駕駛系統的(de)研發現(xiàn)狀進行(xí←$ng)了(le)全面分(fēn)析,涵蓋→₩"§了(le)端到(dào)端自(zì)動駕駛的(de)動機(jī)、路(lù)線α λ×圖、方法論、挑戰和(hé)未來(lái)&£趨勢。重點介紹了(le)幾個(gè)關鍵挑戰,包括多(duō)模态、可(kě₽)解釋性、因果混亂、穩健性和(hé)世界模型等。此外(wài®♠$),我們還(hái)討(tǎo)論了(lΩ™e)基礎模型和(hé)視(shì)覺預訓練方面的(de)當前進展,以及如(rú)何将這(zh↑≥↓♦è)些(xiē)技(jì)術(shù)整合到(dào)端到(dào)端駕∑φ駛框架中。端到(dào)端自(zì)動駕駛面臨著(zhe)巨大(dà)的(de)機(j•∏ī)遇和(hé)挑戰,基于端到(dào)端研發現(xiàn)狀的(de)基本方法,通±≈∞(tōng)過擁抱快(kuài)速發展的(de)基礎模型和(hé)數(shù)據引→φ擎的(de)努力,并強調了(le)廣泛的(de)關鍵挑戰提出≈∑↕©有(yǒu)希望的(de)解決方案,最終針£✘∏對(duì)智能(néng)汽車(chē)打造多(duō)面σ≠智能(néng)體(tǐ)是(shì)我們這(zhè)代人(rσ≠én)可(kě)以完全預見(jiàn)的(de)。