智駕實習有感
去年保研結束,11月開始投實習,1月入職小米智駕(決策規(guī)劃方向),打雜兩個月,由于對基于規(guī)則的決策規(guī)劃一點不懂,所以很難學到很多東西,但是對智駕的決策方向有了一個大概的了解。以及個人事務原因,遂跑路。具體學到的東西就不細講了,也沒啥好講的,dirty work有啥講頭?
面經(jīng)見xhs:83 momo發(fā)布了一篇小紅書筆記,快來看吧! ?? 2vB8oWUuK38wFph ?? http://xhslink.com/a/JCqbrSCC3jBeb,復制本條信息,打開【小紅書】App查看精彩內(nèi)容!
然后回到學校,在學校附近找了個中小智駕廠,視覺感知方向,雖然也會有打雜的活,但是還是學到不少東西。
了解過行車感知、泊車感知。泊車感知僅僅幫忙處理了波數(shù)據(jù)(數(shù)據(jù)標簽統(tǒng)計/可視化/驗證),大概知道有哪些任務?(基于IPM的停車位和各種雜物的分割、分類、檢測)
主要跟著mentor干行車視覺,主要任務是目標檢測(其他車輛、人群、障礙物等),好像公司也有車道線檢測的,但是不歸我們干。
學習了mono3d模型、fcos3d模型,我們主要用的行車模型是這個,也了解過一點現(xiàn)在比較火熱的也有 Sparse4d v3模型,各大公司都在引進使用,性能也很不錯,貌似應該是可能是最常用先進有效的模型了,mono3d的話可能更輕便和一些邊緣檢測輔助之類的。
具體總結一下自己干的一些活:一開始是讓我學習坐標系轉(zhuǎn)換(這個貌似是感知的入門基礎),讀mono3d的代碼,fcos3d代碼,然后讓我處理一些評估模型的任務,針對一些已經(jīng)有的模型結果和標簽進行評估性能。
然后后面處理了幾波我們想要買的數(shù)據(jù),進行數(shù)據(jù)可視化驗證,數(shù)據(jù)標簽統(tǒng)計,貌似最后沒買(budong)。
然后開始讓我來訓練模型,看看模型有無可以改進的地方,mentor給了我篇論文,PGD的,概率與幾何深度估計方法(PGD, Probabilistic and Geometric Depth),讓我在我們的fcos3d上面加上去,提高效果,
然后我開始讀論文,讓gpt幫我加上去這個head模塊,PGD 的三個部分DP、DL、DG,最后我只加了兩個上去DP和DL,DG涉及到視角幾何關系傳播深度有點不會,論文也說DP+DL性能已經(jīng)不錯提升了,所有就先開始訓練,一開始loss居高不下,或者是一開始很高,折騰幾天,發(fā)現(xiàn)問題,論文里面的使用的都是smoothL1的loss,我loss_depth使用的好像是連續(xù)深度高斯負對數(shù)似然損失 (NLL),loss_depth_fushed一開始使用的是mse_loss(這個loss真的害人),后面都改成了smoothl1_loss,也加入了歸一化操作,loss才開始和諧下來。總得來說,如果后續(xù)想要真的干智駕視覺感知方向,想進大廠,那Sparse4d v3模型肯定是必須要很會(這樣會很吃香,不過挺難的,聽說組里清華爺讀懂論文和代碼都花了一兩個月多),目前我是學會了mono3d,算是對簡歷和后續(xù)找實習有幫助,不過我研究生科研方向與智駕無關,只能看我能不能接著找好的實習,或者轉(zhuǎn)方向,智駕視覺的崗確實不多,而且一般是車企開,我可能還是更想要去卷互聯(lián)網(wǎng)?現(xiàn)在互聯(lián)網(wǎng)與cv相關的崗,貌似只有多模態(tài)、aigc?純cv的崗已死絕。研究生方向可能會與大模型相關,也許可以試試視覺語言大模型VLM?
技多不壓身,有這倆段智駕實習經(jīng)歷總不是壞事,人生就是要多種嘗試多種活法多種方向,就算是到時候從頭來過,也希望自己能有重新開始的勇氣,而不是在一條末路上死磕,加油。
每個人
都應該有一場不辜負心靈的旅程
嘗試和自己和解
感受在路上不一樣的自我
輕觸不可及的晚霞
丈量無邊的荒原
縱使風吹日曬
也應該自由自在
遠方不一定有你想要的結果
但停在原地一定沒有頭緒
當你不再跟自己較勁
任由世事自然地穿越生命
你會發(fā)現(xiàn)
所有糟糕的人和事
終已成為你成長的契機
內(nèi)心強大不是控制一切
而是允許一切
未來藏在迷霧中
隔著距離
叫人看來膽怯
但當你踏足其中
就會云開霧散

浙公網(wǎng)安備 33010602011771號