2020屆NLP小渣渣實習及秋招面試記錄

——————————————<6.4 更新>——————————————

事實證明，之前面的百度和阿里的實習生都掛掉了。。。不過這段時間正好也比較忙，也沒投替他的，放棄了暑期實習，好好準備秋招吧。

<DeeCamp夏令營>

創新工場主辦的夏令營活動，我是五月中旬才看到通知，趕上了第二批的筆試和面試。

筆試內容後續牛客上應該可以搜到，5道選擇，5道填空，還算比較基礎，最後一道填空需要編程，不過我直接跳過了。。

今天進行了視頻面試。大約20分鐘，自我介紹，介紹項目競賽經歷，為什麼想參加，畢業以後的發展規劃，想去哪個公司，向面試官提問。

有的人說會讓現場寫動態規劃或者一些基本的數據結構代碼，不過我面的時候，基本全程都是我在說，面試官偶爾問一下。因為之前準備了一下，全程沒有卡住，整體聊的比較開心，希望能過。

<vivo提前批筆試>

這個筆試可能是最近做過最簡單的了吧，三道編程題，用了50分鐘左右，過了測試用例，以及寫了幾個樣例都過了。第一題是完全送分，，第二題翻轉m到n之間的鏈表。耽誤時間比較多，開始沒看仔細，創建，翻轉，輸出都要完善。第三題，標準的0-1背包

這個提前批的筆試看上去過於簡單，不太像秋招的節奏呀。

記錄一下，希望秋招能開門紅

——————————————<4.19 更新>——————————————

<阿里暑期實習生阿里小蜜團隊>

阿里走的內推，但是也做了一下筆試題。

筆試（4.12）：筆試題是10個選擇加兩道編程。選擇設計到的NLP知識很少，大多是計算機基礎和概率論相關的。編程兩道AC了一道，另一道是動態規劃的題，改了半天還是有問題，沒有全AC。

電話一面（4.18）：時長一小時。本來在牛客網上看很多投阿里的實習生都拿到offer了，我還沒接到面試通知，感覺應該是沒人撈了。下午三點的時候接到阿里的電話，說今明兩天約了時間電話面，然後就直接定了下午五點。面試官是阿里杭州小蜜團隊的，聽聲音就感覺面試官很nice，上來先給我介紹了一下他們團隊目前主要的方向和落地場景，大約五分鐘吧。然後就想讓我做一個兩分鐘的自我介紹，之後基本就算挖簡歷上的項目經歷，再穿插一下業務場景，讓我做一下系統設計。具體問的大概包括，詳細說一下transformer的encoder過程；生成式問答解決生成句子多樣性的方法；怎麼評價生成效果的好壞；介紹LR,SVM和決策樹；分類項目中樣本不均衡問題；pointer-network模型；Bert和ELMO；transformer和LSTM特徵抽取能力比較；過擬合怎麼解決等等。。。整體面試流程走下來，自我感覺還是可以的，希望能進下一輪~~

電話二面（4.22）：時長四十分鐘。正在試驗室，吃著水果哼著歌，突然接到阿里的電話。這次也沒定時間，直接說現在有時間嘛，趕緊跑到樓道里，毫無防備的情況下開始了第二輪面試。感覺整體下來問的不是太深入，比較關注學習能力和知識面的。主要是結合簡歷來聊。NLP的比賽經歷，讓我介紹一下比賽中自己模型的亮點以及遇到的困難。我說最近在對話系統方向上做的比較多，問了一下對話管理的相關方法，以及介紹幾種相似度檢索模型和深度匹配模型，如何解決生成模型的通用性回復問題。接著又聊到了文本翻譯和文本分類問題，小樣本下的深度模型訓練，介紹文本翻譯和對話系統最近的研究進展或者是我覺得值得研究的方向，最後是問平時如果接觸一個新的領域怎麼快速學習的。當然過程中也涉及一些小問題的考察，整體感覺還湊合，開始剛接到電話有些懵，希望有機會下一輪吧~~

<百度暑期實習生機器學習/數據挖掘/自然語言處理崗>

百度是直接在官網申請的，沒有走內推。

筆試（4.2） 筆試一共是四部分，一、選擇：好像是20題，主要是一些C++的代碼輸出分析、計算機網路基礎、數據挖掘相關的理論、以及一些偏行測的題目；二、簡答：大概就是簡述幾種特徵提取方法這類的題；三、系統設計題：根據要求設計一個系統，就寫了個大概思路；四、編程題：兩道，當時是一道全都AC了，另一道過了50%吧。

面試：（4.13） 面試一共三輪，北京的同學是直接現場面，其他地方好像是遠程。記得三輪一共用了5個小時吧，原則上第一、二輪是技術面，第三輪是leader面考察價值觀（不過我三輪都是技術，最後一輪表現太差了，應該是涼了。。）

一面：大約時長70分鐘。面試官應該不是做NLP的，主要是針對簡歷進行提問以及手撕代碼，很多都記不清了，簡歷上的內容面試官了解的也不多，但是問的還是比較細緻深入的。演算法題是，大數相乘。我先說了一下思路，面試官說沒問題，然後開始寫代碼，第一次手撕代碼，寫的比較慢，最後有個地方還是感覺有問題，感覺面試官也沒仔細看，就說可以了。簡歷上主要是聊一下之前做過的京東的多輪對話比賽，面試官說他沒做過深度學習，讓我給他講明白生成式對話的原理，大概說了十來分鐘吧。然後又讓我寫一下做tfidf問句相似度匹配的過程，因為對這些還算熟悉，感覺回答的還可以。接下來的時間基本都是圍繞簡歷在提問，寫了LSTM和attention的公式，講了之前實習中的工作以及另一個百度的對話比賽，基本上簡歷里寫的都問到了。

二面：大約40分鐘。我是被通知下午三點參加面試，可能是二面面試官比較少，一面結束等二面等了一個多小時。二面的面試官應該也不是做NLP，基本也是圍繞簡歷提問，基本上拋出的問題還可以回答，具體的記不太清了。演算法題：給一個json，格式是形如{{ID：1，PID：0}{ID：2，PID：1}。。。。}，PID：0代表其對應的ID為樹的根節點，PID：1代表其對應的ID：2是ID:1的子節點，以此類推，輸出是將其轉化為[[ID:1[ID:2......]......]......]形如這種嵌套的形式。這個題代碼我沒寫完整，耽誤的時間太長了，有點慌，我就說先講下思路吧，大致就是遞歸的思想，講了講遞歸傳遞的參數和終止條件，他說沒問題，也就沒再問了。

三面：大約30分鐘。二面結束後，看三面的同學都在和面試官聊一些類似價值觀測試的話題，算是稍微放鬆了些。等了大概半個小時，有一個面試官剛要下班被HR拉回來了。。。剛坐下，就寫個代碼吧，代碼題不是很難，不過因為比較突然，搞得很緊張，代碼沒寫全，說了說思路就過了。演算法題是，一個二叉樹，從右邊看，同一層的其他節點會被前邊的節點擋住，返回所有能看到的節點。本來以為技術考察也就到這兒了，誰知道才剛開始。兩個大文件，每行是個字元串，同一個文件沒有重複，兩個文件取交集。。真的是沒什麼思路，面試官顯得很不滿意，說哈希桶沒了解過？然後又說了幾種方法，深深感覺自己太弱了，沒聽過。。接下來讓我講一講word2vec的訓練方法，我說了CBOW、SG，然後又解釋了一下，說了說訓練過程的反向傳播，遇到自己能講出來的實在不容易。然後問tensorflow中的emdedding層是如何實現的，我說了一下embedding_lookup函數。stl的map函數底層是怎麼實現的，真是不清楚，感覺面試官表情不是太好，最後問了下xgboost就結束了。

百度目前為止還沒出結果，不過感覺應該是涼了。。。嗚嗚嗚，第一次參加大廠的面試。