想法很美好,現實很骨感,我也不想天天聽項目經理指揮來工作,我也想自己接單。

真實情況是,機器學習演算法工程師比其他程序員更依託平台資源。

怎麼說呢?即使你演算法能力沒問題,但沒有平台資源,你的演算法只是demo,有了平台資源,你的演算法才能變成產品。

具體點說吧。

比如你接外包,要給一個公司構建一個推薦系統。你用給他弄伺服器,然後安裝spark,調試,傳數據,資源管理等等。每項都很費時間,結果你會發現,你開發周邊的時間要比你開發演算法的時間多出幾十倍。

下面這個圖很直觀地解釋了機器學習項目里每個部分要多少投入資源(精力或者人力)。中間那個黑色的,小到字都看不清了的,就是你開發演算法投入的精力。

圖源自:《Hidden Technical Debt in Machine Learning Systems》

https://papers.nips.cc/paper/5656-hidden-technical-debt-in-machine-learning-systems.pdf?

papers.nips.cc

挺值得一讀的論文。

況且演算法依賴數據,你在不知道客戶數據質量的情況下,貿然接個單來開發可以說是無底洞。專業的公司都需要經歷一個數據評估過程才報價的。

如果你要出來自己干,最好有個團隊。但現在出來創業的AI團隊太看背景了,一個團隊十人里五六個常青藤的都未必能拉到投資。

有的做quant的,對數據平台需求就不多,但是對數據本身需求高,對網路延遲要求要夠低,還是很難單幹。。

我認識的機器學習演算法工程師賺外快的出路就只有做AI技術文章,開公眾號,建社群,吸引讀者,做培訓。這是門檻最低的賺外快路子了。但是這麼做副業,倒不如多刷題,然後跳槽,來的漲幅更多。


不可能。

軟體程序員可以接外快或者絕大多數可以接項目單幹的情況都是因為行業為輕資產類型。一般出腦力,出經驗背台電腦就行。

然而機器學習項目顯然是重資產類型,無論是集群,顯卡,還是數據本身。沒有可能脫離生產資料,由勞動者掌控。可預見的是,5-10年內強AI對口專業會和生化材料一樣變成勸退專業…

不如上班努力點看看能不能分到期權股票升值加薪…


說個段子。

17年的時候,廣州某直播平台找了一家做演算法的外包團隊來幫他們構建自己的智能直播推薦系統。

該外包團隊開價數千萬,公司想了下,答應了,但是得先出成果後付款

一年過去,指標只升了一點點。

好巧不巧,公司內部推薦組的有個工程師想了一個簡單的組合排序規則,大概就是用戶歷史看過+熱門+其他的規則,結果效果完爆演算法外包團隊。

該團隊忙了一年,分文未收。

那麼問題來了,我們怎麼才能超過以上的團隊,賺到比公司發的錢更多的收入。


首先既然是自己單幹,那麼你就必須要面臨兩個機器學習方面最大的難點,一個是訓練數據去哪找第二個是硬體資源怎麼解決。由於這兩個限制,語音相關的和圖像相關的就別考慮了,那活就不是個人該乾的活。

既然沒了語音和圖像這兩個ai大項而且還必須找那種數據好收集,規則相對簡單,通過較淺層的神經網路就能實現的項目那目前看來一個方向是nlp,一個方向是金融。

先說nlp,在這個方面個體最容易完成的項目應該就是小語言模型了。現在很多asr里的解碼器其實是將一個大語言模型和一個專項的小語言模型先插值再剪枝之後再compose成有限加權狀態機的,個體很難搞定幾百G文本訓練的大語言模型那用幾個G文本甚至幾百M文本訓練的專項小語言模型總是有可能的吧,只不過就是看你收集文本的能力了。而且ngram語言模型對計算資源要求還真的很低很低。

第二個是金融領域,基於ai的模型擬合分析和未來趨勢預測都是不錯的選擇。而且市場分析模型這種東西對於數據寬度的要求遠遠大於對數據長度的要求(舉個例子就是你能挖掘出多少對某一個時刻的股指數據產生影響並且相互獨立的因素這件事比你能找到多少個時刻的股指數據重要多了)。所以相對而言數據還是比較容易收集的。如果你有心的話從現在開始每隔5-15分鐘收集一次股指數據,儘可能從更多的方面收集不同類型的數據,那幾個月的時間就足夠你收集出一個很優秀的訓練數據集。用這個數據集訓練出的金融分析模型很可能就是目前作為個人所能訓練出的最有價值的ai模型了

當然,如果你作為一個ai演算法真的可以做到私活比工資賺的多那說明你該換工作了。既然你有那個層次的水平,換份工作升職加薪它不香么?


嗯?做機器學習演算法培訓課程。


推薦閱讀:
相关文章