你的AI技能沒你想的那麼值錢？！

點擊上方關注，All in AI中國

我們正處於AI熱潮，機器學習專家掌握非凡的薪水，投資者在會見AI初創公司時，會敞開他們的心扉和支票簿。這樣做是正確的：因爲它是每代就會發生一次的轉型技術之一。AI技術最終將留下來，它將改變我們的生活。

這並不意味着你的AI創業成功變得很容易。我認爲，任何試圖圍繞人工智能建立業務的人都會遇到一些“陷阱”。

我的兒子和我，使用藝術風格遷移處理圖像。這項技術激發了我對深度學習的興趣。

你的AI技能正在貶值

2015年，我還在谷歌並開始玩DistBelief（他們後來將其重命名爲TensorFlow）。說實話使用起來沒有那麼順手，主要的抽象還不符合你的預期。讓它在Google構建系統之外工作的想法，簡直是一個白日夢。

在2016年底，我正在研究在組織病理學圖像中檢測乳腺癌的概念驗證。我想使用遷移學習：採用Inception，它是當時谷歌最好的圖像分類架構，並使用癌症數據進行重新訓練。我會使用Google提供的預訓練過程中的權重，只不過更改了頂層以匹配我正在做的事情。在TensorFlow經過長時間的試驗和錯誤之後，我終於想出瞭如何操縱不同的層，並使其大部分發揮作用。這需要花費大量的毅力並閱讀TensorFlow的資料來。至少我不必過於擔心依賴關係，因爲TensorFlow準備了Docker鏡像。

在2018年初，由於缺乏複雜性，上面的任務不適合實習生的第一個項目。多虧了Keras（TensorFlow上的一個框架）你可以用幾行Python代碼就完成它，並且它不需要深入瞭解你在做什麼。但有一個痛點是超參數調整。如果您有深度學習模型，您可以調整多個參數，如圖層的數量和大小等。但如何獲得最佳配置並非易事，而且一些直觀的算法（如網格搜索）效果不佳。你最終進行了大量的實驗，感覺更像是一門藝術，而不是一門科學。

在我寫下這些文字（2019年初）時，谷歌和亞馬遜提供自動模型調整服務（Cloud AutoML，SageMaker），微軟正計劃這樣做。我預測，手動模型調優將會像渡渡鳥一樣滅亡，而對於機器學習工程師來說，這也算是一種很好的解脫。

我希望你能看明白這後面的模式。困難的事情終將變得容易，你可以在獲得更多的同時減少理解。過去的偉大工程技術在現在聽起來也相當蹩腳，我們不應期望我們目前的成就在將來會更好。這是一件好事，也是一個驚人進步的標誌。我們將這一進步歸功於谷歌等公司，他們正在大力投資這些工具，然後免費贈送給他們。他們這樣做的原因是雙重的。

你被商品化後的辦公室

首先，這是嘗試將其實際產品（即雲基礎設施）的補充商品化。在經濟學中，如果你傾向於一起購買，兩種商品是互補的。一些例子：汽車和汽油，牛奶和穀物，培根和雞蛋。如果其中一個補充的價格下降，對另一個的需求將會上升。雲的補充是運行在它上面的軟件，而AI的東西也具有很好的屬性，它需要大量的計算資源。因此，使其開發儘可能便宜是很有意義的。

特別是谷歌如此熱衷於人工智能的第二個原因是它們在亞馬遜和微軟方面具有明顯的比較優勢。他們早些時候就開始了，畢竟他們推廣了深度學習的概念，所以他們設法抓住了很多人才。他們在開發AI產品方面擁有更多經驗，這爲他們開發必要的工具和服務提供了優勢。

儘管取得了令人興奮的進展，但對於那些在人工智能方面投入巨資的公司和個人來說，這都是壞消息。今天，他們爲您提供了一個堅實的競爭優勢，因爲培養一名稱職的ML工程師需要花費大量時間閱讀論文，並且需要堅實的數學背景。但是，隨着工具越來越好，情況就不再如此。它將更多地是閱讀教程而不是科學論文。如果你沒有很快意識到自己的優勢，那麼一羣帶圖書館的實習生可能會吃掉你的午餐。特別是，如果實習生有更好的數據，這將引出我們的下一個觀點.....

數據比花哨的AI架構更重要

假設你認識兩個AI初創公司的創始人，Alice和Bob。他們的公司籌集了相同數量的資金，並在同一市場上激烈競爭。Alice 在最好的工程師和擁有豐富的人工智能研究經驗的博士上進行投資。而 Bob 則僱傭了平庸但能幹的工程師，並投資她（“鮑勃”是羅伯特的簡稱！）以獲得更好的數據。那麼，你會在哪個公司身上下注。

我會將錢下注在Bob身上。爲什麼呢？從本質上講，機器學習的工作原理是從數據集中提取信息並將其傳遞給模型權重。更好的模型在這個過程中更有效（在時間和/或整體質量方面），但是假設某個足夠的基線（即模型實際上正在學習某些東西），擁有更好的數據將會勝過更好的架構。

爲了說明這一點，讓我們做一個快速的測試。我創建了兩個簡單的卷積網絡，一個是“更好”的網絡，另一個是“更差”的網絡。最好的模型的最後一個密集層有128個神經元，而較差的一個只需要64個。我在MNIST數據集的子集上對這兩個模型進行訓練，並繪製模型在測試集上的精確度與訓練的樣本數的關係圖。

藍色是“更好”的模式，綠色是“更糟糕”的模式

訓練數據集大小的積極影響是顯而易見的（至少在模型開始過度擬合和準確平臺之前是這樣）。代表“更好”的模型，藍線，明顯優於“更糟糕”的模型的綠線。然而，我想要指出的是，在4萬個樣本上訓練的“更差”模型的準確性優於3萬個樣本的“更好”模型！

在我的示例中，我們處理的是一個相對簡單的問題，我們有一個全面的數據集。在現實生活中，我們通常沒有這樣的奢侈品。在許多情況下，您永遠也無法逃避圖表中增加數據集具有如此顯著效果的部分。

更重要的是，Alice的工程師實際上並沒有與Bob的人競爭。由於人工智能社區的開放文化及其對知識共享的重視，他們還與谷歌，Facebook，微軟和全球數千所大學的研究人員展開競爭。如果您的目標是解決問題（而不是對科學作出原創貢獻，那麼）採用文獻中描述的最佳表現並將其重新訓練成您自己的數據是一個經過實戰檢驗的策略。如果現在沒有什麼可用的東西，通常需要等待一兩分鐘，直到有人提出解決方案。特別是你可以做一些事情，比如舉辦一場Kaggle比賽，以激勵研究人員調查你的特定問題。

良好的工程設計始終很重要，但如果您做的是人工智能的話，那麼數據就是創造競爭優勢的關鍵因素。然而，最重要的問題是，你是否能夠保持自己的優勢。

在AI中，保持競爭優勢很難

憑藉她優秀的數據集Bob成功地與Alice競爭，她做得很好。她推出了自己的產品，並且正在穩步增加市場份額。她甚至可以開始聘用更好的工程師，因爲坊間傳言她的公司是合適的選擇。

Chunk 想要趕進度，但他比Bob有更多的錢。在構建數據集時，這很重要。通過向其投入資金來加速工程項目非常困難。事實上，分配太多新人可能會阻礙項目的發展。但是，創建數據集卻是另外一種不同的問題。通常，它需要大量人工操作 - 您可以通過僱用更多勞動力來輕鬆擴展其規模。或者可能是有人擁有數據 - 那麼你所要做的就是支付許可費。無論如何，有錢好辦事。

爲什麼Chuck能夠籌集到比Bob更多的錢？

當創始人發起新一輪融資時，他們會試圖平衡兩個可能存在衝突的目標。他們需要籌集到足夠的資金才能勝出。但是，他們又不能籌集太多的資金，因爲這樣以來就會導致公司股權被過度稀釋。接受外部投資者就意味着出售公司的一部分。創始團隊必須在初創公司中保持足夠份額的股份，以免他們失去創業的動力（要知道，創業可是一項艱苦的工作！）

另一方面，投資者也希望他們的投資是投在有着巨大潛力的點子上，但他們必須控制風險。隨着感知風險的增加，他們會要求公司爲他們支付的每一美元提供更多的股票份額。

當 Bob 籌集資金的時候，這是信心上的一次飛躍：人工智能能夠真正提升她的產品。不管她作爲創始人的素質如何，也不管她的團隊有多優秀，毫無疑問，她一直在努力攻克的問題難以解決。而 Chunk 的情況非常不同，他知道這個問題是很容易解決的，因爲 Bob 的產品就是活生生的證據！

Bob 應對這一挑戰的可能反應之一是發起另一輪新的挑戰。她應該處於有利地位，因爲（目前）她在這場競賽中仍然保持領先。然而，情況可能會更復雜。如果 Chunk 可以通過戰略關係確保能夠對數據的訪問呢？遇到這種情況該怎麼辦？例如，假設我們正在討論一家癌症診斷初創公司，那麼 Chunk 可以利用他在一家重要醫療機構的內部地位，與該機構達成私下交易，而 Bob 很可能無法做到這點。

你的產品應該是可防禦的，最好是有一條很深的護城河

那麼，你將如何爲人工智能產品構建可維護的競爭優勢呢？

前段時間我有幸與 Microsoft 研究院的 Antonio Criminisi 交談。他的想法是，這個項目的祕密武器不應該只由人工智能組成。例如，他的 InnerEye 項目除了利用了人工智能外，還用到了經典（不是基於機器學習）的計算機視覺來分析放射圖像。

從某種程度上來說，這可能和你創辦人工智能初創公司的初衷不一樣。不過，將數據扔到模型並看到它工作的能力還是非常有吸引力的。然而，傳統的軟件組件更難重現，因爲這種組件往往需要程序員思考算法，並利用一些難以獲得的領域知識才能構建。

人工智能最好像槓桿一樣使用

對業務進行分類的一種方法是，看它是直接增加價值，還是爲某些其他價值來源提供槓桿作用。讓我們以一家電子商務公司爲例。如果你創建了新的產品系列，那麼你可以做到直接增加價值。以前什麼都沒有，現在有了小商品，客戶就可以爲它們支付費用。另一方面，建立新的分銷渠道相當於起到槓桿作用。比如，通過開始在 Amazon 上銷售你的小商品，你就可以將銷售量翻倍。削減成本也是一種槓桿，如果你與中國的小商品供應商達成更好的交易談判，那麼，你的毛利率將會翻一番。

相比直接施力，槓桿更有可能推得更遠。但是，槓桿只有在與直接價值來源耦合時纔會起作用。如果你將微小的數進行加倍，它就不會停止變小。如果你沒有小商品出售的話，那麼，獲得新的分銷渠道就是浪費時間。

在這種情況下，我們應該如何看待人工智能呢？有很多公司試圖將人工智能作爲它們的直接產品（如用於圖像識別的 API 等）。如果你是人工智能專家，那麼這個想法可能非常誘人。然而，這實在是一個非常槽糕的主意。首先，你是在與 Google、Amazon 等公司競爭。其次，製造真正有用的通用人工智能產品是非常困難的。比如，我一直想使用 Google 的 Vision API。不幸的是，我們還沒有遇到這樣的一個客戶：他的需求與我們的產品完全匹配。它要麼是太多，要麼是不夠，總是這樣。定製開發可比在圓孔中釘入方形樁釘要好多了。

綜上所述，我們可以得出一個結論：將人工智能視爲槓桿是更好的選擇。你可以採用現有的、可行的商業模式，並通過人工智能來增強它。例如，如果你有個流程依賴於人類的認識勞動力，那麼，將這一流程自動化可以提高你的毛利率。我能想到的一些例子是心電圖分析、工業檢查、衛星圖像分析等等。同樣令人興奮的是，因爲人工智能留在後端，所以你有一些非 AI 選擇來形成並保持你的競爭優勢。

結論：

人工智能是一種真正的革命性技術。但是，將你的初創公司建立在人工智能之上可是一件非常棘手的事情。你不應該僅僅依賴於你的人工智能技能，因爲，它們會因更大的市場趨勢而貶值。

構建人工智能模型可能是一件非常有趣的事情，但真正重要的事情是擁有比競爭對手更好的數據。要知道，保持住競爭優勢是很難的事情，特別是如果遇到的是比你更有錢的競爭對手時，而你剛有了人工智能的點子，那麼這種情況很可能會發生。

因此，你的目標應該是創建一個可擴展的數據收集過程，這個過程很難被競爭對手複製。人工智能非常適合顛覆依賴低資質人員認知工作的行業，因爲它允許自動化這類工作。

作者：Ric Szopa