你的人工智慧技能沒你想的那麼有價值

知識 01-13

你的人工智慧技能沒你想的那麼有價值

我們正處於人工智慧熱潮之中。機器學習專家的薪水高得驚人，投資者在遇到人工智慧初創企業時，很樂於敞開心扉，打開支票簿。這樣做是正確的:這是那些每一代人發生一次的變革性技術之一。這項技術會留下來，並將改變我們的生活。

這並不意味著讓你的人工智慧創業成功是件容易的事。我認為，在任何人試圖圍繞人工智慧進行創業之前，都存在一些重要的陷阱。

你的AI技能的價值正在下降

你的人工智慧技能沒你想的那麼有價值

我的兒子和我，圖片使用Artistic Style Transfer處理。

2015年，我還在谷歌工作，開始玩DistBelief(後來改名為TensorFlow)。它糟糕透了。它寫起來非常笨拙，主要的抽象並不完全符合你的期望。讓它在谷歌構建系統之外工作簡直是是白日做夢。

在2016年底，我致力於在組織病理學圖像中檢測乳腺癌的概念驗證。我想使用傳輸學習:採用了當時谷歌最好的圖像分類體系架構Inception，在我的癌症數據上重新訓練它。我將使用谷歌提供的經過預先訓練的初始權重，只是更改頂層以匹配我所做的工作。經過長時間的嘗試,以及TensorFlow中出現的錯誤，我終於學會了如何操作不同的層，並使其大多數都可以工作。這項工作需要很大的毅力和閱讀TensorFlow的資料。至少我不用太擔心依賴關係，因為TensorFlow的開發者很仁慈地為我們準備了一個Docker映像。

2018年初，由於缺乏複雜性，上述任務並不適合作為實習生的第一個項目。多虧了Keras (TensorFlow頂層的一個框架)，你只需幾行Python代碼就可以完成它，而且不需要深入理解你正在做什麼。仍然有點痛苦的是超參數調優。如果你有一個深度學習模型，你可以操作多個旋鈕，如層的數量和大小等。如何得到最優配置不是一件小事，一些直觀的演算法(如網格搜索)表現不佳。你需要做很多實驗來完成它，它更像是一門藝術而不是科學。

在我寫這些的時候(2019年初)，谷歌和亞馬遜開始提供自動模型調優服務(Cloud AutoML，SageMaker)，微軟也計劃這樣做。我預測手動調優將步渡渡鳥的後塵（渡渡鳥是除恐龍外最著名的已滅絕動物之一），而且這也是一種很好的解脫。

我希望你們能看到這個模式。困難變得容易，即使理解得很少，你也可以得到更多。過去偉大的工程技術開始顯得稍遜一籌，當然我們也不能指望我們現在的成就在未來會進展更好。這是一件好事，也是偉大進程的標誌。我們把這一進程歸功於谷歌這樣的公司，它們在這些工具上投入了大量資金，並免費提供使用。他們這樣做有兩個原因。

你的人工智慧技能沒你想的那麼有價值

你商業化之後辦公室

首先，這是對他們實際產品(即雲基礎設施)的一種商品化的嘗試。在經濟學中，如果你傾向於同時購買兩種商品，那麼這兩種商品是互補的。一些例子如:汽車和汽油，牛奶和穀物，培根和雞蛋。如果一種互補品的價格下降，另一種互補品的需求就會上升。對雲計算來說互補品就是在其上運行的軟體，而人工智慧也有一個很好的特性，那就是它需要大量的計算資源。因此，儘可能降低開發成本是很有意義的。

谷歌對人工智慧如此熱衷的第二個原因是，它們相對於亞馬遜和微軟擁有明顯的比較優勢。他們起步較早，正是他們普及了深度學習的概念，所以他們成功地搶走了很多人才。他們在開發AI產品方面有更多的經驗，這使他們在開發必要的工具和服務方面具有優勢。

儘管這一進展令人興奮，但對於那些在人工智慧技能上投入巨資的公司和個人來說，這都是一個壞消息。如今，它們為你提供了堅實的競爭優勢，因為培訓一名有能力的ML工程師需要花大量時間閱讀論文，並從紮實的數學基礎開始。然而，隨著工具越來越好，情況將不再是這樣。它將更多的是關於閱讀教程而不是科學論文。如果你沒有很快意識到自己的優勢，一群圖書館的實習生可能會吃掉你的午餐。特別是，如果實習生有更好的數據，這就引出了我的下一個觀點……

數據比花哨的人工智慧架構更重要

假設你有兩個AI創業公司的創始人，Alice和Bob。它們的公司籌集的資金大致相同，在同一個市場上激烈競爭。Alice投資最好的工程師，以及在人工智慧研究方面有良好記錄的博士。Bob僱傭了平庸但有能力的工程師，並將她(「Bob」是Roberta的縮寫)的資金投資在獲取更好的數據上。你會把錢押在哪家公司?

我的錢將完全押在鮑勃身上。為什麼?從本質上來說，機器學習是通過從數據集中提取信息並將其傳遞給模型權重來實現的。一個更好的模型在這個過程中(在時間和/或整體質量方面)更加有效，但是假設一些充分性基線(也就是說，模型實際上正在學習一些東西)，更好的數據將勝過更好的架構。

為了說明這一點，讓我們進行一個快速而粗略的測試。我創建了兩個簡單的卷積網路，一個「更好」，一個「更差」。較好的模型的最後一層緻密層有128個神經元，而較差的一層只有64個。我對它們進行了不斷增大的MNIST數據集子集的訓練，並將模型在測試集上的準確性與它們所訓練的樣本數量進行了繪圖。

你的人工智慧技能沒你想的那麼有價值

藍色代表「更好」模型，綠色代表「更差」模型

訓練數據集大小的積極作用是明顯的(至少在模型開始擬合和精度達到穩定水平之前是如此)。我的「更好」的模型，藍線，明顯優於「更差」的模型，綠線。但是我想指出的是，在4萬個樣本上訓練的「更差」模型的準確率要比在3萬個樣本上訓練的「更好」模型的準確率高!

在我的假設例子中，我們正在處理一個相對簡單的問題，並且我們有一個全面的數據集。在現實中，我們通常沒有這麼多的數據。在許多情況下，你永遠無法逃脫圖表中增加數據集具有如此顯著效果的部分。

更重要的是，Alice的工程師實際上不僅僅是在和Bob的人競爭。由於人工智慧社區的開放文化及其對知識共享的重視，他們還在與谷歌、Facebook、微軟和全球數千所大學的研究人員競爭。如果你的目標是解決一個問題(而不是對科學做出最初的貢獻)，那麼採用目前文獻中描述的性能最好的體系結構並根據你自己的數據對其進行再訓練是經過實戰檢驗的最佳策略。如果現在沒有什麼好東西可用，那通常需要等待一兩個季度，直到有人提出解決方案。特別是你可以舉辦一個Kaggle競賽來激勵研究人員研究你的特定問題。

好的工程設計總是很重要的，但是如果你在做人工智慧，數據是創造競爭優勢的關鍵。然而，最重要的問題是，你是否能夠保持你的優勢。

在人工智慧領域，保持競爭優勢是困難的

由於她的優越數據集Bob成功地與Alice競爭，並且做得很好。她推出了自己的產品，並穩步擴大市場份額。她甚至可以開始僱傭更好的工程師，因為在大街上有傳言說，去她的公司再合適不過。

你的人工智慧技能沒你想的那麼有價值

Chuck有一些工作要做，但是他比Bob有錢多了。這在構建數據集時很有用。通過砸錢來加快一個工程項目的進度是很難的。事實上，分配太多的新人會阻礙開發。然而，創建數據集是另一類問題。通常，這需要大量的體力勞動——你可以通過僱傭更多的人來輕鬆地規模化。或者可能是某人擁有數據——那麼你所要做的就是支付許可證費用。無論如何，錢會讓它進行的更快。

為什麼Chuck能比Bob籌到更多的錢?

當創始人發起一輪融資時，他們試圖平衡兩個可能存在衝突的目標。他們需要籌集足夠的資金來獲勝。但它們不能籌集太多資金，因為這會導致股份過度稀釋。接受外部投資者意味著出售公司的一部分。創始團隊必須在初創企業中持有足夠高的股份比例，以免失去動力(運營一家初創企業是一項艱難的工作!)

另一方面，投資者希望投資那些具有很大上升潛力的創意，但他們必須控制風險。隨著可感知風險的增加，他們會要求公司為他們支付的每一美元支付更大的份額。

當Bob籌集資金的時候，她堅信AI將有助於她的產品。但是不管她作為創始人的能力如何，也不管她的團隊有多優秀，她一直都沒有解決的問題是，為什麼這個問題只有她能解決。Chuck的情況很不一樣。他知道這個問題是可以解決的:Bob的產品就是活生生的證明!

Bob對這一挑戰的一種潛在反應是發起另一輪融資。她應該處於有利的地位，因為(目前)她仍處於領先地位。然而，情況可能更為複雜。如果Chuck可以通過一種戰略關係來確保數據訪問的安全呢?例如，假設我們正在談論一家癌症診斷初創公司。Chuck可以利用他在一家重要醫療機構的內部地位，與該機構達成私下交易。Bob很可能不可能做到這一點。

你的人工智慧技能沒你想的那麼有價值

你的產品要具有防禦性，最好有一個很深的護城河

那麼，如何為你的AI產品建立可維護的競爭優勢呢?不久前，我有幸與微軟研究院的Antonio Criminisi交談。他的想法是，這個項目的秘密武器不應該只是人工智慧。例如，他的InnerEye項目使用人工智慧和經典(不是基於ML的)計算機視覺來分析放射圖像。從某種程度上說，這可能與你當初為什麼要創辦人工智慧公司不一致。將數據扔向模型並觀察其工作的能力非常有吸引力。然而，傳統的軟體組件(這類組件要求程序員考慮演算法，並利用一些難以獲得的其他領域知識)複製起來要困難得多。

最好像槓桿一樣使用人工智慧

對商業中的某些東西進行分類的一種方法是，它是直接增加價值，還是為其他一些價值來源提供槓桿。讓我們以一家電子商務公司為例。如果你創造了一條新的產品線，你就直接增加了價值。以前什麼都沒有，現在有了小配件，客戶可以為它們付費。另一方面，建立新的分銷渠道是一種手段。通過在亞馬遜上銷售你的小配件，你可以使你的銷售量翻倍。削減成本也是一種槓桿。如果你和中國的配件供應商洽談一個更好的交易，你可以把毛利潤提高一倍。

槓桿比直接施力的效果好很多。然而，槓桿只有在與直接價值源耦合時才有效。如果你把一個極小的數字增加一倍或三倍，它會變的更小。如果你沒有小配件可賣，獲得一個新的分銷渠道是浪費時間。

這種背景下，我們應該如何看待AI ?有很多公司試圖把人工智慧作為他們的直接產品(圖像識別API和類似的API)。如果你是一個人工智慧專家，這可能非常誘人。然而，這是一個非常糟糕的主意。首先，你要與像谷歌和亞馬遜這樣的公司競爭。其次，製造真正有用的通用AI產品非常困難。例如，我一直想使用谷歌的Vision API。不幸的是，我們從來沒有遇到過這樣的客戶，他們的需求與我們的產品完全匹配。它總是太多，或者不夠，相比於在一個圓孔中適配一個方釘的工作量，定製開發更可取。

一個更好的選擇是把人工智慧當作一個槓桿。你可以採用現有的、可行的商業模式，然後用人工智慧對其進行升級。例如，如果你有一個依賴於人類認知勞動的過程，自動化它將為你的毛利潤創造奇蹟。我能想到的例子有心電圖分析，工業檢查，衛星圖像分析。同樣令人興奮的是，由於人工智慧停留在後台，你有一些非人工智慧的選擇來構建和維護你的競爭優勢。

結論

人工智慧是一種真正的變革性技術。然而，將你的初創公司建立在它的基礎上是一件棘手的事情。你不應該僅僅依靠你的人工智慧技能，因為它們正隨著更大的市場趨勢而貶值。建立人工智慧模型可能非常有趣，但真正重要的是擁有比競爭對手更好的數據。保持競爭優勢是很困難的，尤其是當你遇到比你富有的競爭對手時:如果你的AI想法成功，這是很有可能發生的。你應該致力於創建一個可伸縮的數據收集過程，這是很難被你的競爭對手複製的。人工智慧非常適合代替那些依賴經過基本訓練的人們的認知工作的行業，因為它允許將這項工作自動化。

初創公司人工智慧策略雲計算機器學習

你的人工智慧技能沒你想的那麼有價值

英文原文：https://medium.com/@szopa/your-ai-skills-are-worth-less-than-you-think-e4b5640adb4f
譯者：野生大熊貓

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 Python部落 的精彩文章:

※導致Python之父不幹了的PEP 572討論
※Web緩存投毒實戰（四）

TAG:Python部落 |