當前位置:
首頁 > 最新 > 從定義一個好問題開始

從定義一個好問題開始

數據或大數據挖掘出來的東西也不一定是對的,只是在邏輯上能走通,如果加上一些公理和推倒,說不定確實是對的。也就是一個問題不一定有完美的答案,但好的邏輯和思考方式卻很重要。定義一個好問題才是一個優秀解決方案的開始。

大多數人在讀研究生期間,前面一年多的時間都在調研文獻,閱讀行業的技術趨勢。入職以後,前面大部分時間也是在調研文獻,了解行業趨勢和技術前沿。其實,這都是在花時間找到一個好問題,找到一個值得研究的問題,用句時髦的話說,就是「戰略上的勤奮」。很多人其實都看不起那些調研文獻的工作,也不太願意去做這些事情,認為這種工作太低端了,沒什麼技術含量。其實不然,這是個技術很高的活,一般人還真做不了。因為很多人都不具備這種分析數據、思考問題本質的能力,而只是把這種工作當成是簡單的數據採集。

從做產品的角度來說,其實就是需求分析以及產品規劃的能力。其一,要能快速的從大量數據資料中,找到關鍵要素,並能沿著關聯要素去提出問題,以找到問題的本質;其二,要能快速的聯想,把你所看到的數據、產品、場景、演算法、技術等聯繫起來,跨行業、跨場景、跨技術,以找到創新型的方案;其三,要能和行業趨勢、商業環境保持高度的一致,不能落後於行業,也不能邁過得太多;其四,嚴密的思考邏輯、對新事物的好奇心,很強的學習能力。

以上幾點可能歸納得還不是很全,但已經很難了。諮詢公司大部分分析師都具有這種商業分析的能力,這就是為什麼頂級諮詢公司一般只要一些名校畢業的學生原因。一般人可能還真的只能做做數據採集的工作,但是數據採集以及簡單的數據分析都正在或逐漸被程序化,商業化的產品分析能力才是保持競爭力的核心。

具體從人工智慧或機器學習的應用來說,最重要的三個核心要素就是數據、演算法和場景。其中,就數據來說,雖然目前很多公司都有了一些數據,如商品數據,支付數據,用戶屬性以及行為數據等,但是,這些數據相對真正物聯網時代的數據來說,還是小巫見大巫,不值得一提;對於演算法,在開源技術以及核心演算法上國內跟國外相比還是相差一大截,很少看到哪個演算法包是自己開發的,所以各公司在起點上大體都差不多,但BAT等巨頭在自動駕駛、量子計算等的投入還是值得期待的。對於場景,就是目前AI落地的核心了。找不到場景,光靠集成一些技術,是不可能商業化的;而場景的設計,大多並不是憑空想像的,而是根據經驗和分析,對行業的了解、對業務流程的了解、對技術的了解、對用戶的了解(當然現階段更多的是對toB用戶的了解)

設計一個完整的場景不容易,涉及到的東西很多,需要站立的角度也比較高,從我現實的業務來看,大致總結為如下幾點:

1.定義一個需要解決的問題;

2.關注問題所涉及的流程;

3.分析解決問題所需要的數據,以及數據的可獲得性,是購買?爬取?模擬?其它?

4.分析實現這個場景所需的技術,是否有開源的技術或直接調用的包?是否能積累有利於公司業務發展的技術?目前的技術實現能力是怎麼樣的?等

其中,定義好問題是一個好的開始,後面幾點都是在考慮這個問題能否實現。舉個例子,AI在智慧城市應用中,我們往往會考慮智慧交通、智慧規劃、智慧園區、智慧環保等方向,然而這些大方向都是很模糊的,拿智慧規劃來說,是指功能區規劃?警力資源規劃?還是指其它資源規劃?不同種類型的規劃,所需要考慮的數據種類、數據量、演算法、可視化、部署的方式等都不一樣,很難說用一個標準的東西去套,而且,在你給別人講,我能幫你做資源規劃的時候,你憑什麼讓別人相信你能做好這個,並願意把相關數據資源提供給你?很難做到。所以,當缺乏標杆方案的時候,應該如何展開一個標杆方案呢?最重要的就是定義好一個問題,一方面,這個問題能滿足標杆客戶的需求,也能滿足上述4點要求(自己去構造和設計一個滿足需求的場景,根據場景來獲取數據、設計演算法等);另一方面,也要體現標杆方案在具備差異化、獨特性等特點(比如說,別人方案所需的數據源很難獲得,而你方案的數據源比較容易獲得---數據之間是可以相互推演的)的情況下帶來好的效果。

以上討論主要是針對一些解決方案類項目來說,問題比較難找,具體實現難以複製,過程難以標準化,在智慧城市應用方面比較多,所以很多智慧城市應用大賽更多的形式是提供很多數據、不直接提供問題,而需要參與者自己去定義一個好問題,並提出相應的解決方案。與這種方式不同的數據挖掘競賽,其形式一般都是給定好一個具體問題,並整理好該問題可能需要的數據以及演算法的評估方法,雖然後者的方式很直接,並且方案也比較容易評估,但是其給定的問題以及數據源就基本限定了其解決的思路,甚至還可以通過一些投機取巧的方法去獲得一個好的結果。當然,我們需要注意的是,後者是競賽方的數據科學家已經幫我們完成了問題定義以及數據梳理的過程,所以重點就落在了演算法設計上,但問題定義的過程並沒有少。如果競賽方的問題定義不合理,或者梳理的數據其實和問題不相關(或者這個問題本來就存在更好的解決方案,並不需要設計一個複雜演算法),那麼這個競賽是否就失去了「以解決問題為導向」的目標?所以,我個人對數據科學家的定義是同時具備「出題能力」和解決問題能力的人。

之前秒針系統及明略數據的創始人吳明輝的一篇《數據中的商機》在朋友圈刷屏了,有關於數據生意的觀點是:一次性的數據,適合做悶聲賺大錢的生意;變動的數據才是真正的數據生意。其中還提到商業選址問題,以前認為是一次性數據,不適合數據生意,後來改變主意,因為人口的流動等總是變化的。上面討論的智慧城市資源規劃的問題,其實按照這種觀點,大部分數據都是一次性的,不是真正的數據生意。一個學校的規劃、醫院的規劃等,一般所需考慮的周圍環境數據幾乎都是一次性數據,雖然人口流量等變化,但這些設施建好後幾十年都不會改變位置,不像開個店鋪,可以根據人流等因素隨時更改,所以城市數據資源規劃的問題,也應該要考慮如何去定義一個具體的問題,而不是說「來,我給你做個資源規劃吧」。不管對於秒針系統的廣告預測系統,還是對於明略數據的公安情報分析平台,其實都是一種很大程度上可以標準化、工具化的產品,其特點確實是可以去應對哪些流動的、實時變化的數據,而在智慧城市建設中,尤其是城市規劃布局問題,其使用的數據一般不具有實時變化的特點,建設後的結果也不容易改變,那麼應該如何去做好這門生意了?(這個問題先留著)

對於比較容易標準化的產品,在考慮問題定義或場景的時候,可能存在兩種情況。其一,這個產品類似於excel這種BI產品,可以解決很多的數據分析問題,還可以根據問題進行一定的定製(編程處理),其中明略的SCOPE也是這種,可以應對公安、金融、工業等場景,但底層的數據本體可能存在一定的差異,功能方面也可以定製;其二,是類似與插件類的工具,可以方便和其它類的數據產品進行集成,比如實體提取、語音合成等,一個API就可以解決問題。像這兩種類型,確實在生意往來中就很普通,我給一個東西給你用,你給我money。而對於不容易標準化的一些解決方案類問題,就比較難以衡量方案的效果,可能你投入大量的人力、物力,但乙方卻感覺不是他們想要的,因為他們也不知道想要什麼。所以,你如何和乙方一起去定義一個具體可解決的問題才是很重要的,尤其是在智慧城市項目中。

關於人工智慧,知乎上有很多新奇、有趣也值得思考的問題,這些問題的定義本身其實可以給工作帶來靈感和思路。比如,在關於「大數據殺熟」的問題上,有知友提出了「如何避免大數據殺熟」,這個問題如果站在數據科學家的角度應該如何去思考?是設計一種機制讓殺熟不那麼明顯?還是想辦法去應對用戶的反殺熟呢?還是聽老闆的話呢?從技術上講,上有政策,下有對策。當用戶在考慮對策時,是否應該想想原來的機制是否具有漏洞,會存在怎麼樣的用戶對策,如何應對?等等。還有知友提出「氣味電子化目前的實現情況」,這類問題其實也不太懂,但結合關於深度學習的端到端的學習能力,既然能實現文本到圖像,圖像到文本,是否可以實現「氣味」到「圖像」或「氣味」到「文本」端到端的學習呢?

好問題往往是一個優秀解決方案的開始!

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 DataAnswer 的精彩文章:

TAG:DataAnswer |