大數據2018：4個值得興奮和4個需要擔心的理由

科技 01-23

至頂網CIO與應用頻道 01月22日編譯：隨著人們對大數據的預測和預期不斷加速，企業數據團隊發現自己正處於一個快速變革的領域，既受到各種可能性的鼓舞，又因為各種局限性受折磨。2018年，大數據將繼續沿著這兩條路線發展：提供更多提高了可訪問性的選擇，同時又讓那些尋找所有複雜問題答案的企業感到沮喪。對於剛加入大數據熱潮和已經充分涉足的企業，我們總結了：

四個值得興奮的理由：

- 機器學習方法變得更容易獲得了

- 數據不會短缺

- 大數據工具可以更有效地進入企業

- 基礎設施上升到支持大數據的數量和速度

四個需要擔心的理由：

- 必要的技能嚴重短缺

- 隱私問題變得可執行

- 數據互操作性仍然有限

- 安全缺陷威脅數據完整性

興奮點：

機器學習方法變得更容易獲得

生產就緒的機器學習工具和模型的興起，將成為2018年大數據能讓人們興奮起來的原因之一。機器學習模型可以準確地識別數據流中的特定模式。在已經被數據淹沒的環境中，這種能力提供了高價值和獨特的優勢，整個業界也作出了相應的回應。

數據科學家可以利用越來越多的開源機器學習框架，包括Google的TensorFlow、Apache MXNet、Facebook Caffe2和Microsoft Cognitive Toolkit等等。最重要的是，建立模型的任務變得從未如此簡單。例如，AWS提供深度學習AMI（Amazon Machine Images），其中已經內置了機器學習框架，可在AWS雲上使用。對於那些剛剛起步的人來說，Google的TensorFlow Playground可以幫助用戶使用簡單數據集和預先訓練好的模型，更多地了解機器學習框架下的神經網路（圖1）。

大數據2018：4個值得興奮和4個需要擔心的理由

圖1. TensorFlow Playground提供了一個互動式的沙箱，用於探索TensorFlow的基礎。（來源：Google）

即使不深入研究機器學習演算法的內部工作遠離，開發人員也可以開始將這些技術應用於數據集。Google TensorFlow提供預先訓練好的模型和示例，以及TensorFlow框架和針對如自然語言處理、音頻識別和圖像識別等應用流程。

對於更有經驗的用戶來說，使用機器學習會簡單得多。由Facebook和微軟推出的開放神經網路交換（ONNX）格式為在機器學習框架之間移動的模型提供了一個標準。除了這些公司對Caffee2和Cognitive Toolkit的早期支持之外，亞馬遜最近還推出了一個開源的Python軟體包，用於將ONNX模型導入Apache MXNet。

興奮點：

數據不會短缺

隨著企業完成他們的數字化轉型，物聯網等（圖2）重要項目催生了很多新的數據源，因此數據科學家不會缺少數據的。受這些和其他來源的驅動，與大數據相關的每個參數都將繼續迅速演變：數據量自然會隨著來源的增加而呈現上升趨勢；隨著企業提高數據分解以降低粒度，數據速度將會增加；隨著物聯網應用上線，以及企業合作夥伴共享關鍵數據源，數據的多樣性將會隨之迅速增加。

大數據2018：4個值得興奮和4個需要擔心的理由

圖2. 更多的數據來源意味著數據量、速度和多樣化的激增。（來源：Patrick Cheesman）

然而，隨著企業在生產中使用更深層次的分析和機器學習模型，數據科學家的工作將因為可以得到中立數據集而受益，用於測試和優化數據處理鏈、機器學習模型的廣泛類別、甚至是演算法本身。幸運的是，數據科學家可以隨時訪問各種公共數據集。例如，AWS提供了對環境、生命科學、圖像等公共數據集的免費訪問。同樣，Google提供了各種各樣的BigQuery公共數據集，其中包括GitHub代碼、NOAA天氣數據等等。數據科學家還可以通過data.gov訪問超過20萬個美國政府開放的數據源。

興奮點：

大數據工具可以更有效地進入企業

從Hadoop和MapReduce早期開始，大數據分析工具已經發展成為一系列廣泛的工具和平台。2018年，這種趨勢將持續下去，人們越來越頻繁地將數據提煉成更有用的信息，並利用一系列開放源代碼和專有軟體包來跟上數據快速增長的步伐。

隨著企業要應對更多的數據生產者和消費者，大數據需求甚至超越了功能強大的Hadoop分散式文件系統（HDFS）的功能。今天，企業面臨著結構化和非結構化數據的混合，傳統批處理、流分析和來自任意數量數據存儲庫的互動式查詢等等這些複雜而混合的分析場景。大數據架構試圖通過構建在（用於數據管理和計算的）高性能框架上的綜合工具鏈來滿足這些要求（圖3）。

大數據2018：4個值得興奮和4個需要擔心的理由

圖3. NIST大數據參考架構，構建信息價值鏈的指南。（來源：NIST大數據公眾工作組）

Apache Hadoop框架已經發展到包含大量解決大數據分析方面問題的工具，以及相關的Apache項目解決了更為複雜的需求。例如，Apache Spark補充了Hadoop以批處理為主導的MapReduce處理模型，提供了對數據流和互動式查詢的實時分析。Apache Yarn提供了一個複雜的框架，其中包含資源管理器和作業調度程序，能夠協調多個計算節點上的多個應用。因此，Apache Spark可以作為獨立服務運行，也可以使用Yarn作為Hadoop集群上的Hadoop模塊運行。

隨著企業將不同來源的結構化數據和非結構化數據彙集到數據湖中，相同的做法被作為擴展大數據工具範圍的基礎。例如，Kylo開源平台建立在Apache框架之上，以解決相應更複雜的數據流和數據管理要求（圖4）。

大數據2018：4個值得興奮和4個需要擔心的理由

圖4. Kylo旨在為數據湖提供開源平台。（來源：Teradata）

興奮點：

基礎設施上升到支持大數據的數量和速度

越來越多的數據、工具和支持平台，當然就意味著對合適的計算基礎設施不斷增長的需求，大數據工作者不會對2018年感到失望的。超大規模雲服務提供商將繼續擴大數據中心來滿足這些需求，提供更多的集群和更快存儲運行在更快的網路上。這也使更多的傳統企業軟體公司變成了硬體開發公司。例如，AWS使用自己的定製路由器，這些定製路由器使用基於Broadcom Tomahawk的專用ASIC來支持128個25 GbE通道。

在開放計算項目（OCP）的努力下，開源硬體在數據中心中不斷獲得推動力。 OCP在提高數據中心性能和效率方面的合作方式已經不僅僅是體現作為一個討論用的公開論壇。參與者繼續分享開放的規範。例如，微軟在去年分享了Project Olympus伺服器機架設計之後，向OCP社區提供了專註於平台安全的Project Cerebus規範。

隨著基礎架構的速度和容量的不斷攀升，企業經常發現自己仍然要面對各種不同的Hado哦派配置等問題。有一個工作組一直在致力於簡化這其中的流程。在Linux基金會的主導下，ODPi試圖消除對於不同平台的多個Hadoop發行版的需求（圖5）。

大數據2018：4個值得興奮和4個需要擔心的理由

圖5. ODPi試圖簡化Hadoop發行版。（來源：ODPi）

擔心：

必要的技能嚴重短缺

大數據工具可使深度分析更容易獲得，但仍然需要數據科學的堅實基礎。不幸的是，數據科學家將在2018年保持供不應求的狀態，開放職位與合格個人之間的差距將繼續增長，這可能是阻礙大數據成功最令人擔憂的挑戰之一。

Burning Glass Technologies（BHEF）和IBM的一項研究顯示，合格的數據科學家明顯不足（圖6）。更糟糕的是，現有數據科學家的數量增長可能遠遠沒有達到大數據本身增長的預測水平。自動化技術將為傳統數據科學任務（如數據清理和非結構化數據解耦）提供一些緩解措施，但是大數據的創新應用仍然與可用的大數據專家資源密切相關。

大數據2018：4個值得興奮和4個需要擔心的理由

圖6. 關鍵數據分析技能需求的增長速度遠遠超過所能供應的水平。（來源：IBM）

擔心：

隱私問題變得可執行

歐盟一般數據保護條例（GDPR）自2018年5月25日起生效，適用於任何處理歐盟居民數據的企業組織。即使是在歐盟以外的公司也需要遵守GDPR，並且可能面臨嚴重的違規處罰。對私人數據的嚴格管制和違規處罰，對於那些要在美國HIPAA安全規則下保護健康數據的公司來說並不陌生。即使非故意的違規行為也會導致罰款，故意忽視對健康數據的保護將要面臨重大罰款和多年徒刑。此外，消費者日益關注的數據隱私重要性甚至超過了監管要求。

諸如金融行業這樣的細分市場，多年來依靠數據脫敏（Data masking）技術來去除個人可識別的數據。利用這些技術，數據流過程中採取額外步驟，來提取敏感數據，將敏感數據轉換為另一種字元串，並將這些數據混入數據集中以載入到目標資料庫（圖7），從而將其去個性化。數據脫敏技術可理想地確保數據集對於使用目標資料庫的人類用戶來說仍然有意義，因為諸如地址（例如151 W 34th St）的敏感數據被轉換為一些安全但是有意義的字元串（諸如123 Hidden Street）。

大數據2018：4個值得興奮和4個需要擔心的理由

圖7. 傳統的數據脫敏技術在數據流中插入額外的步驟。（來源：IBM）

GDPR要求企業使用類似的假名方法來隱去個人數據。如果沒有數據科學家和隱私專家，公司將很難利用大數據工具來應用正確的方法組合。當個人擔心他們的私人數據，並要求將這些私人數據從企業文件、資料庫和數據池中刪除的時候，這個問題就會變得更加複雜。特別是，如果個人資料保持不變，但數據轉換和分析結果被埋沒，這個問題就會變得幾乎不可能。像Kantara Initiative的Consent Management Solutions Work Group這樣的初期嘗試，為處理這些問題提供了一個框架。

擔心：

數據互操作性仍然有限

大數據概念（例如數據湖）旨在實現數據源的廣泛混合。2018年，企業可能會因為通過合併多來源的數據而導致創造有用信息的能力受限而感到沮喪。

隨著非結構化數據的增長，當企業在對比不同非結構化容器解析的數據時遇到了巨大的挑戰，即使這些容器是來自於企業電子郵件流量這樣相同的來源。在結構化數據中，語義問題常常由於模式和數據定義的性質而減少。

如果語義上等同的數據點與完全不同的上下文相關聯（例如當用人體溫度計和室外溫度計測量溫度時，溫度的重要性），那麼數據互操作性問題變得更為複雜。溫度數據的上下文反映了明顯不同的含義，需要一個統一的語義元數據框架來確定有用的結果組合（圖8）。上下文敏感的解析和標記這一新機制，將有助於解決更現實的情況，但解決此問題的方法取決於是否有經驗豐富的數據科學家，以及數據共享合作夥伴之間對數據語義和廣義本體的一致性。

大數據2018：4個值得興奮和4個需要擔心的理由

圖8. 跨域應用（6）中有用的推理（7）需要一致的語義（2）和本體（4）。（來源：Murdock，Paul等，物聯網的語義互操作性）

擔心：

安全缺陷威脅數據完整性

與幾乎所有的在線資產一樣，數據安全在201??8年仍將是一個值得關注的問題。這仍然是整個業界最關注的問題之一，這一點也不意外。在Forrester針對314位高級公司經理、IT經理和高級數據分析領導者的調查中，受訪者提到了與存儲和數據完整性相關的數據安全問題（圖9）。雖然有個別細分的安全方案是已經有了的，但要組合成實用的解決方案，還需要把技術和實踐精心組合起來。

大數據2018：4個值得興奮和4個需要擔心的理由

圖9. Forrester調查發現，數據安全性仍然是企業管理人員最關心的問題。（來源：Rackspace）

在安全薄弱的環境中，對機器學習模型依賴的增加帶來了額外的難度。犯罪分子通過向數據源中加入惡意數據流，入侵那些利用新數據趨勢來進行訓練的模型。最糟糕的是，網路犯罪分子可以使用微妙的「數據中毒」來將企業分析轉向他們所選擇的方向，從而在機器學習模型中創造出一種零日漏洞。不管怎樣，數據中毒在單個的企業中是現實存在的威脅，如果企業之間共享數據的話可能性就更高了——例如汽車製造商將自己的物聯網數據與交通基礎設施合作夥伴共享的物聯網數據結合起來。分散式賬本技術被證明是維護這些數據集安全性的理想選擇。在實踐中，廣泛分布的開放式分類賬（例如區塊鏈）固有的性能限制，可能會限制其在靜態數據集、而不是動態數據流中的早期應用，儘管在基於更受限的分散式方法中，這種情況可能會有所改變。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 至頂網 的精彩文章:

※當紅科技遇見智能汽車大腦

TAG:至頂網 |