當前位置:
首頁 > 新聞 > 獨家丨專訪雅捷信息董事長、NVIDIA全球副總裁,看「非主流」的GPU資料庫如何升級銀行數據查詢與加工

獨家丨專訪雅捷信息董事長、NVIDIA全球副總裁,看「非主流」的GPU資料庫如何升級銀行數據查詢與加工

獨家丨專訪雅捷信息董事長、NVIDIA全球副總裁,看「非主流」的GPU資料庫如何升級銀行數據查詢與加工

2012 年,正在哈佛大學寫碩士論文的 Todd Mostak 需要查詢大量的論文參考資料,他發現使用以 CPU 為處理核心的資料庫系統做資料查詢速度非常緩慢。而且很多時候,Todd Mostak 在睡覺之前輸入一個查詢命令,第二天醒來發現系統提示參數輸入錯誤。

當時 Todd Mostak 選修了由 MIT 資料庫研發組教授的 CSAIL 資料庫課程,為了加快論文進度,Todd Mostak 通過自己在 CSAIL 資料庫課程中學到的知識開發了一個簡易的資料庫系統,該資料庫是通過使用廉價的、為遊戲玩家使用的 GPU 來建立的,然而這一資料庫卻大大加快了 Todd Mostak 的資料查詢速度。

與 Todd Mostak 在哈佛查詢資料時一樣,金融行業的很多老資料庫系統在當今也遇到了查詢速度慢等問題,特別是在高並髮狀態的查詢環境下。

這時候,越來越多的金融企業對數據的高速查詢和快速加工有了更高的要求。

銀行的痛點:數據加工與查詢

業內人士透露,一個省級銀行的客戶經理就高達三萬多人,如果這三萬多人每天同時去做了解客戶信息這件事,任何資料庫都難以承載,而過去被廣泛使用的 IBM 小型機根本無法解決。與此同時,成本也是非常大的問題。雖然目前市場上 Teradata 的產品在數據查詢和數據加工效果方面表現優秀,但價格相對較為昂貴。

除此之外,及時掌握風險的能力也非常重要。銀行本身對風控要求極高,過去在風控方面均為事後監督,也就是T+1:今天交易完成,第二天再檢查前一天的問題。而當下的交易必須要求做到 T+0,交易的同時也可檢查風險。

這時候如果沒有一個高效的資料庫,很難解決上述問題。

在面對這一痛點,雷鋒網採訪了雅捷信息董事長鄭學強、首席數據科學家謝軍、NVIDIA 全球副總裁沈威以及 IBM 大中華區硬體系統部伺服器解決方案副總裁施東峰,詢問相關問題。

GPU 資料庫的優勢,與 CPU 資料庫的劣勢

雅捷信息是國內少有採用上文中提到的哈佛學生 Todd Mostak 在 GPU 上做資料庫的公司,其主要產品是性能並行計算資料庫產品和銀行信息化系統及智能服務。

一般來說,GPU 是專為並行計算而設計的專用協處理器,通常其內部都集成了數千個高速運算核心。由於 GPU 通常都可以直接搭配高帶寬存儲器協同工作,因此比使用一般 RAM 的 CPU 運算速度快出一個數量級。

目前雖然一些企業和機構的資料庫已經使用了 GPU,但普遍存在一個設計缺陷:其資料庫管理方案都是將資料庫存儲在 CPU 一側,當接到用戶的數據請求時,將數據搬移到 GPU 一側進行處理,然後再把處理結果移回至 CPU 進行存儲。也就是說,GPU 並非真正的系統核心。這種機制決定了即使通過 GPU 加快數據處理速度,但把處理結果搬回 CPU 的過程仍然浪費了大量時間。

如果沒有像傳統系統那樣將數據全部存儲在 CPU 一側,而是將 GPU 作為真正的核心,利用高速緩存機制將盡量多的數據直接存儲在多內核協同工作的 GPU 一側,這樣做的結果就可避免數據搬移過程中耗費的時間,提升了運算效率。

雖然已有相應的解決方案去加快 GPU 與 CPU 之間的信息流通,但仍舊存在延時等問題。

目前比較前沿的加速 CPU 與 GPU 信息交方案是 IBM 與 NVIDIA 聯合研製的 NVlink 信息交換通道。我們知道,GPU 和 CPU 間的數據傳輸速度都是一項技術瓶頸,因為 GPU 的顯存能夠快速而少量的讀寫數據,而 CPU 使用內存讀寫則大量而慢速,因此,CPU 的傳輸帶寬大於 GPU。NVlink 通過調整相應架構,使得 GPU 和 CPU 間的傳輸速度獲得巨大的提升。

獨家丨專訪雅捷信息董事長、NVIDIA全球副總裁,看「非主流」的GPU資料庫如何升級銀行數據查詢與加工

其實 IBM 早在幾年前便注意到了這種趨勢,隨後它們與 NVIDIA 合作,去加快新數據中心工作負載的處理速度。經過四年的研發,POWER8 伺服器聯合了 NVIDIA 的 Tesla P100 GPU 和 NVlink 互聯技術,實現了更高的數據性能分析和深度學習能力提升。據測試資料顯示:IBM 和 NVIDIA 技術如此緊密的結合使得數據流動速度比使用 PCIE 快了 5 倍。

NVlink 除了可實現 GPU-CPU 節點內部的高速互聯,同時還能在 GPU-GPU 甚至 CPU-CPU 之間形成高速互聯。

雅捷信息首席數據官謝軍向雷鋒網透露,由於他們服務的客戶通常是大中型銀行,對計算量要求巨大,因此雅捷信息的新品 DataTurbines 背後採用的是 GPU 集群,這個時候集群中 GPU 與 GPU 之間的高速互聯就非常關鍵。當然,雅捷信息的資料庫也並非完全在 GPU 中處理,也有一小部分會放在 CPU 中,具體會根據客戶的成本以及數據量等問題來靈活安排。

為了讓 GPU 集群以及 CPU-GPU 之間通信順暢,雅捷信息選擇與 IBM 進行深入合作。IBM 大中華區硬體系統部伺服器解決方案副總裁施東峰向雷鋒網介紹到,與雅捷信息的合作主要體現在兩方面,在技術層面 IBM 為雅捷信息的 GPU 資料庫提供 GPU-GPU 以及 GPU-CPU 的 NVlink 通道機器 Minsky。在市場方面,IBM 藉助雅捷信息的銀行客戶,向銀行推廣包含 GPU 資料庫的一體機。

這個一體機本質上是 IBM 提供的認知計算平台,其中 GPU 資料庫也歸類在認知計算平台中。施東峰繼續講到:IBM 接觸的銀行客戶有兩種,一種是對方只要打包好的、直接能夠使用的產品,他們只需知道這個引擎如何使用即可,另外一種客戶則要是想要自己買機器、做資料庫、做演算法,自己搭建人工智慧引擎。

IBM 主要服務於前者,以一體機的形態把相關的人工智慧技術以及 GPU 資料庫進行整合,從而做成企業級直接使用的、沒有很多指令集、直接連接的產品。

GPU 資料庫商業化應用案例

目前從公開資料顯示,已有 GPU 資料庫產品在海外市場使用,如 Kinetica、BlazingDB 等。其中最具代表性的就是文章開頭提到的哈佛學生 Todd Mostak,他已成立了公司運營相關商業化產品 MapD。在 MapD 系統中,每個 GPU 都有自己的緩衝池,利用高速緩存機制將最常訪問的數據直接存儲在 GPU 一側,在資料庫需要反覆查詢同一個數據點時,MapD 就可以直接從 GPU 一側的高帶寬存儲器中直接訪問數據,而不是從 CPU 或硬碟。

通過這種機制,MapD 可以提供相比傳統資料庫管理系統快兩到三個數量級的性能。

獨家丨專訪雅捷信息董事長、NVIDIA全球副總裁,看「非主流」的GPU資料庫如何升級銀行數據查詢與加工

總體上說,不同行業的客戶對 MapD 系統的具體需求也不同,但本質都是通過其高速的數據處理能力協助他們做出合理的商業決策。如金融服務機構和對沖基金可以通過該系統來監控欺詐行為和做出投資決策;廣告代理商們可以通過該系統來評估客戶們對各種廣告的不同反饋; 社交媒體公司則可以通過該系統追蹤全球用戶的使用情況。

美國電信巨頭 Verizon 也是 MapD 的客戶之一,他們每周都會利用 MapD 系統對 8500 萬用戶更換 SIM 卡的行為展開分析。

此前在使用傳統的資料庫管理系統時,這種分析通常要耗費好幾個小時,因為效率太低,因此只能好幾個月分析一次。近期,Verizon 通過 MapD 系統的每周分析報告發現了一個隱藏多年的 Bug,這一 Bug 每年導致上百萬次無意義的 SIM 卡更換,不但浪費了服務資源,而且對用戶體驗影像極大。

GPU 資料庫在銀行中的應用

相比於 MapD 而言,國內的雅捷信息在可視化資料庫方面沒有前者出色,覆蓋的業務範圍也沒有前者廣,但後者業務更加集中在銀行領域。雖然當下銀行逐漸變得愈加開放,不會拒絕新產品和新技術,但有個前提是他們對第三方的產品要求極其嚴格,銀行如果想要採購方案會經過以下幾個流程:溝通、PUC 測試,最後招投標,然後讓供應商的產品進入它的銀行體系。

銀行的信息安全是最高等級的,如果沒有一把手簽字,信息完全拿不出去。一般情況下,產品先到銀行進行測試,然後供應商需要經過五道審批手續才能把系統送進去,入庫上架後銀行方把數據脫敏以後才讓供應商使用。

因此與銀行合作,相比於絕大多數行業來說,難度大不少。

雅捷信息董事長鄭學強向雷鋒網透露:銀行的夜間加工只有八個小時,超過八個小時就面臨第二天無法開門的情況,如果第二天開不了門,銀監會對其的處罰非常嚴重。

鄭學強跟 IBM 的相關負責人交流時產生了一個觀點,在 GPU 上並不能放到上千 T,甚至 PB 級的數據。在 GPU 上真正需要解決的是客戶所要用的數據和熱點數據,而非在千T、PB級的數據里進行數據查詢。方案商應該去形成一個個的小數據倉庫(Data mart),這時分布式的 GPU 資料庫應該為熱點數據服務,而不簡單地提供儲存功能。

MemSQL 的首席技術官兼聯合創始人尼基塔·沙姆古諾夫(Nikita Shamgunov)也曾指出 GPU 為某些工作負載提供了優勢,它可以分解成許多小的操作單位,每一個小小的操作單位可以同時在大批核心上加以執行。

關於產品的適用性問題上,鄭學強舉了一個省級農商行的商業化案例。省級農商行的規模相當於一個股份制銀行,存貸款規模過萬億,每天的日交易比數可以達到兩千萬筆。在一個 6000 萬客戶的銀行,以往 2 小時的跑批任務,如今採用 GPU 資料庫產品可在 1 分鐘內完成,原先 5 分鐘的查詢,現在不到一秒。在幾萬名客戶經理天天使用的場景下,一千個並發可以達到毫秒級的響應,絕大部分的複雜查詢實測效果平均響應時間 200 毫秒,其中 DB2 提速 400 倍左右,Hadoop 提升 200 倍,在 Hadoop 上對比的節點是 46 個節點。

除此之外,雅捷在與招商銀行、中興銀行合作期間解決了信用卡業務的一些問題,如雙十一期間用戶用信用卡在網購上同時支付,這對系統的壓力非常大,所以說它需要有一個高速的平台,來給它做分解。

GPU 之後,FPGA 資料庫是否會成為未來?

通過案例了解到,目前已有不少公司把資料庫從 CPU 轉換到 GPU 中,那麼未來是否會從 GPU 轉向 FPGA 中?雷鋒網提出這樣一個疑問,既然銀行要求高速度、低延遲,這時候速度快、低延遲、低功耗的 FPGA 似乎比 GPU 更加匹配,而且 FPGA 正逐漸開始被各大公司廣泛使用。

針對這一問題,雅捷信息董事長鄭學強說到雖然 FPGA 低能耗、體積小、效率高的特性使得它確實有一定的優勢,但 FPGA 的一大局限性就在於內存較小,因為數據需要一定的物理空間進行存儲。另外,雅捷信息也一直準備嘗試 FPGA,但最終沒做的原因是現在高性能計算晶元中,GPU 代表新一代主流的技術,拋棄主流技術和產品去嘗試另外一種技術,相對的試錯成本會比較高。

隨後,雅捷信息首席數據科學家謝軍補充道:並行計算有很多種架構,如 GPU、FPGA 等等,一個公司選擇某個方向有它的深思熟慮。雅捷信息之所以選 NVIDIA 的 GPU,非常核心的價值在於 GPU 擁有運算平台 CUDA。開發一個方案僅僅靠硬體是不夠的,要有好的架構才能做到。正如很多公司當年選 Windows 系統一樣,如果沒有易用的、通用的操作系統,所進展的每一步都很難。所以 NVIDIA 的價值並不僅僅在於它的晶體管集成技術,還有 CUDA 這樣的運算系統。

針對 GPU 和 FPGA 這一問題,雷鋒網也採訪了 NVIDIA 全球副總裁沈威,沈威說道:以谷歌為例,谷歌的 Alphago 最開始用 TPU 部署,當時的 TPU 也就是 FPGA,而現在谷歌的 TPU 用的是 ASIC。這裡可以看出谷歌當時採用 FPGA 更多是為了嘗試,當他確定要增加數量時則把 TPU 的核心變成了 ASIC,這背後就能說明一些問題。06 年很多人開始考慮 GPU 遊戲的計算能力,但是人們沒辦法使用它,於是 NVIDIA 開發了 CUDA,從而解放了 GPU 的運算能力。在 CUDA 的架構上可以用比較常見的 Java 或 C++ 進行編程,而在 FPGA 上則是用 Verilog 或 VHDL語言,所以 GPU 在普及性上會有非常大的優勢。與此同時,NVIDIA 有共通的平台使得其於通用的伺服器或者 CPU 伺服器連接在一起,而 NVIDIA 當下的一大任務是讓 CUDA 的架構不斷去與傳統行業的 IT 業務接軌。

總結

關於使用 GPU 相比 CPU 的資料庫總體成本/效益仍的爭論一直存在,由於大多數軟體無需用到 GPU 所達到那種並行化程度,也無法用 GPU 有限的指令集來處理,使得 GPU 在很多方面不適合工作負載。而在跨集群根據不同的鍵對數據重新分區,這些操作在 CPU 上卻來得非常高效。

與此同時,英特爾等公司在以低成本封裝 CPU 能力方面非常高效,相比 GPU 而言,CPU 往往成本更低。

但對於銀行、政府等這種速度第一、價格第二的機構來講,價格高昂但效果顯著的 GPU 資料庫在未來或許會成為一大趨勢。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

亞洲首度德州撲克人機對戰即將開賭!附李開復演講全文
ABB收購貝加萊,重金補課「叫板」西門子
英特爾在1平方毫米中塞下1億個晶體管——其實就是10nm製程
拿了「榜單第一」的福特,認為將無人駕駛汽車推向市場還需做這幾件事

TAG:雷鋒網 |

您可能感興趣

「MD PHOTO」TWICE等韓國女團參加 KBS《音樂銀行》綵排
「MD PHOTO」(G)I-DLE等藝人 飛往德國拍攝《音樂銀行in柏林》
[MD PHOTO] IZONE等偶像組合參加KBS《音樂銀行》綵排
[MD PHOTO] 韓國女團IZ*ONE參加《音樂銀行》節目綵排
「MD PHOTO」韓國女團TWICE亮相KBS電視台 參加《音樂銀行》綵排
厄瓜多最大的銀行「BANDCO PICHINCHA」品牌形象升級
[MD PHOTO] 韓國女團TWICE參加KBS《音樂銀行》節目綵排
「MD PHOTO」 EXID等偶像組合參加《音樂銀行》節目綵排
「MD PHOTO」韓國男團WANNA ONE飛往德國 參加《音樂銀行in柏林》
[MD PHOTO] 韓國偶像組合TXT與DIA參加《音樂銀行》節目綵排
德國聯邦金融監管局:銀行有權在ATM上提供BTC和ETH跟歐元間的兌換服務
AI和銀行
[MD PHOTO] 韓國女團OH MY GIRL參加《音樂銀行》節目綵排
「MD PHOTO」MOMOLAND等偶像組合參加 KBS《音樂銀行》綵排
「MD PHOTO」韓國女團A-PINK參加KBS電視台《音樂銀行》節目綵排
[MD PHOTO] ATEEZ等歌手參加KBS《音樂銀行》節目綵排
[MD PHOTO] NEONPUNCH等韓國偶像組合參加《音樂銀行》節目綵排
「MD PHOTO」 NATURE等偶像組合參加KBS2TV《音樂銀行》節目綵排
「MD PHOTO」MOMOLAND等偶像組合參加 KBS《音樂銀行》節目綵排
[MD PHOTO] PENTAGON等偶像藝人參加KBS《音樂銀行》節目綵排