當前位置:
首頁 > 新聞 > cuDF:加快數據處理流程的DataFrame庫

cuDF:加快數據處理流程的DataFrame庫

雷鋒網 AI 科技評論按,數據處理是數據工程師經常要面對的問題,今天要推薦的是一個和數據處理相關的 DataFrame 庫——cuDF。

cuDF 是一個基於 Apache Arrow 列內存格式的數據幀庫,它是一個 GPU DataFrame 庫,可以進行載入,連接,聚合,過濾等數據操作。

cuDF 提供了類似 pandas 的 API,數據工程師和數據科學家都很熟悉它們,他們可以使用它輕鬆地加快工作流程,而無需深入了解 CUDA 編程的細節。

例如,以下代碼段下載 CSV,然後使用 GPU 將其解析為行和列並運行計算:


import cudf, io, requests

from io import StringIO

url="https://github.com/plotly/datasets/raw/master/tips.csv"

content = requests.get(url).content.decode("utf-8")

tips_df = cudf.read_csv(StringIO(content))

tips_df["tip_percentage"] = tips_df["tip"]/tips_df["total_bill"]*100


# display average tip by dining party size

print(tips_df.groupby("size").tip_percentage.mean)

得到的輸出為:


size

1 21.729201548727808

2 16.571919173482897

3 15.215685473711837

4 14.594900639351332

5 14.149548965142023

6 15.622920072028379

Name: tip_percentage, dtype: float64

想查看更多示例,可以瀏覽的完整 API 文檔,或查。

那麼如何安裝這個工具?請參閱 Demo Docker Repository,根據正在運行的 NVIDIA CUDA 版本選擇一個標籤。

安裝

conda

cuDF 可以通過渠道安裝 conda(miniconda,或完整的 Anaconda 發行版) rapidsai:


# for CUDA 9.2

conda install -c nvidia -c rapidsai -c numba -c conda-forge -c defaults cudf=0.6 python=3.6 cudatoolkit=9.2


# or, for CUDA 10.0

conda install -c nvidia -c rapidsai -c numba -c conda-forge -c defaults

cudf=0.6 python=3.6 cudatoolkit=10.0

我們還提供從我們最新開發分支的尖端構建的夜間 conda 包。

Pip

cuDF 也可以用 PyPi 安裝。


# for CUDA 9.2

python3.6 -m pip install cudf-cuda92==0.6


# or, for CUDA 10.0

python3.6 -m pip install cudf-cuda100==0.6

注意:只有 Linux 系統支持 cuDF,並且 Python 的版本必須是 3.6 或 3.7 版本。

via : https://github.com/rapidsai/cudf

雷鋒網雷鋒網

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 雷鋒網 的精彩文章:

汽車產業鏈變革加速:主機廠、供應商和科技公司捲入轉型浪潮 | 2019上海車展
App Store又涉嫌壟斷?蘋果發文回懟了

TAG:雷鋒網 |