當前位置:
首頁 > 知識 > 提取 PDF 表格數據快崩潰的我,突然發現了這個小工具

提取 PDF 表格數據快崩潰的我,突然發現了這個小工具

今天,公眾號「生物學霸」給大家帶來了一個 PDF 數據獲取神器,還贈送大家資源包,要不要了解一下?

還記得學霸君本科時候,有一次老闆丟了一個滿滿是數據表格的 PDF,讓小編去整理成 Excel 表格,真的是輸了小編三四天數據,現在回想起來還記憶猶新。

眾所周知,將數據從 PDF 表格中提取出來是一件很煩人的任務,比如將下圖的表格粘貼到 Excel 中,就會是這樣!

在 PDF 中很是工整。但是!一旦,複製,然後再粘貼到 Excel 中,就變了模樣,真的認不出。這種時候,很多同學想必就是無奈地手動輸入了。真的是慘啊,如果數據量少還好,一多簡直是要命啊!

但是,這些問題都難不倒機智的學霸君!

是不是很 nice 啊。接下來就讓學霸君給打家介紹中這款工具,及其使用。

先說福利:已經為大家準備了安裝包,大家在「生物學霸」公眾號回復「0323」即可下載。

這款小工具叫做 Tabula,是一個免費的開源小工具,對的,沒有看錯,是免費的哦。它除了免費,還有一個優點,就是多平台!

除了 PC 用戶,還支持 Mac,真的是 Mac 黨的福音啊。接下來學霸君會給大家詳細介紹如何使用。

首先就是下載啦。解壓後,打開軟體,會自動打開瀏覽器。

打開後界面是這樣的,這個時候,剩下的幾乎都傻瓜操作。

我們可以參照這個步驟來操作。

上傳包含數據表的 PDF 文件。

通過單擊表格的左上角並將滑鼠拖到右下角來選擇表格,直到所有數據都包含在陰影選擇區域中。

這裡有幾個注意點,一定要切記!

第 1:不要將標題圈進陰影區域,不然會打亂格式!

第 2:如果表格的表頭包含合併單元格,不要圈進陰影區域,可以後續提取完數據再做處理!

隨後,點擊綠色按鈕。

隨後會出現一個包含您的數據的窗口。檢查數據以確保它看起來正確。如果數據丟失,我們可能需要稍微擴展我們的選擇。

選擇我們需要的格式,點擊下載按鈕。

打開文件,我們就可以將數據作為文本文件或電子表格,而不是 PDF 來進行處理!

但是學霸君發現一個問題,就是有時一些符號在 CSV 中會出現亂碼,但是不知道是不是因為 Mac 的 Excel 兼容性不是特別好,但是這問題很好解決。

只要選擇 Excel 的替換功能,然後將亂碼字元統一替換就好!

就會得到想要的結果啦。具體的一些操作和小訣竅,還需要大家使用以後來告訴學霸君呦。

領取方式:在丁香園旗下科研類公眾號「生物學霸」後台對話框回復「0323」即可。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 環球科學 的精彩文章:

用量子力學尋找真正的隨機數

TAG:環球科學 |