當前位置:
首頁 > 知識 > Python 中查詢 sqlite3 的一些小技巧

Python 中查詢 sqlite3 的一些小技巧

我最近在涉及大量數據處理的項目中頻繁使用 sqlite3。我最初的嘗試根本不涉及任何資料庫,所有的數據都將保存在內存中,包括字典查找、迭代和條件等查詢。這很好,但可以放入內存的只有那麼多,並且將數據從磁碟重新生成或載入到內存是一個繁瑣又耗時的過程。

我決定試一試sqlite3。因為只需打開與資料庫的連接,這樣可以增加可處理的數據量,並將應用程序的載入時間減少到零。此外,我可以通過 SQL 查詢替換很多Python邏輯語句。

我想分享一些關於這次經歷的心得和發現。

TL;DR

使用大量操作 (又名 executemany)。

你不需要使用游標 (大部分時間)。

游標可被迭代。

使用上下文管理器。

使用編譯指示 (當它有意義)。

推遲索引創建。

使用佔位符來插入 python 值。

如果你需要在資料庫中一次性插入很多行,那麼你真不應該使用 execute。sqlite3 模塊提供了批量插入的方式:executemany。

而不是像這樣做:

你可以利用這個事實,即 executemany 接受元組的生成器作為參數:

這不僅更簡潔,而且更高效。實際上,sqlite3 在幕後利用 executemany 實現 execute,但後者插入一行而不是多行。

我寫了一個小的基準測試,將一百萬行插入空表(資料庫在內存中):

executemany:1.6

execute: 2.7 秒

一開始我經常搞混的事情就是,游標管理。在線示例和文檔中通常如下:

但大多數情況下,你根本不需要游標,你可以直接使用連接對象(本文末尾會提到)。

像execute和executemany類似的操作可以直接在連接上調用。以下是一個證明此事的示例:

你可能經常會看到使用fetchone或fetchall來處理SELECT查詢結果的示例。但是我發現處理這些結果的最自然的方式是直接在游標上迭代:

這樣一來,只要你得到足夠的結果,你就可以終止查詢,並且不會引起資源浪費。當然,如果事先知道你需要多少結果,可以改用LIMIT SQL語句,但Python生成器是非常方便的,可以讓你將數據生成與數據消耗分離。

即使在處理SQL事務的中間,也會發生討厭的事情。為了避免手動處理回滾或提交,你可以簡單地使用連接對象作為上下文管理器。 在以下示例中,我們創建了一個表,並錯誤地插入了重複的值:

…當它真的有用時

在你的程序中有幾個 pragma 可用於調整 sqlite3 的行為。特別地,其中一個可以改善性能的是synchronous:

你應該知道這可能是危險的。如果應用程序在事務中間意外崩潰,資料庫可能會處於不一致的狀態。所以請小心使用! 但是如果你要更快地插入很多行,那麼這可能是一個選擇。

假設你需要在資料庫上創建幾個索引,而你需要在插入很多行的同時創建索引。把索引的創建推遲到所有行的插入之後可以導致實質性的性能改善。

使用 Python 字元串操作將值包含到查詢中是很方便的。但是這樣做非常不安全,而 sqlite3 給你提供了更好的方法來做到這一點:

此外,使用Python%s(或格式或格式的字元串常量)的字元串插值對於executemany來說並不是總是可行。所以在此嘗試沒有什麼真正意義!

請記住,這些小技巧可能會(也可能不會)給你帶來好處,具體取決於特定的用例。你應該永遠自己去嘗試,決定是否值得這麼做。

譯者:聖潔之子, Tocy

原文:https://remusao.github.io/posts/2017-10-21-few-tips-sqlite-perf.html

譯文:https://www.oschina.net/translate/few-tips-sqlite-perf

題圖:pexels,CC0 授權。


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 編程派 的精彩文章:

我用 Flask 擼了一個日料網站
用 Scikit-learn與Pandas 進行線性回歸預測

TAG:編程派 |