使用Python查找目錄中的重複文件
最新
03-23
是這樣的,電腦上的堆積的照片有點多,而且重複的照片被放在了不同的目錄,佔用的空間越來越大,數量也有多的已經不太適合人工分辨整理,寫個Python腳本來處理吧。
文件的唯一標識 - MD5
假如你要處理的重複文件有不同的文件名,最簡單的辦法就是通過MD5來確定兩個文件是不是一樣的。
這個方法可以快速獲得一個文件的MD5值, 可以根據文件大小和CPU性能調整,一般選擇的值約等於文件的平均大小。
保存所有文件標識和路徑
接下來遍歷所有文件,使用MD5作為key,路徑作為value,保存起來。
處理重複文件
最後一步非常簡單,把前面建立的字典做一個簡單的過濾就能找到重複文件。
接下來你可以根據自己的需要刪除或者保留某個路徑下的文件,本文到此為止。
完整的腳本代碼: https://gist.github.com/tobyqin/9299d27bdb429ffaa7713ed760a44fbb
※Python2?Python3?Python2?Python3?到底學哪個好啊?2333333
※嵌入式Python:如何在U盤安裝綠色版 Python
TAG:Python |