當前位置:
首頁 > 新聞 > 如何從新聞中識別騙子們的小套路

如何從新聞中識別騙子們的小套路

*原創作者:西角邊的MR,本文屬FreeBuf原創獎勵計劃,未經許可禁止轉載

電信詐騙猖獗盛行,成為國家的重點打擊對象,但是我們身邊親朋好友被騙的悲劇還在屢屢發生。小作者思考也許我們可以從新聞中提取電信詐騙的特徵信息,為家裡的長輩親人提個醒,做到防患於為然。

小作者以某新聞網站為平台,對電信詐騙的相關新聞進行了提取和分析,試圖從獲取的信息中分析出詐騙分子的小「套路」。(PS:一次寫文章,希望能給大家提供一個從新聞構建模型的思路,不足之處請各位大大們指正)


一、開始採集了

獲取信息當然要需要爬蟲了,這是我使用的庫:

小作者首先對某大型網站進行了瀏覽,在搜索欄中搜索了關於電信詐騙類的新聞報道,但是翻頁過程中它的url好像並沒有發生什麼變化,firefox的也沒有看到post和get。

但是在看了他頁碼的link後,還是有點小激動的,因為它的url包含了totalPage=63&pageNum=2這兩個內容,那就自己寫url吧。

Beautifulsoup是一個強大的庫,在這裡我從屬性a獲取源代碼中的link。至於request庫是因為小作者發現使用urlopen打開網站的源代碼和requests+header的內容不同,requests返回的網站源代碼比較全一些。

接下來和上面的方法相似,再採集每個網站中所有link,把它寫道一個list當中,然後我們就要分析我們需求網站url的特點,使用正則表達式獲取link,下面貼代碼:

獲取到link後我們就可以瀏覽新聞了,我們也該獲取新聞的信息了。

新聞種類千千萬,有圖的,沒有圖的,有視頻的,沒視頻的,文本裡面圖片鏈接,段落屬性一大堆,看的我是著實sad。先不管它全都抓取下來再說。

小作者在觀察了網站後將其分為了四類,有的是文本是夾在兩個圖片之間,有的是純文本等等。根據這些內容小作者使用Beautifulsoup來爬取下來所有內容(Beautifulsoup確實強大,強行安利一波),當然爬取的文本也是看不了的,還好我們只需要中文內容和數字就可以了。

那就正則表達式吧,因為使用的是gbk編碼,所以pattern=[0-9x80-xff]+,如果是utf-8的話就是pattern=[0-9u4e00-u9fa5]+,下面貼代碼:(PS:大家在用的時候一定要注意編碼類型,這個很煩人。)

由於某些需要我還獲取了文本的title,author,hash等。大家可以根據自己的需要來爬取相應的內容。

二、下來進行關鍵詞提取

為什麼python是一款非常好用的腳本語言呢?因為它集成和很多的庫,這裡又可以給大家安利一下jieba的中文分詞詞庫,點擊閱讀原文獲取它的地址。

pip install jieba pip install jieba.analyse 這裡小作者使用的是jieba.analyse.extract_tags(a,topK=10)函數,a是文本內容的str變數,topK出現頻率較高的10個詞並將它們都放進了可以keyword的list裡面,貼源碼:

要不說python好用


三、關鍵詞處理

我們獲取了每篇文章的top10的關鍵詞,小作者目前正在看《python自然語言處理》這本書。

這裡面講解了文本特徵,小作者就想再逼真的詐騙情形和真實的情形總會有所出入,比如某些詞語的出現頻率,位置等會和普通文本的有所差異,所以小作者試著對關鍵詞出現的頻率進行處理。

我們之前獲取的keyword是一個列表,裡面有很多重複的詞,所以我們要先把list轉為set格式

例如:


keyword1 = set(keyword)

result = {}

for key in keyword1:

count = keyword.count(key)

result[key] = count

如果使用的是python2.7的話可以

from collections import Counter,然後:

小作者目前也只寫到這裡了,大家還可以根據需要自己從文本中獲取關鍵詞的位置,類型,之間的邏輯關係構建出一個詐騙類型的文本特徵庫,當然這也都是後話了。

小作者目前也在朝這個方向努力,希望小作者能為大家提供一個處理電信詐騙案件的思路,並能和大家交流學習。(PS:一定要注意編碼!!!)

最後貼上我自己的結果:

由於年還沒過完,小作者在這裡也祝大家新年快樂,多看Freebuf漲知識。


*原創作者:西角邊的MR,本文屬FreeBuf原創獎勵計劃,未經許可禁止轉載


您的贊是小編持續努力的最大動力,動動手指贊一下吧!


本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 FreeBuf 的精彩文章:

新曝WordPress REST API內容注入漏洞詳解
暗網做生意不容易:黑市開搞漏洞獎勵計劃,最高獎勵10比特幣
統計顯示威脅情報並沒有想像中那麼好,原因在哪兒?
又一款奇特的勒索軟體:只要閱讀兩篇有關勒索軟體的文章,就可以解鎖!

TAG:FreeBuf |

您可能感興趣

別小看騙子
騙子的新套路,誰看出來這個騙子怎麼行騙的
亂世奇俠中的一個小騙子,如今可是當紅小生,被稱為戲痴
女生如何識別感情騙子
王者榮耀玩家一句話:直接識破騙子最新套路!
騙子套路深 上網別天真——網路新五大陷阱你知道嗎?
揭秘2個古代騙術,教你如何識破騙子的套路!
網友反套路騙子,笑的肚子疼!
騙子套路深,網友更認真,教你如何反套路!
八字看哪些男人是愛情騙子
清朝戲劇乃是騙子,他們辮子是這樣的,好新奇的樣子
別上這些騙子的當
騙子扮騙子女兒和騙子一起騙騙子,騙得了騙子的騙子
一張圖讓你看清這個「騙子」走向巨星之路
笨人才被騙子忽悠?看這些聰明皇帝們被騙子坑壞了
惡搞美女騙子,網路新騙局,想騙別人卻反被佔便宜!尷尬!
騙子們的手段
獅子座就是大騙子,這些年我們都被騙了!
八字分析怎樣的女子容易遇見愛情騙子