量化投資系列2:新聞信息分析
前文我們說到了金融信息的分類,今天我們就講講如何用技術的手段來對新聞信息分析。
大家都知道情緒影響著市場,我們掌握了大眾情緒,了解了其行為特徵,對其在股票市場的反應就可以有個相對準確的預判,從而有助於我們在股票市場有更好的收益。
那麼情緒又受什麼影響呢?新聞信息!新聞信息時刻影響著股民們的神經,一般包括:市場層面信息、公司層面信息、還有更多的雜訊信息。如果我們可以開發出有效的技術,提出雜訊信息,並能通過自動化的程序,正確、合理的分析新聞,相信對我們的投資效率大有幫助。下文我們會簡單的介紹一些新聞分類方法。在介紹方法之前,我們首先要清楚,新聞來源、信息質量是前提,這個就需要自行把關了。獲取信息後,就是加工、分類、語義分析、情緒估值加權等。每個環節都需要相應技術,下面是一些常用的新聞分類演算法:
1. 貝葉斯分類器。
其主要目的就是用貝葉斯分類器講整篇新聞劃分到明確的類別中。這個類別是我們自己事先確定好的,比如正面新聞類、負面新聞類等類別。貝葉斯分類器是給予辭彙算出的概率,和語言結構無關,是一種很基本也很常用的方法。該方法統計單詞出現在文本中的次數,單詞出現在各類文本中的概率,然後利用這些先驗概率,計算出需要的後驗概率。
2. 字眼統計分類器
字眼就是關鍵詞了,需要事先選好關鍵詞。比如『好』,『快『,』高速『,』樂觀『 等這些詞,然後統計其出現的比例。當積極超過消極,則判定該信息為正面信息。如果出現負面字眼較多,則判定為負面信息。
3.向量距離分類器
把每條信息當做一個大向量。那麼一個事先類別已知的詞義庫就作為參考向量,計算新的大向量與參考向量的距離,然後用該距離來度量所屬類別。一般按照餘弦距離來衡量。簡單快速的方法。
4.形容詞-副詞分類器
因為形容詞、副詞最能體現觀點和情緒,因此分析形容詞和副詞出現的位置、頻率等統計信息,然後運用簡單的語義分析就可以對文本類別進行判斷了。
5.投票系統
投票意思就是用多種方法來對同一文本進行分類判別,然後看哪種結果多,我就認為該文本信息屬於哪個類別。也就是少數服從多數,當然也可以進行適當的加權
6.判別分類器
判別的含義就是雖然某些詞都屬於積極類辭彙,但是這些詞在實際中所起的作用不同,這時候就要給不同的辭彙不同的權重。這樣的結果會相對更準確一些。
上述是一些常見的文本分類簡單介紹,但是這些方法可靠么?需要一個演算法評價的演算法(那麼評價演算法的演算法是否可靠呢?需要一個評價演算法的演算法的演算法,我要暈了)。其實就是演算法驗證評估,實際中交叉驗證、混淆矩陣、FA,TA等多種指標。
以後我會適當的介紹一些常見的分類演算法,從演算法原理上結合一些例子來介紹。謝謝~


TAG:FT部落 |