微軟又出黑科技：Video Indexer，機器幫你看視頻

最新 07-20

之前有一次給大家介紹過微軟出的 PPT 插件，功能是在幻燈片播放時，可以實時自動根據演講者的語音，生成字幕，聽眾手機里安裝微軟翻譯 APP 的話，還可以實時將演講翻譯成各種語言，簡直是人工智慧版的同聲傳譯。

今天，再給大家分享一個微軟的黑科技 ——Video Indexer。

雖然上面的翻譯十分生硬，但是大意就是，這款「視頻索引器」能夠幫你讀懂視頻，不僅可以將演講聲音識別成文字，同時還可以對說話的人物、演講的關鍵詞，甚至情感傾向進行分析。

對於音頻文件，支持語音轉文字，可以進行翻譯，標識關鍵字，標識品牌商標等命名實體，進行語音消噪，進行情緒分析等。同時，語音識別還支持對特定行業進行調整，以更好地從語音中識別出這個行業里的專業名詞。

對於視頻文件，能夠檢測視頻中的人臉，標識出講話的人物。可以識別出視頻中出現的文字（比如演講時鏡頭切換到 PPT 時，可以識別 PPT 中的文字）。另外還有關鍵幀提取等功能。

這個 Video Indexer 把諸多 AI 技術進行了結合：語音處理、圖像處理、文本挖掘……最終，這些功能恰當地綜合在一起，就能做出一個幫你讀懂視頻的識別助手。

體驗網址

輸入http://video.ai即可訪問，目前還是免費預覽版，供大家感受黑科技使用。同時提供了面向開發者的相關 API，開發者可以申請密鑰，在自己的程序中集成這套服務。

試用一下吧

在 video.ai 網站中，使用微軟賬戶登錄，來體驗一下這款產品。你可以上傳自己的視頻進行分析，或者直接用示例視頻體驗一下效果。

先上一個示例視頻體驗一下，選微軟 Build 大會上的一段視頻吧：

點開之後，直接能看到分析結果，在「腳本」一欄，可以看到視頻轉文字的處理結果。可以自動將演講轉換為文本，同時標識出是誰講了這段話。如果鏡頭切換到 PPT，還可以 OCR 識別出視頻中的文字。

在「見解」一欄中，提供了對視頻內容的分析，例如識別出視頻中出現的人、品牌、關鍵詞等。

為了增加難度，從微博上隨手選了一段視頻，上傳來看下效果。

上傳之後，需要等待一段時間，待視頻處理完成。由於只是預覽試用版，無論上傳速度還是處理速度都不會很快，建議選個小點的視頻來嘗試。

由於選的這段視頻出自綜藝節目，戶外錄製噪音較大，而且綜藝節目屏幕上出現的人物、文字通常也很凌亂，但仍然識別出了不少信息。這只是預覽版本，將這項服務與企業級應用標準相結合，一定會有廣泛的前景。

微軟的這款黑科技產品，讓我們看到了人工智慧技術在當下的一些可行的應用。雖然語音、圖像、文本看似不太相關的領域，但稍微一進行結合，也能找到非常合適的應用場景。未來的會議紀要、發布會演講、新聞報道，都可以通過這些技術進行自動處理，幫助人們更好地存儲、檢索信息。

喜歡這篇文章嗎？立刻分享出去讓更多人知道吧！

本站內容充實豐富，博大精深，小編精選每日熱門資訊，隨時更新，點擊「搶先收到最新資訊」瀏覽吧！

請您繼續閱讀更多來自 一隻技術宅 的精彩文章: