微軟又出黑科技:Video Indexer,機器幫你看視頻
之前有一次給大家介紹過微軟出的 PPT 插件,功能是在幻燈片播放時,可以實時自動根據演講者的語音,生成字幕,聽眾手機里安裝微軟翻譯 APP 的話,還可以實時將演講翻譯成各種語言,簡直是人工智慧版的同聲傳譯。
今天,再給大家分享一個微軟的黑科技 ——Video Indexer。
雖然上面的翻譯十分生硬,但是大意就是,這款「視頻索引器」能夠幫你讀懂視頻,不僅可以將演講聲音識別成文字,同時還可以對說話的人物、演講的關鍵詞,甚至情感傾向進行分析。
對於音頻文件,支持語音轉文字,可以進行翻譯,標識關鍵字,標識品牌商標等命名實體,進行語音消噪,進行情緒分析等。同時,語音識別還支持對特定行業進行調整,以更好地從語音中識別出這個行業里的專業名詞。
對於視頻文件,能夠檢測視頻中的人臉,標識出講話的人物。可以識別出視頻中出現的文字(比如演講時鏡頭切換到 PPT 時,可以識別 PPT 中的文字)。另外還有關鍵幀提取等功能。
這個 Video Indexer 把諸多 AI 技術進行了結合:語音處理、圖像處理、文本挖掘……最終,這些功能恰當地綜合在一起,就能做出一個幫你讀懂視頻的識別助手。
體驗網址
輸入http://video.ai即可訪問,目前還是免費預覽版,供大家感受黑科技使用。同時提供了面向開發者的相關 API,開發者可以申請密鑰,在自己的程序中集成這套服務。
試用一下吧
在 video.ai 網站中,使用微軟賬戶登錄,來體驗一下這款產品。你可以上傳自己的視頻進行分析,或者直接用示例視頻體驗一下效果。
先上一個示例視頻體驗一下,選微軟 Build 大會上的一段視頻吧:
點開之後,直接能看到分析結果,在「腳本」一欄,可以看到視頻轉文字的處理結果。可以自動將演講轉換為文本,同時標識出是誰講了這段話。如果鏡頭切換到 PPT, 還可以 OCR 識別出視頻中的文字。
在 「見解」一欄中,提供了對視頻內容的分析,例如識別出視頻中出現的人、品牌、關鍵詞等。
為了增加難度,從微博上隨手選了一段視頻,上傳來看下效果。
上傳之後,需要等待一段時間,待視頻處理完成。由於只是預覽試用版,無論上傳速度還是處理速度都不會很快,建議選個小點的視頻來嘗試。
由於選的這段視頻出自綜藝節目,戶外錄製噪音較大,而且綜藝節目屏幕上出現的人物、文字通常也很凌亂,但仍然識別出了不少信息。這只是預覽版本,將這項服務與企業級應用標準相結合,一定會有廣泛的前景。
微軟的這款黑科技產品,讓我們看到了人工智慧技術在當下的一些可行的應用。雖然語音、圖像、文本看似不太相關的領域,但稍微一進行結合,也能找到非常合適的應用場景。未來的會議紀要、發布會演講、新聞報道,都可以通過這些技術進行自動處理,幫助人們更好地存儲、檢索信息。


TAG:一隻技術宅 |