2017 IEEE VIS 見聞精選-05

最新 10-07

VAST PAPER：

High-dimensional Data Session

分析高維數據並找到數據中的隱藏模式一直是可視化領域密切關注的一個困難課題。

幾乎所有的可視化工具都通過某些投影方法，使用降維後的低維空間傳遞高維數據的信息。通過互動式的可視化工具將數據分析引入數據探索過程是極有幫助的。

中南大學的夏佳志老師介紹了今年與浙江大學陳為老師的合作研究的成果LDSScanner。

通過抽取低維空間中某些全局和局部的特徵描述（GD與LSTD），將LSTD與GD分別通過一維MDS投影在二維平面的x/y軸，構建了一種能保留點對間相對距離的降維投影方法，幫助挖掘數據在低維空間的隱藏模式。

Stony Brook University做高維數據的Klaus Mueller教授通過子空間採樣與子空間聚類，將一個高維數據分解為連續的3D子空間，通過熟悉的trackball界面使用戶可以通過流暢的交互觀察到連續的相鄰3D子空間，增強用戶對高維空間的理解。

H2O.ai的首席數據分析科學家Leland Wilkinson提出了一個新的高維數據離群值檢測演算法hdoutliers，有效的規避了在高維數據的低維表徵中檢測離群值造成的錯誤結果與思維誤區。

香港科技大學的SkyLens工作則對天際線演算法（Skyline Algorithm）計算得到的高維skyline points，通過t-SNE降維投影及一系列可視化增強的對比手段進行對比分析。

德國康斯坦茨大學的Dominik介紹了與Daniel A. Keim教授合作的工作Pattern Trails，對目前高維數據子空間的特徵模式識別方法做了進一步的改進，通過將子空間連續排列並通過計算投影子空間的相似性對其進行排序與篩選，避免了模式冗餘。

VAST PAPER：

Text Analytics Session

文本分析的常用方法包括，使用主題模型對語料庫中的文檔進行主題抽取，與詞嵌入方法將詞映射為向量。

理解這些方法的中間過程對文本分析極為重要，但同時對非領域專家來說也極為困難，而可視化則能幫助用戶更直觀快速的認識與理解這些過程。

今年VAST BEST PAPER HONORABLE MENTION之一的Progressive Learning of Topic Modeling Parameters: A Visual Analytics Framework一文提出一個可視分析框架，通過用戶驅動的強化學習過程幫助不清楚主題模型演算法的用戶理解主題模型。

對於一個給定的語料庫，基於同一個參數空間分析使用兩種不同的主題模型演算法以增強文檔區分度。並通過可視分析界面完成尋找兩種主題模型演算法的匹配計算結果、總結主題、分析參數分布、查看源文檔等任務。

詞嵌入方法使得我們可以從一個小的種子集中構建出一個總體概念，但自然語言的多意性往往會導致構建出錯誤的概念。

ConceptVector則為用戶提供了一個通過詞嵌入構建概念的指導方法並通過構建的概念進行文檔分析。

此外，本session的另一篇文章Vispubdata.org則介紹了該網站（Vispubdata.org）收集的Vis會議1990年到2016年收錄文章數據集，包括每篇文章的題目、摘要、作者、引用等等。

本session還包括一篇介紹科學文獻與專利可視化方法的綜述論文，文章分別從數據類別於任務兩個方向對已有方法進行了總結。

InfoVis PAPER：

Multidimensional Data Session

與VAST的高維數據session類似，今年的InfoVis也開設了一個多維數據可視分析的seesion。

散點圖矩陣是用於探索多維數據的常用方法，散點圖診斷方法通過評估散點圖特徵從而自動化尋找有意義的散點圖。回歸等統計測量方法只能抓取散點圖的方向，而圖理論的診斷方法只能抓取散點圖的形狀。Skeleton-based Scagnostics則在傳統診斷方法的基礎上，使用離散KDE構建出整個散點圖的骨架，從而抓取散點圖的方向與形狀特徵。

猶他大學的Shusen通過神經元詞嵌入將單詞轉化為向量，但傳統的t-SNE與PCA方法對理解語料庫的整體結構與局部線性關係卻幫助甚微。為了更好的區分辭彙間的類比關係，Shusen在一個二維投影中，使用X軸編碼類比關係中兩個概念的區分度，使用y軸編碼不同詞對間的區分度，分別通過SVM方法與PCA方法（或REG方法）計算點的x，y位置，從而得到了類比關係區分度更高的投影。