當前位置:
首頁 > 最新 > 新加坡國立大學:TweetFit-融合多種社會媒體和感測器數據進行健康檔案學習

新加坡國立大學:TweetFit-融合多種社會媒體和感測器數據進行健康檔案學習

你和「懂AI」之間,只差了一篇論文

很多讀者給芯君後台留言,說看多了相對簡單的AI科普和AI方法論,想看點有深度、有厚度、有眼界……以及重口味的專業論文。

為此,在多位AI領域的專家學者的幫助下,我們解讀翻譯了一組頂會論文。每一篇論文翻譯校對完成,芯君和編輯部的老師們都會一起笑到崩潰,當然有的論文我們看得抱頭痛哭。

同學們現在看不看得懂沒關係,但芯君敢保證,你終有一天會因此愛上一個AI的新世界。

這是讀芯術解讀的第35篇論文

AAAI2017 Artificial Intelligence and the Web

TweetFit:融合多種社會媒體和感測器數據進行健康檔案學習

TweetFit: Fusing Multiple Social Media and Sensor Data for Wellness Profile Learning

新加坡國立大學

National University of Singapore

【摘要】健康是一個廣泛流行的概念,通常適用於健身和自助產品或服務。個人健康相關屬性(例如身體質量指數BMI或疾病趨勢)的推斷,以及對健康屬性與用戶行為之間的全局依賴性的理解對於個人和公共健康領域的各種應用至關重要。同時,社交媒體平台和穿戴式感測器的出現使得用戶可以從多種視角進行健康分析。然而,健康分析以及整合社交媒體和感測器數據的研究工作相對較少,而本文的研究代表了在該方向的首次嘗試。具體來說,為了推斷個人健康屬性,我們提出了名為「TweetFit」的多源用戶個人檔案學習框架。「TweetFit」可以同時處理來自感測器和社交媒體數據的數據不完整性和執行健康屬性推理。我們的實驗結果表明,來自感測器和多個社交媒體來源的數據的集成可以大大提高健康狀況分析的性能。

1 引言

在過去十年中,社交多媒體服務對人們日常生活的影響大大增加。例如,有超過一半的美國智能手機用戶平均每天花費144分鐘的時間來瀏覽他們的移動設備,旨在與他們的朋友保持社交關係。同時,這些用戶經常遵循所謂的量化自我傾向,包括測量和發布可穿戴感測器的各種信號(如心率、身體加速度或物理位置)。這些數據對健康領域的研究至關重要,因為它描述了用戶實際身體狀況,這與用戶的身體有關。與此同時,最近的工作表明了社交媒體數據在健康相關研究中具有巨大潛力(Mejova等人,2015;Akbari等,2016)。然而,這些研究中的大部分工作本質上都是描述性的,不研究社交媒體和穿戴式感測器數據的整合。考慮到大多數在互聯網中活躍的成年人在日常生活中積極使用四種以上的媒體服務(GlobalWebIndex,2016),可穿戴式感測器的數據可用性很廣,將來自不同社交網路的多模態內容與感測器數據進行聯合處理似乎是合理的(Jain和Jalali 2014)。這種整合將縮小用戶在線表示與實際身體狀況之間的差距,這是邁向實現360度用戶挖掘的正確一步(Farseev等,2016)。

本文重點介紹了基於多個社交網路和穿戴式感測器數據的用戶個人健康分析問題。在這裡,個人健康狀況涉及個人用戶屬性(Farseev等,2016),如人口統計學(年齡、性別、職業等)(Farseev等,2015),身體質量指數(BMI)類別,人格(BuA-raya等,2017)或慢性疾病傾向(Akbari等,2016)。在我們的研究中,我們專註於兩個重要的個人健康屬性——BMI類別和「BMI趨勢」(隨著時間的推移,BMI波動的方向——增加/減少)。這兩個屬性緊密相關並與個人的整體健康密切相關。例如,Field等(2001)發現,BMI高於35.0的人群發展糖尿病的可能性比常人高出20倍。此類屬性的其他優點包括:a)BMI類別可以進一步用於公共衛生領域,以監測社會媒體用戶在全球範圍內的健康趨勢;b)「BMI趨勢」信息可被用戶利用,以糾正其生活方式(即通過互動式移動應用或「智能手錶」),並由醫生獲得患者的健康狀況。

個人健康狀況分析中存在三個挑戰:1)數據採集:來自現代社交媒體服務和感測器設備的數據通常存儲在獨立的Web資源中,隱藏在隱私設置之後。此外,穿戴式感測器的數據以及BMI或人口學等個人屬性往往不能公開訪問。因此,有必要實施數據收集和跨源用戶帳戶映射技術,以支持大規模的社交媒體研究。2)數據表示:除文字資料之外,社交網路服務涉及各種形式的數據。例如,在Instagram中,用戶分享最近拍攝的照片和視頻,而在Endomondo(endomondo.com)中,用戶發布他們的有關鍛煉信息,這在很大程度上取決於時間和空間。集成這種異構多模態數據源需要開發高效和相互一致的數據表示方法。3)數據建模:個人健康檔案學習的有效數據整合是一項艱巨的挑戰,因為獨立媒體來源的數據本質上是不同的。此外,多源數據通常是不完整的,這意味著一些用戶可能不會在所有社交網路上都處於活動狀態。最後,多源特徵空間的高維度常常導致所謂的「維度災難」問題。開發可以處理所有這些問題的學習框架是一項艱巨任務。

受到以前的研究和上述挑戰的啟發,在這項工作中,我們尋求解決兩個研究問題。首先,為了支持這項研究背後的假設,重要的是要理解:(RQ1)是否可以通過融合多個社交媒體和感測器數據來改善BMI類別和「BMI趨勢」推理的性能?第二,為了進一步改善健康狀況,必須深入了解:(RQ2)感測器數據對BMI類別和「BMI趨勢」推論的貢獻是什麼?

為了回答上述研究問題,我們提出了一個名為「TweetFit」的新的計算健康分析框架。我們介紹從新型感測器數據源(Endomondo)和其他社交媒體來源(Twitter、Foursquare和Instagram)收集和表示數據的技術,從中我們預測用戶的BMI類別和「BMI趨勢」。為此,我們將個人健康狀況分析視為一個正則化的多任務學習(MTL)問題,不同數據源組合進行類別推理被表示為MTL「任務」。為了進一步研究,我們發布了我們的多源多模感測器-社會數據集(Farseev 2017)供公眾使用。

這項研究的主要貢獻有兩個方面:第一,我們提出了一個用於健康屬性推理的多源多任務學習框架,通過正則化多任務學習進行個人健康剖析;第二,我們發布了一個大規模的社會感測器數據集,這是一個新的基準,用於通過多用途多模態數據和穿戴式感測器的數據進行健康分析。

2 相關工作

最近,醫療和保健團體建議將社交媒體和感測器數據作為一種適用於不同健康應用的有意義資源。例如,Eggleston等(2014年)利用社交媒體監測肥胖和糖尿病患者的食物相關習慣,而Fried等(2014)預測15個美國城市的糖尿病和超重率。同時,Mejova等人(2015年)證明了基於Foursquare的功能對群體實施推理任務和文化差異分析的預測能力,而Abbar等人(2015)利用Twitter數據試圖根據推文中的食物名稱預測肥胖和糖尿病。最後,Akbari等(2016年)提出了一個多任務學習框架,用於個人健康事件的分類。這些研究工作是為了分析健康生活方式而做出的,結果顯示社交媒體數據具有巨大潛力來協助健康相關研究。然而,上面提到的大部分工作本質上是描述性的,僅使用單個數據源,或者基於基本的數據分析方法。它們可能無法從多源社交媒體數據和穿戴式感測器獲得更深入的見解。

同時,對多源用戶資料學習進行了若干研究工作。在早期的研究中,Liu等人(2009)在多任務學習中為了進行特徵選擇嵌入了所謂的正則化,以獲得稀疏數據表示,這在高維數據處理中是有用的。然而,數據源整合是以「早期融合」的方式進行的,其中所有的特徵在模型訓練之前被融合成一個向量。這樣的數據集成策略可能導致高維度和次優的最終結果。Farseev等人(2015年)引入了有效的集成學習解決方案,旨在將多源多模態數據組合用於人口統計學用戶狀態學習。該模型在每個數據源上獨立進行訓練,並以「後融合」方式進行整合,不能充分利用多源數據。最後,Song等人(2015)採用結構約束的多任務學習框架,用於多源數據的用戶興趣推理。然而,框架依賴於外部知識和數據完成技術,這使得它偏向於特定的數據集和任務。由於上述原因,發展不依賴外部知識和數據補全技術的全自動多源個人健康檔案分析方法對健康檔案學習至關重要。

3 NUS-SENSE: 感測器-社交數據集

要構建一個全面的用戶檔案,必須從多個角度對來自各個用戶的多模態數據進行整合(Song等,2015)。同時,完整的健康檔案必須包含有關用戶身體健康的信息(Corbin等,2001)。在下文中,我們描述了常用的數據模式及其對個人健康分析的潛力。首先,值得注意的是文本信息是用戶個人檔案學習中最有價值的貢獻者之一,主要是因為其高可用性及其全面界定用戶日常習慣的能力(Farseev等,2016)。其次,還觀察到(Farseev等,2015)視覺數據在年齡和性別預測中起到重要作用。假設該數據也可以用於健康領域的個人用戶檔案學習是合理的。第三,據報道(Mejova等,2015),基於位置的社交網路數據有助於群體級別的肥胖估計,這表明其可能用於個人BMI類別和「BMI趨勢」預測。最後,發現穿戴式感測器的數據對於用戶活動識別和健康監測很有價值(Banaee,Ahmed和Loutfi 2013),這顯示了其對個人健康檔案學習的潛力。考慮到上述情況,我們收集了來自多個社交媒體來源的數據。特別地,我們使用Twitter推文作為文本數據源;Instagram圖片及其描述(評論)作為圖像和文字資料來源;Foursquare簽到及其相應的評論作為地點語義、移動性和文本數據來源;Endomondo鍛煉數據作為感測器數據源和構建標註數據集。

值得注意的是,Endomondo除了提供所謂的鍛煉語義外,還可以作為豐富的序列數據來源,包括穿戴式感測器和可靠的健康相關的標註數據。運動數據序列被公開可用,並且通常包括一系列多維數據點,每個數據點可以包含諸如高度、經度、緯度、時間、心率等屬性(參見圖1(b))。因此,可以從這些可公開訪問的Endomondo用戶個人資料網頁中獲得真實的標籤,這些網頁通常包括居住國家、郵政編碼、年齡(生日)、性別(性別)、身高和重量(見圖1(a))。這些屬性可以由用戶通過Endomondo App手動輸入,也可以通過連接的「智能」感測器(即FitBit Aria Smart Scale)自動測量。事實上,Endomondo的數據超越了僅用一種模式代表用戶,彌合了基於在線社交媒體的用戶表現與實際離線身體活動和狀況之間的差距。

圖1: Endomondo用戶資料(a) Endomondo鍛煉(b), Twitter頁面中關於Endomondo鍛煉的報告(c)。

這些數據是在2015年5月1日至2015年8月28日期間獲取的。它按以下三個步驟進行:1)搜索種子使用者。通過Twitter Search API進行搜索,我們收集最近在Endomondo活躍的用戶作為一個「種子」Twitter用戶集。2)用戶生成的內容收集。然後,我們啟動了一個涉及所有「種子」用戶的Twitter「流」,並通過URL將這些用戶生成的多源內容下載到原始的Twitter帖子(參見圖1(c))。3)標註數據收集。在Twitter爬行過程中,我們每天監控Endomondo用戶的帳戶,並在整個數據收集期間記錄所有BMI更新。用戶的重量和高度更新之間的平均值用於計算他/她的BMI。用戶的第一個和最後一個重量和高度更新之間的區別被用於估計他/她的「BMI趨勢」。表1列出了數據集統計。

表1:NUS-SENSE數據集中的數據記錄數量

為了保護用戶的隱私,數據集以數據表示(特徵)和匿名化的多源用戶時間表的形式發布,而不是原始用戶的帖子(Farseev 2017)。在數據集中,用戶在所有BMI類別中都有良好的分布。從圖2可以看出,用戶佔比最高(38%)的為「非正常」BMI類別,用戶百分比最低(3%)屬於「中等瘦身」BMI組。表明有足夠的數據樣本來訓練BMI類別分類任務的監督模型,但必須分別對每個BMI類別進行評估,以避免不平衡的數據集評估問題(Farseev等,2015)。另外,還注意到,「BMI趨勢」中的用戶分布略有轉移到「減少」(56%)類別,這可以由Endomondo用戶整體具有的「減肥」意圖來解釋。

圖2: NUS-SENSE數據集中用戶在不同BMI類別和「BMI趨勢」的分布

3.1 數據表示

我們提取了以下特徵:

1)文本特徵:在我們的研究中,我們從以下數據源匯總了文本數據:Twitter推文,Instagram圖像標題,Instagram圖片評論和Foursquare簽到評論(Shouts)。更具體地來說,我們提取了以下特徵集:a)潛在主題特徵。我們將每個用戶的所有文本數據合併到一個文檔中。來自多個用戶的所有文檔都使用LDA(Blei,Ng和Jordan 2003)投影到潛在的主題空間,根據經驗確定的參數為T=50,=0.5,=0.1。b)書寫風格特徵。如Farseev等人(2015),我們提取了如下的寫作風格特徵:每個帖子中的錯誤數量,每個帖子的俚語數量,帖子表達的平均情緒,根據我們的初步實驗,發現與用戶的BMI顯著相關(=0.05)。c)基於辭彙的特徵。我們使用了兩個人群來源詞典,包括來自美國新聞界(Mejova等人,2014)和「健康類別」(Mejova等人,2015年)術語辭彙。另外,我們通過Twitter食物詞典(Abbar,Mejova和Weber,2015)從每個帖子中提取食物類型和平均卡路里含量。

2)地點語義特徵:與Farseev等人相似(2015),我們將位置數據表示為764個Foursquare場地類別中的用戶簽到分布。為了克服數據稀疏問題,我們通過提取前86個主要組件(Jolliffe 2002)進一步降低了數據維度,保留了85%的方差。

3)移動性和時間特徵:基於用戶感興趣的領域(AOI)(Qu和Zhang 2013),從Foursquare提取了以下移動性特徵,其基本上是用戶簽到密度高的地理區域(不論簽到地點語義如何):a)在8天內每個持續時間為3小時(如15-18)的平均帖子數;b)感興趣區域數量(AOI);c)AOI的中值大小;d)AOI異常值的數量;和e)AOI之間的中位數。

4)視覺特徵:受Farseev等人的啟發(2015),我們計算了每個Instagram用戶在1000個ImageNet視覺概念(Deng等,2009)中用戶照片的分布情況。類似於地點語義功能,我們從圖像概念分布中提取了前150主要組件(保留85%的方差)。

5)感測器特徵:為了與其他數據模式一致地表示感測器數據,我們結合了以下特徵類型:a)運動統計:我們使用每個用戶的所有感測器數據樣本計算以下平均特徵:距離(升序/降序)、速度、持續時間、濕度;b)外部感測器統計:除了可穿戴的感測器功能外,我們利用了外部天氣感測器(可用的地方)的數據,如風速和天氣類型;c)鍛煉類型分布:我們還將感測器數據表示為96個Endomondo鍛煉類別中用戶鍛煉的分布;d)頻域特徵:我們通過應用快速傅里葉變換(Bracewell 1965)和低帶通濾波器(0-0.5Hz)來提取每個訓練的等效特徵,以構建五種感測器信號類型在99頻率之間的能量分布,即高度、韻律、速度、心率(HR)和氧氣消耗(氧氣)。然後,我們將這5個向量合併在一起,以獲得每個用戶大小為495的頻域特徵向量。與位置語義特徵類似,我們提取了前54個主要組分,保留85%的方差。

4 個人健康狀況分析

4.1 問題描述

在這項工作中,我們將多源個人健康狀況分析視為一項多任務學習(Caruana 1997)問題。多任務學習中的一個重要問題是如何定義和應用不同任務之間的共性。直觀地,不同的數據源組合可以共享用於預測健康屬性的常見知識。通過遵循這一理念,我們將多任務學習任務定義為給定類別的不同來源的特定組合。為了方便起見,在以下部分中,我們將描述單一類別多源多任務學習的情況。在多類別推理(即BMI類別預測)的情況下,單一類別模型可以自然地以一對一的方式組合(Rifkin和Klautau 2004)。

注釋:在本文的其餘部分,我們使用大寫粗體字母(如M)來表示矩陣,小寫粗體字母(如v)表示向量,小寫字母(如s)表示標量和大寫字母(如N)表示常數。對於矩陣,是(Frobenius)範數,而是範數(Liu,Ji和Ye 2009)(是矩陣M的第i行)。

4.2 多源數據融合建模

首先,我們提出一個稀疏模型,解決感測器和社交媒體數據聯合學習的問題,旨在推斷BMI類別和「BMI趨勢」屬性。

假設有一組N個專有標記的數據樣本和S>2個數據源。我們將數據集劃分為T個任務,其中每個任務t由可用數據源的唯一組合表示(見圖3)。任務t的特徵數量表示為Dt;任務的最大特徵可能數量(即當所有數據源都可用時)被表示為Dmax;任務t的數據量的數量表示為Nt,並且源的不同現有組合的數量表示為T。

圖3顯示了一個小例子,其中四個數據源(Twitter,Instagram,Foursquare,Endomondo)和三組社交媒體用戶(X,Y,Z)參與多任務學習過程。用戶組X由3個用戶組成;用戶組Y包括2個用戶;用戶組Z包括4個用戶。這三個用戶組形成三個不同的多任務學習任務類型,其中第一個任務類型(Task X)表示Twitter + Instagram + Endomondo數據源組合;第二任務類型(Task Y)表示Twitterter + Foursquare + Endomondo數據源組合和第三任務類型(Task Z)表示Twitter + Instagram + Foursquare + Endomondo(所有數據源)數據源組合。目的是訓練一個可以預測目標類別的模型。

圖3:將塊狀不完整數據併入多任務學習模型

形式上,T個任務中的每個任務t可以被定義為一組成對關係(第j個數據樣本和它對應的標籤):

對應於任務t的第j個數據樣本的預測由下式給出:

其中,是任務t的模型參數向量。所有模型參數表示為塊矩陣W:

最優W可以通過解決下式獲得:

其中是損失函數,是用來選擇判別特徵以防止高數據維度的稀疏正則函數(Liu,Ji,Ye 2009),A>0控制組稀疏。

損失函數項可以由凸平滑損失函數代替。在本文中我們採用邏輯損失函數:

為了將特徵選擇納入目標(Liu, Ji, and Ye 2009),我們將定義為:

其中是數據源s的特徵向量維數,是表示數據源s中第個特徵的所有模型參數的索引函數。是範數(Akbari等,2016),它將通過限制所有包括數據源s的任務共享一個共有的數據集來得出一個稀疏的解決方案(由控制)。

4.3 優化

(1)式中的目標函數是凸的但不平滑,因為它由平滑()和非平滑()項組成,這意味著常規的優化方法,如梯度優化,在我們的情況中不能直接適用,受Nesterov方法快速收斂速度的啟發(Liu,Ji,Ye 2009),我們將(1)式中的非平滑問題重新定義為:

其中,是範數的半徑,並且和z存在一一對應關係(Liu等人(2009)給出了證明)。

在Nesterov方法中,每個步驟()的解決方案被計算為搜索點的「梯度」

其中,由過去的解決方案計算而來:

其中,是組合係數,是的適當步長(可以根據Armijo-Goldstein規則通過線性搜索確定)。

5 評估

為了回答我們的研究問題,我們將「TweetFit」(基於所有數據源進行訓練)的性能與基於不同數據源組合和各種最新技術基準訓練的「TweetFit」進行比較。 為了評估,NUS-SENSE數據集被統一分為訓練集(80%的用戶)和測試集(20%的用戶)。

5.1 評估指標

我們通過解決個人健康分析的問題,明確評估了我們提出的「TweetFit」框架(a = 0.1)的性能。具體來說,我們提出兩個個人健康屬性的推斷結果:BMI類別(八個屬性類別)和「BMI趨勢」(二分類)。為了執行BMI類別推斷,我們首先解決了(1)式中每個推理類的問題,然後將獲得的結果以一對一方式組合(Rifkin和Klautau 2004)。為了避免流行的BMI類別在評估中佔優勢,我們使用「宏召回率」(RM),「宏準確率」(PM)和「宏F1」(F1,M),即所有類別的平均「召回率」,「準確率」和「F1」值(Farseev等人,2015)。為了在訓練階段解決數據不平衡問題,我們為每個二進位分類任務均勻地選擇了相等數量的正負樣本。

5.2 與數據源組合進行對比

如上所述,在這項工作中,我們利用主成分分析(PCA)(Jolliffe 2002)維度降低技術。由於這個原因和空間限制,我們不比較不同個體特徵類型的預測性能。相反,我們研究個別數據源及其組合的相應性能。為此,我們評估了通過不同數據源組合訓練的「TweetFit」。移動性和位置語義數據表示被視為一個數據源,即「位置語義和移動性」,因為它們都是從Foursquare簽到數據中提取出來的。我們也沒有評估「BMI趨勢」在獨立數據源上的預測性能,因為在「BMI趨勢」測試集中只有少數用戶有所有數據源

表2:對獨立數據源和數據源組合進行訓練的「TweetFit」框架的評估

首先,我們研究不同數據源對健康檔案學習和數據源整合能力的貢獻。一個有趣的觀察來自數據源組合結果(見表2),其中「感測器+文本」和「感測器+地點參數和移動性」的組合返回了最佳性能,似乎在二源組合中是最有影響力。三重組合可以獲得更多令人印象深刻的成果,「視覺+感測器+地點語義與移動性」的組合表現最好。基於這些結果,我們可以得出結論,感測器數據對於個人健康狀況學習至關重要,因為它是包含在所有性能最好的數據源組合中的唯一數據源。這一觀察結果也可以通過感測器數據表示用戶實際身體狀況的能力來解釋,這與用戶的BMI類別和「BMI趨勢」直接相關。另外的解釋是感測器數據的豐富性,因為除了運動語義之外,它還帶有高粒度序列數據,這可能不適用於其他傳統社交媒體數據來源。總結上述情況,我們通過強調感測器數據在個人健康檔案學習中的重要作用回答了RQ2,並提出了它在未來健康相關研究中的應用。

現在來介紹單源評估結果(見表2)。有趣的是,在從獨立數據源學習的情況下,我們的框架對文本模式訓練效果最好,而感測器、位置語義和移動性數據訓練的效果分別排在第2位和第3位。首先,文本數據與其他模式的優越性可以通過其量化優勢來解釋(見表1)。同時,感測器數據保持在第二位置,這再次突出了其重要性。最後,通過對視覺數據進行訓練,「TweetFit」在所有其他數據源中表現最差。一個可能的解釋是用戶Instagram照片中的高噪音。此外,與以前研究的差異可以通過ImageNet圖像概念(Deng等,2009)的一般性來解釋,它可以用於人口統計屬性推理的一般任務(Farseev等人,2015),但是對於個人健康檔案學習的較為特殊的問題,效果較差。總而言之,我們想強調文本和感測器數據源是健康檔案學習最有力的貢獻者。

5.3 與基準方法比較

為了回答RQ1,我們比較以下用戶分析方法:1)隨機森林——用戶資料學習的強基準(Farseev等,2015),其中「BMI類」和「BMI趨勢」推論中樹的數量等於105和25;2)MTFL(Liu,Ji,Ye 2009)——範數正則化多任務學習,a = 0.5;3)iMsF(Yuan等,2012)——稀疏範數正則化多源多任務學習,a = 0.4; 4)MSE——多源用戶分析,由Farseev等人提出(2015年);5)TweetFit——我們的框架基於所有數據源進行訓練,a = 0.1。

評估結果如表3所示。結果顯示,與所有基準方法相比,「TweetFit」在推理任務中有最佳性能。這對RQ1的積極回答至關重要。具體來說,我們得出結論,可以通過整合來自多個社交媒體來源和感測器的數據來改善個人健康狀況分析的表現。此外,「TweetFit」優於多任務學習系列的其他最先進的方法以及非線性基準方法。這表明該框架在整合可穿戴式感測器和社交媒體數據用於健康分析的有效性。

表3:比較「TweetFit」和用戶分析基準

雖然「TweetFit」優於基準方法,但是實現的BMI類別預測性能還不能在現實應用中使用。這突出了BMI類別推論是一個具有挑戰性的問題。通過將數據源相關性引入多源學習目標可以實現改進(Akbari等,2016)。在未來的研究中,我們還計劃採用不同的BMI分類方案或將BMI推理作為回歸任務,旨在將個人健康檔案嵌入到bBridge4社交多媒體分析平台(Farseev,Samborskii和Chua 2016)中。

6. 結論

在這項工作中,我們提出了關於感測器和社交媒體數據的個人健康分析的首次嘗試之一,該項工作通過訓練「TweetFit」框架來推斷BMI類別和「BMI趨勢」個人健康屬性。為了進一步研究,我們發布了多源多模態數據集(Farseev 2017),可用於研究:用戶分析(Farseev等,2016),多視圖時間軸分析(Jain和Jalali 2014; Akbari等,2016),以及跨多個社交網路的用戶識別。

喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 讀芯術 的精彩文章:

今日芯聲:誰說技術沒溫度,機器人可是撩妹高手!
ACL2017 SAP:關於將NLP研究轉化為商業產品所面臨的挑戰

TAG:讀芯術 |