當前位置:
首頁 > 知識 > 我知道「綁架者」是你

我知道「綁架者」是你

我知道「綁架者」是你



圖片來自telemundo.com


「罪案遺蹤」系列 第1篇


《知識分子》科學新聞實驗室 第1篇

撰文 | 格蕾絲(《知識分子》科學新聞實驗室特邀作者



前言


那是1983年,那名八歲的女孩正待在她最喜歡的地方:書店。女孩沒有太多錢,但是她把生日和節日里收到的紅包都存了起來,剛剛夠買一本書。


她的爸爸告訴她五分鐘後在書店的前面碰面,然後就放她自由活動,看她自己想看的書。書店裡的燈光讓事物看起來要麼太閃亮,要麼有點褪色。不能說這完全是個好地方,但有了那些燈光和人群,這裡至少來說是一個可以讓她安全獨處的地方。


她正在讀一本畫書,講的是一隻橙白相間的小貓的歷險故事,就在這個時候,一隻男人的手從她腦後伸過來,捂住她的嘴。她能夠感到他的身體離她很近,就在她後面。她能夠聽到身體上方傳來的粗重呼吸聲。


「你跟我來,小女孩。」男人低聲說道。但是……他的聲音……聽起來有點熟悉……


罪案每天都在發生,每處都在發生,是的,也許某一天你也會身陷其中。也許你認識的某個人會偷竊你的東西,或是詐騙你。一個被拋棄的情人可能勒索你;一名政客可能許諾你一門好生意來交換你的一次非法徇私行為。這很誘人,不是嗎?你的兩名員工可能合謀從你的公司竊取錢財。(罪案對他們來說也是很誘人的。)與此同時,你的女兒可能從書店裡被誘拐。


正像科學幫助我們揭示宇宙的奧秘那樣,它也幫我們理解更多世俗的謎題。畢竟,有些時候那些更世俗的謎題對我們的日常生活來講要重要得多。儘管了解宇宙的年齡在科學上是存在價值的,但你可能更願意選擇找出殺害你妹妹的兇手,以便正義得以伸張。法國人埃德蒙?羅卡(1877-1966)曾說,「每一次接觸,都會留下蹤跡」,很多人把他當作「現代法醫學之父」。


這一組六篇文章,想要探索這些蹤跡是什麼,科學家如何分析它們,法庭如何使用(有時是誤用)它們,以及法醫學的科學方法和技術正在發生的改變。計劃中的一些話題對於羅卡來說可能是熟悉的,但其他一些,比如我們的第一個話題「司法語言學」,則不在此列。

我知道「綁架者」是你


「司法語言學」這個術語在1968年之前是不存在的。司法語言學有多個不同的側面,包括商標糾紛、聲音比對與分析、作者鑒定,以及演說分析。儘管不是每個人都同意,但許多學者還將法律語言的研究以及法律文本的翻譯當作司法語言學的問題。


實際上,領域中的一些人認為司法語音比對也不屬於司法語言學的一部分。


「基本上,我所處理的是講話中的聲學特點,而司法語言學一般更多關注語言的意義或內容。」傑弗里·斯圖爾特·莫里森博士解釋說。他是一名獨立法醫顧問,專註於聲音比對分析以及法醫學中的統計建模。


通常的情境是這個樣子的:某人被指控犯有某項罪名並被捕,警方錄了一段此人講話的錄音。往往,這是一段警察問訊的錄音。在尋找證據的過程中,一段跟該案有關的錄音被發現。它常常是一段兩人或多人的電話錄音,但也有可能是其他任何內容。錄音中一個未知的聲音聽起來像是嫌疑人的聲音,但是嫌疑人聲稱錄音中的聲音並不是他的。這兩段錄音——已知的和未知的——必須經比對來斷定未知的說話者與被捕者是否為同一人。


在他/她進行聲音分析的時候,科學家究竟是在做什麼呢?嗯,這取決於你向誰發問。不同國家不同執法部門使用不同的識別方法。但是首先……我們應該談一談錄音質量的問題。


1


絕對的確定性


「如果你說了些話,我把你的話錄下來,隨後,我立即嘗試錄下你以完全相同的方式說完全相同的話,然後我對比兩段錄音,我們幾乎必然地會發現一些可察覺的不同。」莫里森解釋說,「也許警察的問訊發生在一個牆壁堅硬的小房間里,那錄音里就有迴音。也許空調開著,那錄音里就有額外的雜音。還可能發生其他一些事情,比如某人把文件存為了MP3格式的。MP3格式的文件之所以能相對較小,是因為它們實際上丟掉了某些信息。」手機和其他電子設備常常也會刪除某些數據信息,因為更少的數據意味著更快的速度。所有這些因素都會造成不匹配。不是說已知和未知聲音的完全不匹配,而是說錄音質量的不匹配。


所以,一定不存在「百分之百匹配」的兩段不同的錄音,即便它們都出於同一個說話者之口。即不存在絕對的確定性。

鑒別出未知說話者的聲音與已知說話者有多大的相似性當然是重要的。但同等重要的是,鑒定未知說話者的聲音相較於擁有相似背景的人——比如相關人群——的聲音而言,具有多大的典型性。


然而還有一個地方有可能出錯。想像一下,警方拿到了一段錄音,其中一名未知的說話者生活在北京,但他的普通話中帶有福建口音。警方找到並拘留了某個住在北京且說話操福建口音的人。他們將問訊錄了下來。現在,一名司法聲音分析師對兩段錄音進行比對。即使兩段錄音中的說話者是不同的人,他們仍然是相似的,因為他們都生活在北京並帶有福建口音。


在不清楚就相關人群而言這些計量具有多大典型性的情況下,分析師並不能真正確定相似性具有多大意義。


那麼,專家使用什麼樣的聲音樣本資料庫來鑒定未知說話者聲音的典型性呢?相關人群又是什麼?資料庫應該包含具有相同性別、相似年齡、居住在北京,並且說普通話時帶有福建口音的人。如果專家使用的資料庫包含了全國各地的說話者,那麼這將使鑒別結果向著「說話者為同一人」發生偏斜。


「專家可能會得到一個較大的可能性比率值,但這可能並不相干。」莫里森說,「回答了什麼問題?如果你不知道問題是什麼,那你就不會真正理解答案。反之,如果相關樣本人群擁有相同的口音,你得到的數值會小一點,但它回答了一個更加相關的問題。」


國際刑警組織在2016年對世界範圍內100家執法部門所做的調查顯示,有六種不同的常用方法被用於說話者鑒定:聽覺、聲譜、聽覺聲學語音學、聲學語音統計、人為監督式自動,以及全自動。大部分當前使用的方法都依賴於某種程度的人工分析,這就容易讓錯誤和偏見趁虛而入。所有回應調查的執法部門中,只有少於半數擁有用於分析錄音的實驗室。在他們中,少於一半擁有錄音資料庫。在這些擁有資料庫的部門中,又有少於一半擁有人群樣本錄音資料庫。


莫里森認為司法語音比對領域正在發展出更加可靠的分析方法,但變化是緩慢的。


「那麼……我們在看到領域內的進展嗎?」


「Yes。」


「我會很快看到最終結果嗎?」

「No。」


2


兩個大誤會


與此同時,美國杜肯大學計算機科學教授帕特里克·尤奧拉正在採用與莫里森類似的統計方法來分析書面文檔的內容,而非錄音的聲學特性。他在文本分析、安全、法醫學和文體測定學方面是一位國際知名專家。


「對於文體測定學,大概有兩個常見的大誤會。第一個是,人們根本不知道這件事是可以做到的。」尤奧拉說,「但第二個是,一旦人們知道你可以做到,他們會對你所能達到的準確程度產生不切實際的想法。」


第二個誤解與一種叫做「CSI效應」(Crime Scene Investigation,犯罪現場調查,一部美劇)的現象有關。這得感謝以一部同名電視劇為代表的科學探案類電視劇集在美國的流行。所有這類電視劇都有一個共同點:在45分鐘的節目結束之前,法醫專家總是能快速得到結果,並且得到百分之百的匹配以抓住壞人。


「總體來說,法醫學沒有那麼強大。」尤奧拉說道。你無法達到這種難以置信的確定性,而且你可能沒法在廣告時間之後就那麼快地得到結果。這對很多律師來說是個真正的問題。在沒有DNA證據或者因為真實的法醫工作無法發現令人驚訝的高比率結果的時候,陪審團成員會出於缺乏證據的考慮而拒絕宣告有罪。


一些研究顯示CSI效應是真實存在的,而另一些研究則暗示它並不存在。莫里森更加關心的是相反的問題。「很多人對數學表現出恐懼。所以,簡單的答案是:『是的,就是他。相信我,我是專家。』然後陪審團成員想說『好的,我們相信你。』審理不公就是這麼出現的。」


3


發現真實作者

並非所有的文體測定都是用於罪案的。2013年,尤奧拉發現自己和自己的工作處在了國際聚光燈下。當時,他開發的文本分析軟體檢測到一個名叫羅伯特·加爾布雷斯(Robert Galbraith)的新晉且沒有名氣的作家的處女作,與著名的哈利·波特系列的作者J·K·羅琳的作品具有顯著相似性。那款名叫JGAAP(The Java Graphical Authorship Attribution Program,Java圖形作者資格歸屬)的軟體所分析的特點中包括了某些常見功能詞(指「的」或「這」這樣的詞)、單詞長度分布,以及重複出現的單片語合。


在尤奧拉的發現被公開之後,羅琳確認了那些流言是真實的。她真的使用了羅伯特·加爾布雷斯這個筆名。


文體測定分析也被用於一些中文名著。上學的時候你是不是學到《紅樓夢》的後40章並非曹雪芹所著?但是有人跟你解釋過這個結論是怎麼得到的嗎?


曹雪芹在小說出版之前就去世了,所以對小說結尾的爭論自它1791年面世以來就出現了。


小說最早的出版人是高鶚和程偉元。在第一版的前言中,程偉元聲稱他根據曹雪芹創作的手稿「抄成全部」。但是,「抄成全部」的意思是程偉元和高鶚僅僅編輯了曹雪芹所寫的後40章的粗稿嗎?或者,「抄成全部」意味著程偉元實際上親自寫了這些章節?


過去三十年里司法語言學的發展幾乎總能從對這部小說的分析中找到蹤跡。看起來,一有新的分析方法出現,學者們就會嘗試用它來回答《紅樓夢》結尾作者身份的問題。在1980年代,學者們採用人工積分的方式研究了小說的語言學風格,對比了前80回和後40回中的功能詞、短語和篇名。也是在1980年代,還有學者對小說的辭彙進行了(非計算機的)統計分析。然而,這些早期的分析工作中所缺少的,是基於數學演算法所進行的計算機分析。


2014年,也就是帕特里克·尤奧拉和同事發現了羅伯特·加爾布雷斯的真實身份的後一年,數學家胡顯峰(音)、王洋(音)和吳強(音)發表了一份基於演算法的對《紅樓夢》的新分析結果,測試了他們稱之為「慢性分裂」的小說風格。他們的發現確認了早先的分析結果:「前80回和後40回系兩個不同的作者所寫」。他們的研究看起來只是再次確證了人們的常識,但他們也發現了一點新的東西:他們的分析還顯示第67回也並非曹雪芹的寫作風格。


儘管對於當代作家韓寒第一部小說的作者身份的爭議已經平息,也仍然有可能用類似於分析《紅樓夢》的方法來對存疑的作者身份進行分析。


與聲音比對的工作一樣,這種分析可能並不像一些人想像的那樣簡單。僅僅把韓寒的第一部小說《三重門》與其父親的小說做對比是並不充分的。甚至於,分析中僅僅把韓寒和其父當作兩名已知的作者來分析,也是不夠的。理想狀態下,分析需要包含多個已知作者的作品以及多個存疑的作品。就像尤奧拉在他的白皮書《測量風格:文件分析與司法文體測定》中所言:「如果你只有來自一名無爭議作者的作品樣本,那麼這名作者看起來跟任何人都很接近。因此,必須有一批足夠多的所謂干擾項作者,這些作者要麼是其他一些說得過去的嫌疑人,要麼至少是跟實際的嫌疑人足夠相似——他們的作品能夠支撐有用的和有意義的檢測。」


文檔的質量也必須足夠高,因為就像聲音比對那樣,錯誤匹配的情況是會發生的。所以,如果你要分析《三重門》的作者身份,那麼作為對比你就需要韓寒的另一部小說——不是博客文章、個人信件等。你還需要把其他已知作者的小說拿來做對比。

但是,你如何證明韓寒寫了你拿來當作已知文檔的那部小說?你能做到的最佳結果可能是:1號作品跟2號作品最為相似。但如果你不能夠確定第二部小說的作者身份,那麼你能說的也只是「它們最為相似」。你仍然不能夠確定誰寫了它們。


噢,那名在書店裡被綁架的八歲女孩?還記得她嗎?


她確實跟著那個男人走了。


我知道,是因為我就是那個女孩。


在被手捂住嘴之後,我一動不動地站在那裡。看,我認識那個聲音。那個男人的手一從我的嘴上拿開,我就說:「爸爸,我知道是你。」


他把我轉過去面向他。「如果有人綁架你,你應該叫喊。」他斥責我說,「你為什麼不叫呢?你為什麼不掙扎呢?」


「我說了,我知道是你。」我又重複了一遍。


「你怎麼會知道是我呢?」他問道。


他以前就做過這種事。每一次,他都會質疑我的反應,總是告訴我說,他是訓練我應對真實的綁架事件。他希望我喊叫和掙扎,而我的消極響應總是令他失望。


「你每次都是以完全相同的方式說完全相同的話。」我說。這在法庭上當然是不可採信的,但這就是事實。在那之後,我去書店的時候會背對牆角站立,這樣就不會有人溜到我的身後了。

製版編輯:陳婧嫻丨


本頁刊發內容未經書面許可禁止轉載及使用


公眾號、報刊等轉載請聯繫授權


喜歡這篇文章嗎?立刻分享出去讓更多人知道吧!

本站內容充實豐富,博大精深,小編精選每日熱門資訊,隨時更新,點擊「搶先收到最新資訊」瀏覽吧!


請您繼續閱讀更多來自 知識分子 的精彩文章:

參與超導超級對撞機國際合作的始末
如何用蟲子解決塑料污染?
參與超導超級對撞機國際合作始末

TAG:知識分子 |

您可能感興趣

我也不知道我為什麼知道,但是我就是知道
我知道啊,但我還是想
一開始你是我的秘密,我怕你知道,又怕你不知道
我也想知道為啥我怕貓
男人說這幾句話,是在暗示你:他想見你了!你可知道?
你知道嗎?你不知道
但是你知道嗎?人是它的奴隸
經典:我知道,只有我知道
我知道你很難過
我知道你想來,但我卻不能帶你走
我要走了,我知道你不會想我的
你愛我?可是你根本就不知道我想要的是什麼!
我知道她不對,可是那是我媽,你讓我怎麼辦?
你女朋友知道你又來看我動態嗎?
恕我直言 當了蛙媽的你還是不知道你親媽想要啥
想知道怎麼邀約女孩子?這些你必須知道!
知道你在套路我,我卻甘願被你套路
小事 | 我知道啊,但我還是想
陳子昂 l 你們只知道我會炒作,不知道我的孤獨
這些知識你要知道!