600 萬張《紐約時報》老照片,正在 Google 的幫助下數字化
在《紐約時報》辦公室附近一座不起眼的建築里,地下三層,是這家百年報紙的檔案庫。
推門進去,眼前是一排排塗上深綠色油漆的鋼製文件櫃。超過 30 萬張底片,和 600 萬張發黃的老照片正靜靜躺在其中。
這個檔案庫由 1904 年開始運作,內部員工將它稱作 The Morgue。這個詞有「太平間」和「停屍間」的意思,聽起來毛骨悚然,也似乎正符合老照片塵封的味道。
而現在,Google 要把這些沉睡的歷史數字化了。
11 月 9 日,Google Cloud 在博客中宣布正跟《紐約時報》合作,將通過雲存儲等工具,為這 600 萬張老照片建立一個易於搜索和識別的內部系統。
一個脆弱的時間膠囊
《紐約時報》創立於 1851 年,在 1896 年刊登出第一張新聞照片。直至 1990 年代,《紐約時報》都在用紙質方式來保存新聞照片。
1948 年的《紐約時報》檔案庫
檔案庫的「守門人」 Jeff Roth
雖然有 Roth 這個好幫手,但記者編輯們同樣會感到煩惱。一篇好的報道需要延伸、探索、研究,有時需要翻閱回顧大量的老照片和剪報,他們在這個陳舊的檔案庫里一待就是幾個小時。
據 Roth 估算,整個檔案庫被掃描成電子版本的老照片只有不到 2%。
而檔案庫也面臨著更大的現實危機。2015 年,一次水管破裂讓《紐約時報》提心弔膽,雖然 90% 泡了水的照片都影響不大,但 Roth 回憶起來還是稱這為噩夢。
這一直是我們的擔憂。
2012 年,《紐約時報》也曾經嘗試將老照片數字化。
當時它建了一個 Tumblr 頁面「The Lively Morgue」,每周向公眾分享檔案庫里的一張老照片,同時講述它背後的故事,吸引了超過 10 萬粉絲關注。
老照片分享計劃 The Lively Morgue
這個項目一直堅持到 2017 年,每周更新 3 次,但是數字化的進度實在太慢了。負責運營的圖片編輯 Darcy Eveleigh 當時這麼說:
如果我們每天分享 10 張存檔照片,估計得到 3935 年,才能將所有照片都搬到網上來。
數字化,將給老照片賦予新的意義
這次《紐約時報》跟 Google Cloud 的合作,大概是因為 2015 年水管爆裂事件的教訓。
對《紐約時報》來說,將紙質照片數字化的最大難題不在圖像本身,這點只要通過夜以繼日的掃描就可以解決了。但跟圖像一樣有價值的,是 600 萬張老照片背後的海量信息。
每張老照片背後,都是花花綠綠的文字標記(右)
檔案庫里的每張照片,背後都有清晰的時間標記、攝影師姓名、照片摘要剪報,以及檔案庫位置編號等信息,堪比今天照片里自帶的 EXIF 數據。
將這些掃描成圖像並沒有什麼意義,而手動登記這些信息又將耗費大量人力,這一點讓《紐約時報》頭疼了很久。
而藉助 Google 的 Cloud Vision API 工具,人工智慧可以快速讀取照片後背的信息。另外 Cloud Natural Language API 工具會像語言學專家一樣,從讀取到的文字中對信息進行識別歸類。
比如說,當遇到下面這句照片摘要:
1942 年擁堵的賓夕法尼亞車站,這是一個勇敢者才敢坐飛機到華盛頓、邁阿密和其他車站的時代。
人工智慧會將「賓夕法尼亞車站」、「華盛頓」和「邁阿密」識別為地點,然後將整個句子劃分到「旅遊出行」,甚至細分到「公交和火車」類。
除此之外,Cloud Vision API 工具還可以識別照片上出現的物體,從潛艇到猴子再到電話和建築不等,甚至可以識別照片中人物的情緒是喜還是悲。
這就相當於,讓人工智慧給老照片打上各種便於檢索的標籤。按 Google 方面的說法,在數字化完成後,所有的記者編輯都可以通過內部系統搜索關鍵詞,找到相關題材的老照片。
類似的效果之前也實現過。2008 年,在《生活》雜誌停刊後,Google 開始對他們接近 650 萬張老照片進行數字化。
這項工作在今年 3 月最終完成,作為 Google Arts & Culture 的項目「Lifetags」亮相,公眾可以在網站上點擊任意一個關鍵詞,看到《生活》雜誌拍攝的相關照片。
截圖自 Lifetags 頁面
當然機器也不是萬能的。
Google 在博客中承認,目前工具對數字和文本的轉錄識別功能還不完善,可能會出現錯漏。而「Lifetags」的網頁,可能因為要處理檢索的照片數量太多,載入反應也都很慢。
但工具的出現,總比手動輸入歸檔和待在地下室一整天要來得方便。
目前,一個 6 人團隊正在《紐約時報》辦公室里忙著掃描這些老照片。在其中工作的 Megan Paetzhold 說,她每天會掃描大約 1500 張老照片。
如果這是一個人的工作量,那每天將有 9000 張老照片順利存檔和被識別。大概算一下,距離掃描完畢還需要 666 天。
跟「Lifetags」項目不同,即使《紐約時報》的老照片全數歸檔後,也只是方便內部查閱使用,並不向公眾開放搜索。
但《紐約時報》稱,他們會在周日刊重新開設一個分享老照片的欄目,取名為「過去時(Past Tense)」,同時也會在 Instagram 賬號 @nytarchives 上更新傳播。一些昔日由於版面限制沒有刊登的照片,也得以重見天日。
Google 將這稱作「連接過去與未來」。
而對老照片如數家珍的 Roth,好像也絲毫不擔心自己的飯碗。他說:
等數字化完成,老照片就會被賦予新的意義了。
文中配圖來自《紐約時報》
※全面屏的 Apple Watch 來了,還有超強心率檢測功能
※《時代》年度 10 大電影出爐,第一名是 Netflix 的沖奧希望
TAG:愛范兒 |