珍貴的紙質(zhì)老照片該如何保存?《紐約時(shí)報(bào)》與谷歌云合作,利用AI將19世紀(jì)以來的500-700萬張歷史照片數(shù)字化。谷歌云的AI技術(shù)不僅可以將照片數(shù)字化,還能掃描照片上的筆記,分類它們包含的位置、日期等語義信息 。
紙質(zhì)老照片記錄下了當(dāng)時(shí)的珍貴時(shí)刻,其中的歷史意義也更為重要,但紙質(zhì)極容易損壞,人類該怎么保存它們,讓它們恒久遠(yuǎn)永流傳?
谷歌云(Google Cloud)利用AI將照片數(shù)字化。
在《紐約時(shí)報(bào)》位于美國(guó)時(shí)代廣場(chǎng)辦公室附近的地下室中存放了大約500萬張到700萬張的舊照片,存在這些照片的地方名為資料檔案室。
《紐約時(shí)報(bào)》不僅存放了這些照片,也存儲(chǔ)了有關(guān)它們是何時(shí)發(fā)布及其發(fā)布原因的相關(guān)信息。現(xiàn)在,該報(bào)正在與谷歌云合作,準(zhǔn)備將其龐大的藏品數(shù)字化。
谷歌云官方發(fā)布博客稱,它將與紐約時(shí)報(bào)合作,將龐大的照片集數(shù)字化,利用谷歌云中的工具幫助《紐約時(shí)報(bào)》安全地存儲(chǔ)照片,提供更好的界面來查找照片,甚至可以通過照片背后的數(shù)字來獲得更多照片內(nèi)蘊(yùn)含的信息。
紙質(zhì)實(shí)物易腐爛,通過AI保護(hù)珍貴的視覺遺產(chǎn)
“資料檔案室保存的照片可以追溯到19世紀(jì)末期,其中許多內(nèi)容具有巨大的歷史價(jià)值——很多照片是世界上其他地方都沒有的。 2015年,一個(gè)破損的管道淹沒了檔案館 ,使整個(gè)館藏面臨風(fēng)險(xiǎn)。 幸運(yùn)的是,當(dāng)時(shí)只有輕微的損害,但這一事件引發(fā)了人們反思:這些最寶貴的實(shí)物資產(chǎn)該如何安全存儲(chǔ)?
《紐約時(shí)報(bào)》的資料檔案室
“資料檔案室是一個(gè)易腐文件的寶庫,不僅是《紐約時(shí)報(bào)》的歷史,而且是近一個(gè)多世紀(jì)以來影響我們現(xiàn)代社會(huì)的全球事件的無價(jià)編年史。”《紐約時(shí)報(bào)》新任首席技術(shù)官Nick Rockwell說。
不僅照片的圖像包含有價(jià)值的信息。 在許多情況下,照片的背面包括拍攝照片的時(shí)間和地點(diǎn)。Rockwell補(bǔ)充說:“照片部門和商業(yè)方面的工作人員多年來一直在探索將這些照片數(shù)字化的可能途徑。 但就像去年一樣,數(shù)字化存檔的想法似乎仍然遙不可及。”
《紐約時(shí)報(bào)》的老照片:1984年,蘋果創(chuàng)始人史蒂夫·喬布斯
為了保護(hù)這個(gè)無價(jià)的歷史,并讓《紐約時(shí)報(bào)》能夠通過更多的視覺敘事和歷史背景來增強(qiáng)其報(bào)道, 《紐約時(shí)報(bào)》正在對(duì)其檔案進(jìn)行數(shù)字化,使用谷歌云來存儲(chǔ)資料檔案室內(nèi)所有圖像的高分辨率掃描。
谷歌云是可用于存儲(chǔ)對(duì)象的系統(tǒng),它為紐約時(shí)報(bào)等客戶提供自動(dòng)生命周期管理,不同區(qū)域的存儲(chǔ)以及易于使用的管理界面和API。
AI工作原理:Google Cloud中的技術(shù)可以處理和識(shí)別照片中的大量信息
僅僅存儲(chǔ)高分辨率圖像不足以創(chuàng)建照片管理者可以輕松使用的系統(tǒng)。
有效的資產(chǎn)管理系統(tǒng)必須允許用戶輕松瀏覽和搜索照片。《紐約時(shí)報(bào)》建立了一個(gè)存儲(chǔ)和處理照片的處理系統(tǒng),并將使用Google Cloud中的技術(shù)處理和識(shí)別圖像中可以找到的文本、手寫內(nèi)容和其他細(xì)節(jié)。
以下它的工作原理:
將圖像提取到云存儲(chǔ)后, 《紐約時(shí)報(bào)》使用Cloud Pub / Sub啟動(dòng)處理傳輸途徑以完成多項(xiàng)任務(wù)。 通過在Google Kubernetes Engine (GKE)上運(yùn)行的服務(wù)調(diào)整圖像大小,圖像的元數(shù)據(jù)存儲(chǔ)在運(yùn)行在谷歌完全托管數(shù)據(jù)庫產(chǎn)品Cloud SQL里的PostgreSQL數(shù)據(jù)庫中。
Cloud Pub / Sub幫助《紐約時(shí)報(bào)》創(chuàng)建其處理流程,而無需構(gòu)建復(fù)雜的API或業(yè)務(wù)流程系統(tǒng)。它是一個(gè)完全托管的解決方案,因此沒有時(shí)間維護(hù)底層基礎(chǔ)架構(gòu)。
谷歌云官方發(fā)布與《紐約時(shí)報(bào)》合作將照片數(shù)字化的宣傳片,講述了AI工作原理
為了調(diào)整圖像大小和修改圖像元數(shù)據(jù), 《紐約時(shí)報(bào)》使用開源命令行程序“ImageMagick ”和“ ExifTool ”。 他們將ImageMagick和exiftool添加到Docker鏡像中,以便以最小的管理工作量、一種水平可擴(kuò)展的方式在GKE上運(yùn)行它們。 添加更多容量來處理更多圖像并不重要,當(dāng)不需要服務(wù)時(shí),《紐約時(shí)報(bào)》可以停止或啟動(dòng)其Kubernetes集群。 這些圖片還存儲(chǔ)在云存儲(chǔ)的多區(qū)域位置創(chuàng)建的存儲(chǔ)桶中,以便在多個(gè)位置提供可用性。
存檔的最后一部分是在圖像及其元數(shù)據(jù)在“紐約時(shí)報(bào)”管理系統(tǒng)中移動(dòng)時(shí)跟蹤它們。Cloud SQL是一個(gè)很好的選擇。對(duì)于開發(fā)人員,Cloud SQL提供了一個(gè)標(biāo)準(zhǔn)的PostgreSQL實(shí)例:作為完全托管的服務(wù),無需安裝新版本、應(yīng)用安全補(bǔ)丁或設(shè)置復(fù)雜配置。 Cloud SQL為開發(fā)者們提供了一種使用標(biāo)準(zhǔn)SQL解決方案的簡(jiǎn)單方法。
不只是存儲(chǔ)圖像,機(jī)器學(xué)習(xí)可以獲取照片上的很多信息
存儲(chǔ)圖像只是這個(gè)故事的一部分。
為了使像《紐約時(shí)報(bào)》資料檔案室的圖片更加便于使用,利用額外的GCP功能是有益的。 在《紐約時(shí)報(bào)》的案例中,掃描照片的更大挑戰(zhàn)是添加有關(guān)老照片的內(nèi)容數(shù)據(jù)。 Cloud Vision API可以幫助填補(bǔ)這一空白。
讓我們來看看《紐約時(shí)報(bào)》舊賓州車站的這張照片。 來看下這張照片的正面和背面。
這是一張漂亮的黑白照片,但沒有額外的背景,從照片的正面看不清楚它在講述什么。 照片背面包含大量有用信息,Cloud Vision API可以幫助我們處理、存儲(chǔ)和閱讀它的信息。 當(dāng)谷歌將圖像的背面提交給API(無需額外處理)時(shí),我們可以看到Cloud Vision API檢測(cè)到以下文本(譯者注:文本邏輯并非完全清晰,主要是照片上的碎片化內(nèi)容):
1985年11月27日
1992年7月28日
時(shí)鐘懸掛在1942年賓夕法尼亞車站主要大廳的入口上方,右側(cè)是車站外部,然后于1963年拆除。
在紐約出版
存儲(chǔ)于1972年4月30日
《紐約時(shí)報(bào)》那時(shí)賦予這張照片的意義:1942年擁擠的賓州車站,這個(gè)時(shí)代“只有勇敢的飛行 - 到華盛頓,邁阿密和各種各樣的車站?!?/p>
背面信息:
賓州車站的好日子/懷舊之旅
(OCT 3194
RAPR 20072
攝影:紐時(shí)時(shí)報(bào)工作人員,1942年,紐約人大學(xué)城的舊賓夕法尼亞電視臺(tái)。該人士在現(xiàn)在的Postellgesikha將軍那里建立了一個(gè)發(fā)電臺(tái)
Pub NYT Sun 5/2/93 Metro
THURSDAY EARLY RUN o cos x ET RESORT
EB 11 1988
RECEIVED DEC 25 1942 + ART DEPT. FILES
The New York Times Business at rail terminals is reflected in the hotels;
OUTWARD BOUND FOR THE CHRISTMAS HOLIDAYS The scene in Pennsylvania Station yesterday afternoor afternoothe New York Times (Greenhaus)
這是我們的Cloud Vision API的實(shí)際輸出,無需對(duì)圖像進(jìn)行額外的預(yù)處理。 當(dāng)然,數(shù)字文本轉(zhuǎn)錄并不完美,但它比處理數(shù)百萬張圖像的替代品更快,更具節(jié)省成本。
谷歌云:將過去帶向未來,使所有信息都變得可用
這只是個(gè)開始。 類似于《紐約時(shí)報(bào)》的公司可以使用Vision API來識(shí)別對(duì)象、地點(diǎn)和圖像。 例如,如果我們通過帶有徽標(biāo)檢測(cè)功能的Cloud Vision API傳遞上面的黑白照片,我們就可以看到賓州車站被識(shí)別出來了。
谷歌云的自然語言API可用于向已識(shí)別的文本添加其他語義信息。 例如,如果我們通過API,通過文本“紐約時(shí)報(bào)的方式 - 1942年擁擠的賓州車站,一個(gè)只有勇敢飛行的時(shí)代 - 華盛頓,邁阿密和各種各樣的車站?!闭_地將“賓州車站”,“華盛頓”和“邁阿密”識(shí)別為位置,并將整個(gè)句子分類為“旅行”類別和子類別“公共汽車和鐵路”。
谷歌云在博客中聲稱,幫助《紐約時(shí)報(bào)》改造其照片檔案完全符合谷歌的使命,即組織世界范圍內(nèi)的信息并使其普遍可用和有用。
-
谷歌
+關(guān)注
關(guān)注
27文章
6128瀏覽量
104952 -
AI
+關(guān)注
關(guān)注
87文章
29822瀏覽量
268111 -
數(shù)字化
+關(guān)注
關(guān)注
8文章
8546瀏覽量
61584
原文標(biāo)題:留住老照片,谷歌用AI幫紐約時(shí)報(bào)講了500萬個(gè)故事
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論