奧推網

選單
科技

翻開塵封的歷史:AI幫忙重整歐洲數十億頁檔案

大家好,我們的搞笑豫西八大碗又來了,今天起我們一起來分享歷史知識,也許你可以得到意想不到的收穫哦。

海歸學者發起的公益學術平臺

分享資訊,整合資源

交流學術,偶爾風月

從戰爭到婚禮,歐洲的歷史儲存在整個歐洲大陸數十億份檔案中。儘管許多檔案館試圖公開他們的檔案,但從中尋找資訊仍然是一件非常耗時的事情。簡單的頁面掃描不能提供研究人員需要的的關鍵資訊,比如日期、姓名、地點,必須轉化為相應的可檢索資料才有實際的用途。

谷歌公司曾經運營一個將圖書館藏書數字化的專案,但那僅僅是將這些書籍一頁一頁的拍成照片,閱讀和辨識的工作仍然需要人類來進行。而在歐洲的許多檔案館,累計了數百年來不斷產生的各種檔案,包括人口登記、法庭判決、婚姻證明、銀行記錄等。荷蘭阿姆斯特丹市檔案館儲存了大量檔案,光是公證人的記錄,紙上就有3。5公里,約等於11800頁的A4紙。這些藏品總長約50公里,相當於17萬張A4紙。這些記錄大部分都是手工記錄,研讀並且轉換這些檔案中的資訊可能需要幾十年的工作時間和天量資金。

幾年前,一個名為“READ”的專案開發了名為“Transkribus”的軟體,開始為檔案研究者提供了一種轉錄和搜尋歷史文獻的新方法。這個線上平臺幫助使用者訓練一個人工智慧手寫識別模型來識別並轉換各種歐洲語言手寫的歷史文件。

海因裡希·巴塞曼1871年11月17日的手寫佈道稿。

一個可以用基於人工智慧的軟體數字化的檔案的示例。圖源:海德堡大學圖書館

訓練AI時,使用者手動將50到100頁現有抄本輸入到系統的模型中,該模型使用機器學習來比較它已知的手寫模式和使用者想要轉錄的文件。模型自動逐行轉錄。為了讓它順利工作,新文件的筆跡必須與模型以前看到的相同或相似。使用者可以訓練自己的模型,也可以選擇預先存在的模型。一個可用的模型可以識別出英國哲學家傑里米·邊沁(Jeremy Bentham)的筆跡風格,另一個則是17世紀義大利秘書的筆跡風格。

在Transkribus完成了它的工作之後,使用者通常只需要略微校對來糾正一些小錯誤。雖然這看起來不算很完善,但是它依然可以節省檔案工作者、歷史學家和學者數百甚至數千個小時坐在電腦前手工“翻譯”歷史文獻的時間。

Ricordi出版社的總經理Giulio Ricordi寫於1889年的一封信。

訓練這種專用的AI需要解決兩個問題:一是不同的語言。雖然歐洲的大多數文字都使用羅馬字母,但是不同的語種在不同的歷史時期差別是很大的,用現有的翻譯字型檔未必能夠直接識別;二是不同的寫作者。這些檔案絕大多數都是手工書寫,每個人的筆跡都是不同的,就像現代人一樣,很多人寫字的時候相當“隨意”,AI需要足夠的樣本來識別那些特殊的近乎“塗鴉”的字母。

現代的OCR軟體可以很好地處理舊的列印文件,因為行和字之間的距離有固定的佈局。但是直接對手寫體做同樣的處理則非常困難,要在“草書”中分離出一個字母幾乎是不可能的。該專案最初的機器學習演算法可以識別85%的手寫文字。然而,開發者很快意識到,對於處理數千個手寫檔案頁的檔案來說,這還不夠好。

研究人員使用新方法來提高程式的準確性,重新設計瞭如何識別文字行的流程。他們沒有尋找整個文字塊區域,而是訓練演算法尋找每個單詞所在的共同‘基線’,類似於信紙上那些教孩子們在頁面上均勻書寫的橫線。這種方法使得識別率提高了很多,AI開始學會像人一樣“寫”字從而識別手寫體。

大量的近代文獻有可能重見天日

自2015年推出以來,使用Transkribus的人數大幅增長。這個平臺現在有超過45000名使用者,其中包括來自阿姆斯特丹市檔案館的志願者。經過訓練的Transkribus演算法能夠比預期提前一年完成該專案18世紀文件的轉錄。提取關鍵資訊,索引相關檔案,同樣的50000份掃描檔案,人工轉換可能需要幾個月的時間,但一個完善的AI模型只需要幾個小時就能完成,志願者們只需要校對其中的小錯誤即可。

隨著更多的檔案館和研究機構加入這個專案,資料庫變得越來越大,AI訓練的效率也越來越高,並且通用性也越來越強。歷史學家相信這個專案可以幫助他們更加清晰的瞭解歐洲政治、法律和經濟的演變過程。而一些法律工作者發現這些塵封的記錄有可能幫助他們解決難纏的遺產繼承官司——之前要找到這些檔案幾乎是不可能的。

2020年9月下旬,READ專案及其Transkribus軟體獲得歐盟委員會頒發的地平線影響獎。

喜歡的小朋友一定要多多說說自己的意見,我們一起來討論,分享自己的觀點,說的不對的也要指出來