【新智元導讀】2000 年前碳化的古卷軸,成功被 AI 破譯了近 5% 的內容。三人天才團隊拿下 70 萬美元大獎,谷歌華人工程師一人拿下並列亞軍。

2000 年前碳化的古卷軸,如今成功被 AI 破譯!背後三人團隊還拿下 70 萬美元大獎!

AI 在考古領域的重大進步,甚至登上了今天 Nature 的頭版。

要說這件事的起源,還得追溯到公元 79 年一次火山爆發,直接將一座珍藏古老的紙莎草卷軸 ——Herculaneum Papyri 的圖書館埋葬。

而這些卷軸,直到 18 世紀才被挖出,卻早已成爲炭焦的木塊。由於太過脆弱,根本無法輕易展開。

今天,正式獲獎的作品,展示了超過 15 欄的數百個單詞,相當於整個卷軸的 5% 的內容。

值得一提的是,三人拔得頭籌的團隊中,有一位年僅 21 歲計算機天才少年 Luke Farritor,成功用 AI 從圖像裂縫中破譯內容。

當時,他還在 SpaceX 暑期實習,偶然發現這場挑戰賽的英雄貼。

另外,這場 AI 破譯卷軸的大賽還有 3 個團隊獲得亞軍,包括一位谷歌華人工程師單獨獲 5 萬美元大獎。

從破譯文字轉錄後可以讀出,古代哲學家對「如何享受生活」「快樂」的探討與爭辯,還揭示了人們對音樂和冒險的沉思。

這一壯舉爲 AI 完整破譯其餘古卷鋪平了道路,研究人員表示,這可能會對我們對古代世界的理解產生革命性的影響。

谷歌 DeepMind 的首席執行官:我迫不及待地想閱讀這些被認爲已經失傳的古籍!

2000 年後,我們終於可以閱讀卷軸了!

下圖 3D 還原了,岩漿吞噬圖書館的情境。

這些卷軸在公元 79 年維蘇威火山的爆發中被碳化

直到 18 世紀,這些卷軸被挖掘出來。

目前,有 800 多卷被保存在意大利那不勒斯的一個圖書館中。

然而,這些碳化的卷軸無法在不損害的情況下展開。

一份卷軸不同的拍攝視角,看得出已經完全碳化,像一個木頭塊。

當任何人嘗試展開卷軸,結果就是支離破碎。

那麼,問題來了,我們該如何閱讀這些卷軸?

2023 年 3 月 15 日,Nat Friedman、Daniel Gross 和 Brent Seales 發起了 Vesuvius Challenge,就是爲了解決這一世紀難題。

十個月前,我們發起了 Vesuvius Challenge,旨在解決赫庫蘭尼姆莎草紙書卷這一古老問題。這是一批在公元 79 年維蘇威火山爆發時被高溫烤焦的莎草紙卷軸圖書館。

今天,我們欣喜若狂地宣佈,我們瘋狂的項目成功了。2000 年後,我們終於可以閱讀卷軸了!

這場挑戰賽,要求參賽者在卷軸的 4 平方釐米區域內,至少找到 10 個字母。

最誘人的是,挑戰賽爲成功破譯者提供超 100 萬美元的獎金。

來自法國科學院的卷軸在牛津附近的 Diamond Light Source 粒子加速器進行了成像,然後公佈了這些卷軸的高分辨率 CT 掃描圖像。

以藝術化的方式構建 3D 卷軸

古卷是如何展開的?

大體說,虛擬展開卷軸分三個步驟進行:

  • 掃描:利用 X 射線斷層掃描技術對卷軸或碎片進行 3D 掃描。

  • 分割:在 3D 掃描圖像中追蹤捲曲的紙莎草層,隨後將其展開或鋪平。

  • 墨跡檢測:藉助機器學習模型,識別鋪平後段落中的墨跡區域。

這些卷軸是在位於英格蘭牛津附近的 Diamond Light Source(一種粒子加速器)掃描的。

該機器可以產生的高強度平行 X 射線束,使得成像快速、準確且分辨率高。通過斷層重建算法,X 射線圖片被轉化爲 3D 體素體積,形成一系列的切片圖像。

接下來,需要在 3D 空間中識別出單獨的紙莎草紙張,這一步驟主要依賴於一個名爲 Volume Cartographer 的工具。

Seth Parker 在 Diamond Light Source 粒子加速器掃描卷軸

如下動畫向我們展示了在 Volume Cartographer 中如何進行手動和自動分割操作。

最終步驟是,墨跡檢測。

對於完整卷軸的大規模掃描,墨跡檢測一直是個挑戰,直到最近挑戰賽發起團隊在兩個方向上取得了突破:

  • 裂紋模式

去年夏天,Casey Handmer 在檢查平鋪後的表面體積時,發現了一種奇特的裂紋模式,這些裂紋似乎組成了文字。

Casey 因這一發現贏得了首個墨跡獎,並與社區共享了他的發現,隨後引發了一系列的研究活動。

  • Kaggle 競賽

與此同時,數百支團隊在 Kaggle 競賽中努力構建出最佳的機器學習模型,目標是檢測那些在幾百年前卷軸物理解捲過程中脫落的碎片上的墨跡。

與之前不同的是,他們利用了這些碎片照片上的真實數據進行訓練,而不是標記尚未發現的裂紋。

雖然這些努力產生了一些優秀的模型,但它們在分割團隊處理的平鋪圖像上似乎並不奏效。

直到谷歌華人工程師 Youssef Nader 應用了領域適應技術,這一技術最終幫他贏得了第一字母獎的亞軍。

在得到訓練數據後,全球衆多參與者通過計算機視覺、機器學習不懈努力,不到一年時間,立刻攻克破解古卷閱讀這一難題。

10 個月的時間,他們取得了成功。終於,在經過 275 年漫長的時間中,我們有能力閱讀這些卷軸:

下圖是 PHerc.Paris. 4(法國科學院)的部分文本,2000 年來首次被人閱讀。大約 95% 的卷軸內容仍待揭曉。

卷軸字體被揭曉那刻,就會發現,被兩千年的泥土和灰燼封存的祖先思維再次展現在世人面前!

那麼,都有誰拿下了這次的大獎?

三人團隊,斬獲 70 萬美元大獎

在衆多參賽作品中,有一份作品非常突出。評審結果公佈,三人團隊獲得了 Vesuvius Challenge 70 萬美元大獎,他們分別是 Youssef Nader、Luke Farritor 和 Julian Schilliger。

這三位成員的名頭可不小,而且是這場挑戰賽中最重要的貢獻者。

值得一提是,21 歲的 Luke Farritor 是一名計算機學生,曾在 SpaceX 實習,是史上第一位從赫庫蘭尼姆卷軸讀出整個單詞 ΠΟΡΦΥΡΑϹ(意爲紫色)的人,並贏得了首字母獎的第一名。

就連他的個人主頁,字體都有種年代久遠的感覺。

柏林自由大學的博士生 Youssef Nader 在去年 10 月就讀出了幾列文本,並贏得了第二名的首字母獎。他的成果特別清晰易讀,自然成爲了團隊的 lead。

還有 Julian Schilliger,是來自蘇黎世聯邦理工學院(ETH Zürich)機器人學學生,因其在 Volume Cartographer 上的卓越工作而贏得了三個分割工具獎,讓我們能夠看到如今的紙莎草區域 3D 映射。

爲了拿下最終的大獎,三人組建了一個強大的團隊,並向評審提交了一份,如今被評爲最易讀的作品。

提交的文件中,包含了三種不同的模型架構的結果,互相印證。其中基於 TimeSformer 的模型輸出了最佳圖像。

爲了防止過擬合和數據幻讀,他們採取了多種措施,包括採用多架構結果、研究不同的輸入 / 輸出窗口大小、應用標籤平滑和多樣化的驗證方法。

這個墨水檢測代碼已經在 GitHub 上開源。

除了卓越的墨跡檢測能力,這份作品還展示了迄今爲止,我們見過的最強大的自動分割技術。

便是由 Julian 開發的 ThaumatoAnakalyptor(大致意爲「奇蹟揭示者」)能夠從多個卷軸中生成大量紙莎草片段。

對已知區域的重新分割驗證了之前的墨跡發現,全新的分割則揭示瞭如卷軸最外層包裹等其他地方的文字。

來自自動分段的輸出。頂行與提交圖像重疊,底行有新的分段。

谷歌華人工程師拿下亞軍

此外,除了第一名拿下大獎,Vesuvius Challenge 還評出了三個並列的亞軍,將各自獲得 50,000 美元獎金。

這些團隊在墨跡標記和採樣的細節處理上各有創新。

谷歌華人工程師 Shao-Qian Mah

技術細節是對 UNETR++ 模型進行了定製調整。這是一種基於變壓器的 UNET 衍生工具,在醫學成像中用作 3D 特徵提取器,對深度層進行最大池化處理,然後使用基於 Segformer B-5 的最終特徵提取器。

另外,還有 2 個團隊共同獲得亞軍。

團隊二:Elian Rafael Dal Prá, Sean Johnson, Leonardo Scabini, Raí Fernando Dal Prá, João Vitor Brentigani Torezan, Daniel Baldin Franceschini, Bruno Pereira Kellm, Marcelo Soccol Gris, 和 Odemir Martinez Bruno。

團隊三:Louis Schlessinger 和 Arefeh Sherafati。

5% 的卷軸,寫了什麼?

到目前爲止,研究團隊已經成功展開,並閱讀了第一卷卷軸的約 5%,並對露出的文字進行了初步轉錄。

初步的閱讀提供了這篇哲學文本的一瞥,根據學者的解讀:

這篇文本主要探討的是快樂,正確地理解快樂,在伊壁鳩魯哲學中是最高的善。在卷軸的兩段連續的文字中,作者探討了食物等商品的可用性是否,以及如何影響它們提供的愉悅。

那些稀缺的東西是否比大量存在的東西帶來更多的快樂?作者認爲不是:「就像食物一樣,我們不會馬上相信稀缺的東西絕對比豐富的東西更令人愉快。但是,我們是不是更容易放棄那些大量存在的東西呢?這樣的問題經常會被頻繁地提出討論。

由於這是卷軸的結尾,這種表述可能意味着在同一系列作品的後續書籍中還有更多內容。在文本的開頭,提到了一位名叫 Xenophantos 的人,可能是同一位人物 —— 假設是一位音樂家 —— 也在 Philodemus 的《關於音樂》一作中被提及。

Philodemus,作爲伊壁鳩魯學派的一員,被認爲是別墅中的常駐哲學家,在那裏發現卷軸的小圖書館裏工作。

初步、粗略的轉錄草稿如下:

在卷軸的後面:

在文本的結尾部分,作者對他的對手進行了尖銳的批評,他們「在定義快樂的問題上,無論是從總體上還是具體上,都無話可說」。

最後,卷軸以這樣的話結束:

…… 我們不是不對某些事情提出質疑,而是對其他事情有所理解 / 記憶。並且,當這些事情經常顯露出來那樣,我們明白說出真相是很重要的!

學者們或許會將其稱之爲一篇哲學論文。

但對我們而言,是如此地熟悉,古軸的第一篇竟是講述「如何享受生活」的兩千年前的文章。

在結尾段落裏,Philodemus 是否在批評斯多葛學派,聲稱斯多葛主義是一個不完整的哲學。因爲它「對於快樂一無所知」?

他似乎在討論的問題 —— 生活的快樂以及什麼讓生活變得有價值 —— 仍然是我們今天思考的話題。

圖片識別準確度如何?

人人皆知,機器學習模型通常會產生「幻覺」,即輸出與其訓練數據相似、但實際上是虛構的文本或圖片。

同樣,參賽者可能通過自己編造圖像來作弊,例如將圖像嵌入到模型權重中。

那麼,如何確保這件事不會發生?這裏有幾種驗證方法:

  •  技術復現

Vesuvius Challenge 技術審查團隊親手復現了獲獎作品,確保完全理解了代碼的每個細節,並獨立運行代碼時,得到了與原作品相似的圖像。

  • 多次提交相同區域的圖片

你可能注意到,所有提交的圖片都展示了卷軸的同一區域。Vesuvius Challenge 向所有參賽者提供了分割團隊用 CT 掃描創建的 3D 映射的紙莎草片段。

  • 小範圍的輸入 / 輸出

墨跡檢測模型並不是基於希臘字母、光學字符識別(OCR)或語言模型。它們是獨立地識別 CT 掃描中的微小墨點,這些墨點聚集起來後才形成了文字。因此,圖片中顯示的文本並非機器學習模型虛構出來的,而是直接基於 CT 掃描中的實際數據。

▲ 模型採用了較小的數據處理窗口:在一些情況下,它的輸出結果甚至僅限於兩種狀態:「有墨跡」和「無墨跡」,這極大地降低了模型錯誤地生成類似字母形狀的可能性

下一步是破譯一部完整的作品。

Nat Friedman 宣佈了下一輪 2024 年 Vesuvius Challenge 獎,目標是在年底前閱讀 85% 的卷軸。

與此同時,他表示,僅僅是走到這一步就「感覺像是一個奇蹟,我不敢相信它竟成功了」。

參考資料:

  • https://scrollprize.org/grandprize

  • https://www.nature.com/articles/d41586-024-00346-8

本文來自微信公衆號:新智元 (ID:AI_era)

廣告聲明:文內含有的對外跳轉鏈接(包括不限於超鏈接、二維碼、口令等形式),用於傳遞更多信息,節省甄選時間,結果僅供參考,IT之家所有文章均包含本聲明。

相關文章