趣文网 > 作文大全

AI将揭开梵蒂冈机密档案馆之谜

2020-12-06 07:50:01
相关推荐

梵蒂冈机密档案馆(Vatican Secret Archives)被列为世界十大禁地之一,它是罗马教皇的档案保管机构,也是欧洲教会中收藏档案最丰富,最古老的档案馆。

其珍藏的许多文件从未转录,即便教堂档案员也对其中隐藏的秘密一无所知。然而,机器视觉系统将会揭开中世纪文本的神秘面纱。

梵蒂冈机密档案馆颇为传奇。据称,该馆保存的往届教皇的私人信件和其他文件,不少内容可追溯至公元8世纪, 排起来可延绵85公里长。

馆内警戒森严,自1881年起,学者们接触到的文件极为有限,但其中的信息量却蔚为可观。

举个例子,一张长达60米的羊皮纸上记满了对法国圣殿骑士的审判供词,这场审判自1307年伊始,持续数年。这些信件中,有米开朗基罗的手稿,有国王亨利八世请求废除婚姻的申请书,还有苏格兰女王玛丽被斩首前的说情信。

此外,档案中还包含距今较短的通信文件,比如美国南北战争时期,亚伯拉罕·林肯和杰斐逊·戴维斯分别来信,试图说服教皇庇护九世支持各自阵营——北方联邦和南部邦联。还有二战期间,教皇与纳粹政权的往来信件都从未出版。事实上,1939年后的所有档案完全对外保密。

虽然这些文件禁止出版,但档案馆设有影像备份及档案保护工作室。与其他许多历史档案馆一样,他们已开始影像备份文件,供学者深入研究。

但档案存量过于庞大,光靠人工抄录备份,根本无法完成。那么,机器视觉技术是否能够起作用?

幸运的是意大利罗马第三大学的Donatella Firmani及其同事启动了“In Codice Ratio(‘编码系统’的拉丁文)”项目,旨在开发能够自动转录梵蒂冈机密文件(名为Vatican Registers)的系统。

该语料库收录了13世纪的18,000页官方信件,覆盖内容极广,从天主教到国王、王后,从政治到宗教,横贯欧洲各领域。Firmani及其团队表示:“这些文件此前从未转录,因此,历史意义可谓空前巨大。”

中世纪文本的特殊性给机器视觉技术带来了诸多挑战。由于手稿字迹风格各异,存在连笔(将相邻字母连成一笔书写)和特殊缩略语,因此传统的视觉识别算法无法胜任转录工作。

为解决这一难题,学者们研发了识别整个单词(不仅仅是字母)的计算机视觉系统。然而效果仍不理想。大多数单词在长篇文件中只出现过几次,所以很难创建满足机器学习需求的数据集。

如今,Firmani及其团队发明了训练文字视觉识别系统的新方法:将单词拆分为笔划,再像拼图一样将笔划组合起来。他们表示:“我们想开发一个能够转录尽可能多手稿的成熟系统。”

系统将单词拆分为笔划后,再试图将笔划组合成字母,分析所有可能的排列组合方式,最终排除所有不符合语法的组合。

例如,通常可将笔划组合为“iii”和“m”,因语法错误排除前者。同样的笔划组合还有“in”或“ni”,系统需进一步研究整个单词及其所处语境,再作出选择。

Firmani团队首先创建了一个数据集,训练基于神经网络的计算机视觉系统。

该数据集需要进行标记处理。因此,视觉系统可学习笔划的排列方式与可能字母的映射。

他们将数据标记外包出去,将拼图似的单词拆分为模式识别问题(如拼图式验证码)呈现给120所高校学生,让他们数小时内共同人工标注包含15,000个单词的数据集。

标注结果十分理想。Firmani团队称:“我们能够准确转录数据集中65%的字母图像。”

显然,这一成果对转录中世纪文章和历史学家的研究而言意义非凡。但还有更多难题需要攻克。例如,小写字母的转录问题仍然存在,因此下一步的关键是扩大词汇量,将大写字母及中世纪文本中的缩略语纳入数据集。

梵蒂冈机密档案馆将如何利用这一科技尚不得而知,梵蒂冈文件(Vatican Registers)被转录后是否会公之于众也无人知晓。

但即使文件未能出版,Firmani团队开发的前沿技术也能帮助学者们进行相关领域的深入研究。例如,可利用单词、词组频率及其随时间的变化等数据展开历史文件研究。可作为分析历史文化的重要切入点。

阅读剩余内容
网友评论
相关内容
延伸阅读
小编推荐

大家都在看

看望老师作文 友谊给我带来了快乐作文 苏州游记作文600字 环保小卫士在行动作文500字 小猫捉老鼠作文 学会生存作文450字 大城小事作文 太阳花的作文400字 关于大自然风景的作文 歌唱比赛作文300字 勤劳的作文300字 难忘的小学同学作文 桂林的风景作文 小学三年级作文题目有哪些 母爱的一篇作文 我听见的声音作文 我的亲戚作文 放风筝500字作文 暑假的第一天作文200字 跑步作文100字 茶叶作文 动物小白兔作文 英语作文我的家规 一勤天下无难事作文 碰碰香的作文 介绍手机的英语作文 一场大雨作文200字 陈晓小作文 寒假开学第一天作文 校园秋雨作文