厦大团队尝试用AI破译古老文字
2024-12-11 09:09:25 来源: 厦门日报 责任编辑: 段马水 我来说两句 |
分享到:
|
古文字+AI,为何值得期待? 一本异体字字典 研究者用几个月时间写软件,AI用半天时间就将字典编写完成 甲骨文的破译之路充满了曲折与挑战,各种难题交织在一起,让研究者们屡屡碰壁。因此,当研究人工智能的史晓东团队尝试破译甲骨文的消息传出后,很多人很吃惊。 事实上,史晓东团队已经在古籍和人工智能跨领域方面探索多年。大约十年前,史晓东承接国家语委的一个繁体字和简体字相互转换的项目,这也把他引入古文字的领域。 因为研究繁体字和简体字转换,史晓东收集了很多古文字资料,之后,他采用大规模古籍语料+人工智能办法,编写了一本异体字字典,收字接近9万字,应该是目前大陆最详尽的异体字字典。 在此之前,台湾也有一本异体字字典,100多位语言学家花费十几年编写,字数约10万个。 史晓东说,人工智能用了半天时间就编写完成这本异体字字典,当然,在这之前,他花费了几个月时间写软件。他说,AI要做的事是,从数据中抽取所有信息,以AI算法自动进行异体字识别。 比如,字典中列举了“丘”的几种异体字写法,有的已经消失,人们都没有见过,如何确定这个字就是“丘”?史晓东说,那是AI通过古籍文献找到相关信息,从上下文判断,它就是“丘壑”的“丘”。 一个甲骨文数据库 他们研制出了甲骨文手写输入法,积累了大规模的甲骨文相关语料 从繁简转换和异体字字典,人工智能专家史晓东一头扎进了古文字+人工智能的跨界研究。七年前,他带领的团队开始涉足甲骨文考释。不到一年,他们就研制出了甲骨文手写输入法。 与此同时,史晓东团队在研究中积累了大规模的甲骨文相关语料,即有关甲骨文的数据库。 过去史晓东采用的是专用模型,他认为,随着多模态大模型的出现,后者有更强的语义理解和表达能力,或许甲骨文破译将迎来一个春天。 史晓东说,了解一个汉字,要从“形、音、义、用”四个维度进行,如果一个甲骨文的形、音、义、用全都清楚了,和其他古文字之间的演变脉络也弄明白了,并且在该文字的各种上下文中都可解释得通,就可以说它已被完全考释出来了,但这需要数据的支持。 一个“喂养”计划 尽可能收集更多相关的图像数据和文本数据,“喂”给人工智能大模型,让其找出破译甲骨文的规律 史晓东说,AI要做的工作,就是在已搜罗尽可能多的数据的基础上,计算文字之间的各种概率关系,为文字学专家考释创造条件。 据厦大官方介绍,史晓东团队将设计一系列与实际考释过程密切相关的任务和评估方法,如跨字体图像映射、跨字体IDS(表达结构的部首偏旁序列)解码和甲骨文现代字对译关系等,以有效训练多模态大模型。利用其强大的跨模态理解能力,辅助甲骨文考释。 与此同时,在大模型提供的语义嵌入基础上,史晓东团队还将设计融合形、音、义、用多元信息的端到端甲骨文综合考释模型,综合利用字形结构、语义关联、同音通假和用法聚类分析,开发一种更加轻量的考释系统,以适应资源有限的实际考释场景。 史晓东进一步解释说,现在团队已经做的一个工作是利用破译出的1000多个甲骨文,人工将甲骨文拆解为IDS,同时找出与现代文字IDS的对应关系,将这些数据“喂”给AI,因为AI要学习。 用大白话说,团队尽可能收集更多相关的图像数据和文本数据,“喂”给人工智能大模型,让其找出破译甲骨文的规律。 史晓东说,未来设想是上传甲骨文图像,AI告诉你这个甲骨文可能对应的现代汉字候选,以及每个候选字的概率。 这需要多长时间?史晓东没有给出明确答案,他说,目前已构建了相关数据集,但是多模态大模型尚未开始训练,正处于准备过程中。 他说,甲骨文破译是一项非常困难的任务,不可能一蹴而就,但是,AI的发展的确带来了新的可能,一定能助力这项具有重大意义的研究。 |
相关阅读:
打印 | 收藏 | 发给好友 【字号 大 中 小】 |