直通屏山|福建|时评|大学城|台海|娱乐|体育|国内|国际|专题|网事|福州|厦门|莆田|泉州|漳州|龙岩|宁德|南平|三明
您所在的位置:东南网 > 厦门频道首页 > 城事 > 正文

厦大团队尝试用AI破译古老文字

2024-12-11 09:09:25  作者: 佘峥  来源: 厦门日报   责任编辑: 段马水   我来说两句
分享到:

厦大团队尝试用AI破译古老文字

穿越三千年 AI能读懂它吗?“唤醒”甲骨文

喂养AI

利用破译出的1000多个甲骨文,人工拆解为IDS(表达结构的部首偏旁序列),同时找出与现代文字IDS的对应关系

训练AI

设计一系列与实际考释过程密切相关的任务和评估方法,如跨字体图像映射、跨字体IDS解码和甲骨文现代字对译关系等,以有效训练多模态大模型

运用AI

未来设想是上传甲骨文图像,让AI告诉你这个图像可能对应的现代汉字候选,以及每个候选字的概率

厦门日报讯(佘峥 通讯员 戴佩琪破解一字奖十万元,甲骨文还是难以破解。那么,可不可以有一个系统,上传甲骨文图像,系统告诉你这可能是什么字?厦门大学信息学院自然语言处理实验室史晓东教授团队就正在做这件事——尝试用AI(人工智能)破译甲骨文。

近日,史晓东团队申报的“基于甲骨文多模态大模型的多元信息甲骨文辅助考释模型”,入选“探元计划2024”“创新探索型项目”TOP10榜单。

“探元计划2024”由国家文物局科技教育司指导,中国文物信息咨询中心(国家文物局数据中心)、腾讯SSV数字文化实验室、腾讯研究院、社会价值投资联盟(深圳)与中国文物报、紫荆杂志社联合发起。

甲骨文破译,为何那么难?

“一字十万”的甲骨文

出土16万片,包含单字四五千个,考释出的不到三分之一

甲骨文,主要流行于商周时期,距今3000多年,又称“契文”“甲骨卜辞”“殷墟文字”或“龟甲兽骨文字”,是迄今为止中国发现的年代最早的成熟文字系统,是汉字的源头和中华优秀传统文化的根脉。

不过,在西方屡破“死文字”之时,不是“死文字”的中国甲骨文破译却举步维艰。百年殷墟考古中,一共出土16万片甲骨文,其中包含的单字大约有四五千个,但无数顶尖语言学家的百年探索,考释出、得到公认的约1160个,占比不到三分之一。

2016年,为了吸引更多的天才破解甲骨文,中国文字博物馆发布了一则“甲骨文释读优秀成果奖励计划”公告:破译出一个未解甲骨文字,奖励10万元人民币。但迄今为止,只有复旦大学蒋玉斌教授破解了一个“屯”字,拿到了3亿元奖金池里的10万元。

“一字多义”的甲骨文

不仅与现代字的字形存在一对多的关系,一个字也往往承担多种意思

史晓东说,尽管甲骨文的字形和现代汉字之间有传承关系,但是字形和语义的对应并不简单,譬如‌“万”字的甲骨文本意为蝎子,它的写法呈蝎子形,‌上部是两个“钳子”,中间是蝎子的身子,下部是蝎尾,后引申为极多、极甚的意思,与繁体的“萬”还能看出字形的相似性,但与经过简化的“万”就相差甚大。‌

其次,很多甲骨文的字形与现代字的字形都存在一对多的关系,例如,甲骨文中的“手”,可对应现代汉字中的“手”“爫”“又”“右”“寸”等等,增加了破解甲骨文的难度。

此外,甲骨文中也普遍存在一字多义的现象,这使得解读变得更为棘手——在文字数量有限的情况下,一个字往往要承担多种意思,而甲骨文有的字出现数量很少,这些都使得猜测其精确意义并不简单。

1  2  


相关阅读:

    打印 | 收藏 | 发给好友 【字号
更多>>今日热词
更多>>福建今日重点
更多>>国际国内热点
  • 新闻图片
更多>>娱 乐
  • 点击排行
  • 三天
  • 一周
  • 一月
关于我们 | 广告服务 | 网站地图 | 网站公告 |
国新办发函[2001]232号 闽ICP备案号(闽ICP备05022042号) 互联网新闻信息服务许可证 编号:35120170001 网络文化经营许可证 闽网文〔2019〕3630-217号
信息网络传播视听节目许可(互联网视听节目服务/移动互联网视听节目服务)证号:1310572 广播电视节目制作经营许可证(闽)字第085号
网络出版服务许可证 (署)网出证(闽)字第018号 增值电信业务经营许可证 闽B2-20100029 互联网药品信息服务(闽)-经营性-2015-0001
福建日报报业集团拥有东南网采编人员所创作作品之版权,未经报业集团书面授权,不得转载、摘编或以其他方式使用和传播
职业道德监督、违法和不良信息举报电话:0591-87095403(工作日9:00-12:00、15:00-18:00) 举报邮箱:jubao@fjsen.com 福建省新闻道德委举报电话:0591-87275327