2022年6月25日,南京师范大学中北学院信息科学与技术系蒋龙杰、常沁宇、谢虎吟、夏朱颖团队参加了第一届古代汉语分词和词性标注国际评测会议。历经几个月的学习与研究,该团队在论文“Construction of Segmentation and Part of Speech Annotation Model in Ancient Chinese”提出的模型,在多个测评环境下取得优异成绩,并获得了EvaHan三等奖。
当下人工智能和数字人文浪潮风靡全球,现代汉语的智能处理与分析已取得很大成果。而古代汉语的自动分析研究相对薄弱,用于现代汉语处理的模型在古籍处理方面的性能往往不佳。难以满足国学、史学、文献学、汉语史的研究和国学、传统文化教育的实际需求。古汉语存在字词、词语、词类的诸多争议,致使古籍资源建设面临巨大困难。充分发挥深度学习模型的潜力,提升古籍处理的性能,是古汉语研究的应有之义。
第一届国际古汉语分词和词性标注评测(EvaHan)是由国际语言资源与评测大会LREC2022的国际古代语言处理研讨会(LT4HALA)主办的,针对先秦汉语(经典的文言文)的分词与词性标注任务,在国际上展开统一的评测。EvaHan的古汉语评测竞赛由南京师范大学文学院计算语言学与数字人文研究组和南京农业大学联合组织,由北京大学数字人文研究中心、中国人工智能学会语言智能专委会、中国中文信息学会青年工作委员会、江苏省人工智能学会自然语言处理专委会、江苏省语言学会协助组织。该评测旨在综合评价目前学界古汉语智能处理的研究成果,促进研究机构间科研成果的交流和共享。本次评测采用的数据由南京师范大学计算语言学团队加工建设,以《左传》 的前十卷标注文本为训练集,后两卷文本为封闭测试集,以《史记》和《资治通鉴》中的部分语料作为开放测试集。通过综合封闭测试集和开放测试集的评分确定最终名次。此次评测共吸引了来自复旦、南大、哈工大、北理、北邮等重点高校和研究单位的参赛队伍。
南京师范大学中北学院信息系蒋龙杰、常沁宇、谢虎吟、夏朱颖团队以词汇增强策略作为基线模型性能提升的方法。通过复旦大学提出的FLAT作为词汇增强的主体,将FLAT原本使用的预训练模型bert-wwm替换为封闭测试的Sikuroberta预训练模型。在基于sikufenci工具包实现对《四库全书》史部数据分词的基础上,利用word2vec模型训练出50维的unigram,bigram和word级词向量替换原始词向量以实现古文词语的词汇增强,从而良好地将外部结构化的知识与深度学习序列标注任务相结合,构建出FLAT+sikuroberta模型,有效提升了模型序列标注性能。最终,该团队提出的模型获得三等奖的好成绩。
此次比赛是南京师范大学中北学院学生组队首次参加与自然语言处理相关的国际性测评会议。在参赛过程中,团队在学术科研的未知领域崭露头角并从多所重点高校团队取得佳绩,激励了南京师范大学中北学院学子敢于挑战困难,敢于探索未知的决心和勇气。希望同学们再接再厉,勇攀高峰!南京师范大学中北学院信息系也将在该领域继续招募更多对AI应用技术该兴趣的同学,培养AI领域高水平应用型人才。
中国社会科学网报道:
http://www.cssn.cn/zx/bwyc/202206/t20220628_5414421.shtml
团队获奖模型论文:
http://www.lrec-conf.org/proceedings/lrec2022/workshops/LT4HALA/pdf/2022.lt4hala2022-1.23.pdf
① 凡本站注明“稿件来源:中国教育在线”的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本站协议授权的媒体、网站,在下载使用时必须注明“稿件来源:中国教育在线”,违者本站将依法追究责任。
② 本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。