11月22日-23日,深圳市福田区人民政府、深圳市福田区科技创新局和粤港澳大湾区数字经济研究院(International Digital Economy Academy,简称“IDEA”)联合举办IDEA大会。IDEA创院理事长、美国国家工程院外籍院士、英国皇家工程院外籍院士、清华大学双聘教授沈向洋在会上发布了由清华大学统计学研究中心俞声副教授团队与粤港澳大湾区数字经济研究院联合开发的大型开放医学知识图谱(Biomedical Informatics Ontology System,简称“BIOS”)。
沈向洋在BIOS发布会现场讲解
医学知识图谱是一种由生物医学概念名称、概念分类、概念间关系以及相应的ID系统构成的特殊数据库,用于支持医学自然语言处理、人工智能建模以及行业数据交换,是医学大数据与人工智能领域最重要的基础设施之一,对于行业发展具有战略影响。美国国立卫生院国家医学图书馆于1986年开发并发展至今的一体化医学语言系统(Unified Medical Language System,简称“UMLS”)是目前最权威的英文医学知识图谱,为英语国家医学大数据技术与产业的发展作出了卓越贡献。而长久以来,中文领域缺少大型开放医学知识图谱,是我国医疗大数据与人工智能产业发展的主要制约因素之一。
BIOS知识图谱包含的实体和关系数量的描述
基于BIOS知识图谱的医学命名实体识别演示
为解决中文领域开放医学知识图谱的缺失,并在国际范围内进一步提升医学知识图谱的建设水平,俞声带领团队进行了长达五年的技术攻关,先后开发了基于图分割与深度学习的中文电子病历无监督多粒度分词及术语提取、知识决定的医学术语向量化及正则化、高通量医学关系提取、生物医学自动翻译等技术,为数据驱动的大规模图谱自动构建建立了基础,并于2020年11月与IDEA研究院沈向洋院士团队达成合作。在领先算法、强大算力和超大规模语料数据的支持下,仅用短短一年时间,双方团队便从原始底层医学术语开始,建立了全新的具有完整自主知识产权的中英文双语医学知识图谱BIOS,其规模整体接近现有权威知识图谱UMLS,并在内容质量上形成多点超越。
BIOS目前已在线发布(http://bios.idea.edu.cn)。同时,秉承全面提升发展中国医疗大数据与人工智能行业的开放理念,BIOS拟于近期以CCBY-NC-ND协议开放完整数据下载。
未来,清华大学统计学研究中心将与IDEA研究院以及更多国内顶尖医院合作,不断扩充BIOS的内容并完善其质量。这不仅将使我国医疗大数据与人工智能产业的基础得到全面提升,也将辐射国际,带动全球行业共同发展。
① 凡本站注明“稿件来源:中国教育在线”的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本站协议授权的媒体、网站,在下载使用时必须注明“稿件来源:中国教育在线”,违者本站将依法追究责任。
② 本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。