中国教育在线浙江站讯 (记者 陈显婷)12月10日,为期一周的2023年的NeurIPS大会在美国新奥尔良Ernest N. Morial会议中心举行。
NeurIPS,全称为Neural Information Processing Systems,即神经信息处理系统大会,聚焦于深度学习、计算机视觉、大规模机器学习、学习理论等方面,是人工智能领域的顶级学术会议之一,在全球包括Nature、Science在内的所有科技文献中排名第9。
今年举行的第37届会议,共收到了12343 篇有效论文投稿,最终26.1%的文章被录用;西湖大学有9篇论文中选,分别来自工学院人工智能方向的李子青实验室、王东林实验室、张岳实验室。
这本是学术界的常态,但其中一篇题为“理解和克服深度模型在分子属性预测任务上的局限性”的论文,却引起了关注。因为共同一作中,出现了一个叫“张乐程”的名字——他是西湖首届本科生,来自α书院。按投稿时间(今年春天)计算,他参与这项科研和写论文的时候还在读大一。
大一学生发AI顶会,怎么做到的?
△ 张乐程
张乐程研究了什么?
当前,AI已经成为辅助新药发现的重要手段,尤其在药物分子的属性预测中(如毒性、溶解度等),起到了至关重要的作用。但在实际研发和生产中却发现,高级的深度神经网络AI模型反而不如传统模型有效,这很反常。这篇论文的研究就专注于此。
历时三个多月,他们搜集数据、写代码、设计了一系列实验,终于找到了症结所在:因为分子具有“活性悬崖”的效应,即分子结构上细微的变化会导致很大的属性差异,而先进的深度模型对这种细微的结构变化不敏感。由此,他们提出一种基于分子数据特征编码的方式来解决该问题。
相对于张乐程的论文而言,更有趣的是他本人。
张乐程成长在一个双教师家庭,数学和物理一直是他所长。初中毕业保送萧山中学后,他提前半年去高中学习,在那里接触到了编程、算法及其他计算机科学方面的知识,并加入了学校的信息学竞赛队伍,不停地刷题、自学、搜看各种专业博客、电子书,沉浸在这个全新的世界里。
进入西湖大学后,张乐程早早瞄准了“人工智能”方向。按照西湖的培养模式,所有本科生前两年不分专业,但学校会给每一位学生配备一名博导作为学术导师,带领他们“入门”。导师和学生有“双向选择”的权利。作为浙江省信息学竞赛一等奖获得者,张乐程毫不犹豫地选择了西湖人工智能分支的“顶配”——讲席教授李子青。
李子青曾任微软亚洲研究院Research Lead,是中国科学院自动化所模式识别国家重点实验室资深研究员。
张乐程毛遂自荐,给李子青写了一封自荐信,最终顺利入驻实验室,在一众博士师兄师姐们的座位当中有了“一席之地”。
后面的故事,看起来似乎水到渠成。有导师,有实验室,就不缺上手的机会。张乐程用了大半年的时间,一边学习机器学习的基础理论,一边参加小项目,提高深度学习的实践能力。有一天,博士生师兄夏俊和他说,要不要一起来做个项目?他欣然加入。
初出茅庐即首战告捷,而且是西湖首届本科生中第一个发表论文的。当记者问到张乐程有什么心得可以分享?他认真思考了一会儿说:“要学会积极地去沟通,而不是等着别人上门来找你。西湖大学是一座‘富矿’,能不能用好,就看你会不会主动去搜寻和获取。”
同样的故事,在夏俊这里却有不一样的解读。
夏俊是李子青实验室博士四年级的学生,也是这篇顶会的共同一作,研究方向是“机器学习方法和其在生物医药领域的应用”。
在一众AI分支的学生中,夏俊也算是个小小的“传奇”。他先后拿到了国家奖学金、西湖大学校长奖章、苏武奖学金等荣誉,还手握多篇被AI不同顶会收录的论文。
回到2022年8月11日,夏俊收到导师李子青转发张乐程写给他的邮件,“李老师说已经决定接收他了,让我教他一些入门的基础知识。”
第二天,两人就在本科生书院见面了。之后的日子,就是老手带新手,这对“搭子”差不多每周要沟通一次,有线上也有线下。夏俊住C11号楼,张乐程住C13号楼,多数时候两人喜欢在C13的α书院见面,有大电子屏,方便他们写写画画。夏俊还会给张乐程带一些专业的书,让他边看边提问,也会给他布置一些小项目练练手。实验室每周一次的组会,只要张乐程没有课,都会来参加,不管能听懂多少。
△ 本科生α书院
当李子青确定启动研究AI智药那个令人费解的问题时,夏俊决定推荐实验室里最年轻的面孔作为自己的合作者,李子青也毫无意外地给予支持。
“从经验来讲,乐程肯定不如实验室里其他人,写代码的规范性要差一点,毕竟训练少,之前有很多东西还是靠自学‘野蛮生长’。”但夏俊发现,张乐程经常会提出一些奇奇怪怪的问题。“他在思考,他有自己的想法。”有些问题甚至让夏俊都感到汗颜,“为什么我没想到呢?”
而提问,正是西湖最看重的“科研潜质”之一。
“这个课题在别人眼里也许就是一个必须完成的作业,但在张乐程眼里不是,他会钻进去,认真琢磨一些事。”李子青相信,这位初生“牛犊”,一定会交出亮眼的成绩。
李子青人生中改过的论文无数。他曾任AI顶刊IEEE T-PAMI等刊物副主编,担任过100余个国际学术会议大会主席、程序主席或程序委员,迄今他自己发表的论文就超过500篇。
在学院里,他对文章以及文字的“挑剔”众所周知。可对大一学生张乐程发AI顶会这件事,他用了“少见”两个字来评价。
“这是一个很优秀的学生”,李子青对张乐程写给他的那封自荐信印象深刻:“我是高中信息竞赛的选手,在高中阶段打了100,000+行的代码,最后获得了NOIP省一和NOI冬令营全国银牌成绩。”“我基本掌握算法导论、组合数学、离散数学,也涉猎了斯坦福大学的具体数学,也对人工智能有些许了解。”“至于数学,我涉猎了高等数学、线性代数、概率论和数理统计、数学分析……”
虽然李子青从未带过本科一年级的学生,但数学好、编程好,是他对学生的基本要求,况且,这孩子才高中毕业,那一刻他觉得自己发现了一块璞玉。
李子青深知学校“200博导对应60学生”的投入和对这批年轻学生的期望。“我所做的只不过是发掘学生的特点和潜力,鼓励他们尽早积极参与前沿科研,并创造条件让他们快速成长、成才。”李子青说。
所以,张乐程的顶会论文对李子青而言,既是意外之喜,又是期待的达成。“真为他高兴。”
在这样的规划下,才大二的张乐程已经忙到飞起:他要去上海参加资助AI领域优秀本科生的奖学金的面试选拔;他去南京和合肥参加美国计算机协会发起组织的国际大学生程序设计竞赛(ICPC)亚洲区域赛;他还要准备托福考试,因为按照西湖的规定,下一个学年他们将出国交换学习, 张乐程希望能去在计算机领域排行“数一数二”的加州大学伯克利分校,见识一下业界最厉害的“大牛”……
当然,少年人爱玩的天性不变。即使在这么忙的情况下,张乐程依然记挂着他的另一重身份:视频博主“孙1超”。在夏俊眼里,张乐程是个典型的竞赛生,在数学、计算和编程方面有天赋,但不擅长表达。为此,夏俊曾特意让张乐程和一群高年级的访问学生、硕士生一起看论文、说论文,锻炼他的口头表达能力。
岂料,“躲”在视频背后的“孙1超”却玩得“游刃有余”:西湖大学本科生的录取通知书长什么样?想看看本科生的寝室吗?西湖大学超市里600ml的可乐只要2块9,是真的吗……一个个话题时不时掀起一阵小高潮。
△ 张乐程的个人主页
下一个话题是什么?说不好。因为对年轻人的想象,永远不能停留在今天。
(责任编辑 吴文建 赵洪河)
① 凡本站注明“稿件来源:中国教育在线”的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本站协议授权的媒体、网站,在下载使用时必须注明“稿件来源:中国教育在线”,违者本站将依法追究责任。
② 本站注明稿件来源为其他媒体的文/图等稿件均为转载稿,本站转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。