关闭菜单 参考资料…… William & 玛丽
w m菜单 关闭 William & 玛丽

W&M教授Denys Poshyvanyk在人工智能发展中发挥了重要作用

Denys Poshyvanyk2025年,像OpenAI和谷歌这样的大型语言模型比以往任何时候都更强大,更容易使用。除了帮助用户写论文、总结文档和计划旅行之外,公司和个人都纷纷使用人工智能工具来帮助软件开发。

今天在计算机生成代码方面看到的许多发展都可以追溯到计算机科学校长Denys Poshyvanyk教授在机器学习驱动代码完成领域的基础研究。

虽然机器学习和人工智能在学术领域已经存在多年,但由于缺乏硬件能力和数据可用性,进展受到阻碍。2015年,当Poshyvanyk和他的研究生发表论文《迈向深度学习软件库》(Toward Deep Learning Software Repositories)时,代码完成是基本的,基于语法上的“词典式”方法。十年后,Poshyvanyk和他的合著者将在2025年在渥太华举行的MSR会议(与ICSE同时举行)上获得“最具影响力论文”奖,以表彰他们在过去十年中所产生的影响。

Poshyvanyk说:“虽然语言模型以前被使用过,但这是第一篇将神经大型语言模型应用于代码完成任务的论文。”“(我们)表明,它只需要少量的信息来编码接下来的内容,这是对当时最新、最伟大的论文的一个相当重大的改进,那只是一个规范的语言模型。”

Poshyvanyk的论文帮助开启了人工智能和机器学习研究热潮,导致了以消费者为中心的工具的发展,这些工具允许更广泛的个人在几乎没有编程经验的情况下制作自己的特定案例脚本和软件。Poshyvanyk说:“我个人很高兴看到编程已经民主化到这样的程度,我听说从未上过编程课的人可以用英语编程,这太棒了。”

尽管这篇论文在过去的十年里取得了成功,但它从想法到被接受的过程并不完全顺利,它始于波希瓦尼克招收马丁·怀特(Martin White)为博士生。怀特试图完成一篇实质性的论文,在他的前导师搬到北卡罗来纳后,他找到了波希瓦尼克,两人开始讨论研究课题。

Poshyvanyk说:“我们实际上进行了几个小时的头脑风暴,当时我注意到所有这些正在发表的论文和语言模型开始出现。”

White和Poshyvanyk都有丰富的机器学习经验,并意识到在软件开发领域应用神经网络的潜力。然而,由于时间紧迫,他们需要让其他人加入进来。

“离论文截稿日期还有三个月,”波希瓦尼克说。“我和他在三个月内无法快速完成,所以我让当时的其他博士生克里斯托弗·旺多姆和马里奥·利纳雷斯-瓦斯奎兹参与进来。Christopher是从软件库中挖掘数据的专家,所以我们让他帮助我们快速获取大量的软件数据,我们可以在这些数据上训练这些模型。”

随着团队的组建,该小组将他们的注意力集中在代码完成上,并在ICSE会议上及时发表了他们的论文,在那里它获得了一些兴趣和支持,但受到了严格的审查,最终被拒绝了。

“其中一些新论文就像实地建立论文。通常,让他们被接受并不容易,审稿人喜欢的是渐进式的和完善的研究,他们喜欢他们理解的东西,”Poshyvanyk说。

第二年,这个小组没有被吓倒,重新提交了他们的论文,但这篇论文对审稿人来说仍然存在争议。

“再一次,我们有一个喜欢它的评论家阵营,他们说,哇,这是未来,这是我们多年来看到的最具创新性的论文之一。第二个阵营,再次开始争论适用性和一些技术细节。所以从字面上看,我们对这篇论文的评分是强烈接受和强烈拒绝,就像爱和恨一样,这真的很令人惊讶。”

一经接受,Poshyvanyk和他的合作者就受到了感兴趣的同事和领域专家的关注。他们的论文为怀特的出版事业开了一个成功的头,怀特随后又发表了两篇文章,这两篇文章和第一篇论文一起成为了他的博士论文。对于在2015年之前断断续续从事机器学习研究多年的Poshyvanyk来说,这篇论文成为他学术生涯的一大亮点。

“我是一个奇怪的孩子。我大一的时候就想读博士,”波希瓦尼克开玩笑说。“我总是被做研究和科学的想法所吸引,不知怎么的,我有点像激光一样专注。”

波希瓦尼克在乌克兰大学毕业后,搁置了他的研究梦想,因为博士课程大多是兼职的,而且没有资金支持。在软件开发行业工作了一段时间后,Poshyvanyk在同事的推荐下进入了美国的研究生院。

“我不知道作为一名学生,你可以全职做研究,还能得到报酬。对我来说,鉴于我乌克兰人对事物的理解,这是一件梦寐以求的事情。”“你可以发表论文,参加会议,这里的研究很重要,而且是有效的。我简直不敢相信。”

尽管之前的职业生涯充满了荣誉,但Poshyvanyk坚持认为,“走向深度学习软件库”是他在学院期间最重要的工作之一。

Poshyvanyk说:“这个奖项非常特别,因为这篇论文是我和我的博士生一起完成的,后来,这个想法真的是这个领域的第一个想法。”“所以在我看来,就这篇论文之后发生的事情而言,它对我们所做的所有研究产生了最大的影响,我很高兴我们是这一领域的首批开拓者之一。”

这篇论文于2015年发表后,波希瓦尼克和他在威廉与玛丽的研究获得了新的关注,不久美国国家科学基金会(National Science Foundation)也来敲门。

“这篇特别的论文,甚至在被认为是最具影响力的论文之前,就对我当时的职业生涯产生了巨大的影响,因为我记得美国国家科学基金会注意到我正在做的这项工作,实际上在这篇论文之后,我得到了一笔资助,可以做更多的研究,”Poshyvanyk解释说。

几年后的2019年,美国国家科学基金会(NSF)承认Poshyvanyk是该领域的领导者,他被选为一个研讨会的负责人,该研讨会汇集了软件工程和机器学习社区的成员,目的是讨论下一步的研究。

十年内,很多事情都可能发生变化,一个曾经对一篇涉及生成代码完成的论文持怀疑态度的社区,现在已经被该领域的研究和出版物所淹没。

“这篇论文几乎没有被接受,10年后,在被引用了400次之后,我们获得了这个奖项,”波希瓦尼克说。

尽管对波希瓦尼克和他的学生来说,这是一条漫长的道路,但他们曾经备受争议的论文的影响,现在无疑是不可否认的。