数据科学:因为数据不仅仅是科学家的专利
2013年2月,一名31岁的男子在威斯康星州拉克罗斯县驾驶汽车被捕。埃里克·卢米斯(Eric Loomis)承认逃避一名警官,并被判处六年监禁。在他被判刑之前,卢米斯从一个名为COMPAS的算法中得到了一个分数,这是一个由软件公司Northpointe开发的程序,用于对假释候选人的再犯率进行评分。
卢米斯的COMPAS分数表明他再次犯罪的风险很高,这在他的六年刑期中起到了一定作用。卢米斯后来在法庭上质疑该算法的使用,称这侵犯了他的正当程序权利。卢米斯败诉了,COMPAS在全国范围内继续使用。
William & 玛丽新数据科学项目的主管Dan Runfola以COMPAS为例,展示了依赖预测数据计算累犯率的道德问题。Northpointe从未公布过其风险评估软件背后的算法,但ProPublica的一项调查表明,种族是一个因素。
“如果我们试图预测罪犯再犯和重返监狱的风险,而种族在数量上是一个很好的预测因素,我们应该使用它吗?”Runfola说。“威廉玛丽学院的学生需要准备好批判性地回答这些问题。”
伦理是贯穿整个新项目的永恒主题,该项目旨在为任何学科的学生提供创建和分析庞大数据集的计算能力。
“我认为我们的工作是让下一代学生做好准备,使他们能够理解计算的优点和局限性,同时也要考虑其影响,”兼任AidData高级地理空间科学家和应用科学助理教授的Runfola说。“数据中的道德困境是巨大的,无处不在,同时又隐藏着。”
自从去年秋天数据科学项目开始接受学生以来,它已经强有力地证明了计算应用对具有广泛兴趣的学生是有价值的。该项目已经积累了17个宣布的辅修专业和15个自主设计的专业(数据科学的官方专业仍在筹备中)。今年春季,共有251名学生注册了数据科学课程,比秋季学期增加了32%,学生群体中几乎每个学科都有代表。
“这超出了预期,”威廉玛丽学院负责研究的副教务长丹尼斯·马诺斯(Dennis Manos)说。数据科学是Manos率先推出的一系列教育计划中发展最全面的一个,这些计划旨在将数据分析、工程和设计整合到该大学的文科课程中。第二项倡议是工程、物理和应用设计(EPAD)的新物理课程,将于下学期开始接受学生。
马诺斯在谈到数据科学项目时说:“目前我对它的评价是,这些课程已经达到或超出了能力。”“这就是我们所能要求的。如果你挂出了一个小招牌,有人来了,你就会很开心。”
到目前为止,这个项目所做的远不止是挂出一块广告牌,它还为校园里的研究佳博体育提供了一种管道。收集大量数据的研究人员已经开始依靠数据科学项目来训练学生在佳博体育工作。
“我们有一些附属教员,他们所在的院系不具备深厚的计算技能。这些教师有需求。”“他们希望学生在佳博体育里帮助他们做研究,但他们做不到,因为学生还没有掌握所需的技能。”
生物学校长教授玛格丽特·萨哈(Margaret Saha)表示,她的佳博体育有整整一半的人参与了这个新项目。在她的领域,近年来技术创新使数据收集变得非常容易。她说,例如,常规的RNA测序大约有6000万次读取,每次读取大约有300个碱基。
“我们如何将所有这些数据转化为知识?”萨哈说。“这就是数据科学的用武之地。它正在解决生物学中的这一重大问题和巨大需求。”
萨哈承认,并不是所有的生物学学生一开始都对学习如何编写程序或管理大量数据集感兴趣,但数据科学的定位方式——只是他们生物学工具箱中的另一个工具——帮助他们“看到了光明”。
Manos说,这正是数据科学的意义所在。它旨在吸引那些对计算机科学和定量分析以外的领域有浓厚兴趣的学生。他说,学生的最终目标不应该是理解编码架构或布尔代数的基础,而是“将这些技能作为工具,找到他们被要求提供的一些长期利益或解决方案。”
“我喜欢开玩笑地把数据科学的教学模式称为陷阱,”Runfola说。“我们服务的很多学生从来不会认为自己是计算机科学专业的人。我们想让他们知道,他们错了。”