移动的图片
下面的故事最初出现在2017年冬天问题W&M校友杂志编辑。
凯特琳·刘易斯·斯莫伍德88届是世界领先的“互联网电视网络”的科学和算法副总裁她在加州洛斯加托斯(Los Gatos)的办公室里负责监督数据,帮助Netflix了解你喜欢看什么,预测你接下来可能想看什么,并决定未来购买和制作什么。她还看到起重机、自卸卡车和建筑工人正在硅谷南端建造Netflix全新的公司总部。在一个具有历史意义的时刻,她是一家有影响力的公司中一个不断发展的领域的领导者:数据科学正在帮助Netflix起飞。
斯莫尔伍德表示:“当我们的业务主要面向全球时,加入这家公司对我来说是一件非常鼓舞人心的事情。“这是一个绝佳的机会,可以以无害、无威胁的方式真正帮助不同文化相互了解。”
品味集群
Netflix总部的会议室数量多得令人眼花缭乱,他们甚至还没有完成建设。每一个都略有不同,并以一部著名的电影命名(通常是可以通过该服务进行流媒体播放的电影)。许多都有一面玻璃墙,上面磨砂着著名场景或演员的形象。
还有艾美奖。
斯莫尔伍德大楼的大厅里摆满了与电影和电视有关的东西:回收的木桌上放着关于电影的艺术书籍,大屏幕上不断播放着Netflix的产品(在这里是《王冠》),两根灯光柔和的柱子上显示着Netflix的艾美奖。艾美奖在硅谷并不常见,但它们证明了该公司的智慧和战略。
然后是数据。
当用户登录Netflix服务并开始浏览时,他们会看到一排排的分类。当你浏览时,Netflix会记录下你看了什么,你是如何找到它的,你看了多长时间,以及你在什么设备上看的,还有其他一些信息。随着Netflix越来越了解你的观看习惯,它就能更好地预测你喜欢什么。无论你在世界的哪个地方,这都是有效的。
斯莫尔伍德说:“到目前为止,我们学到的一件事是正确的,那就是当你试图了解人们的口味时,世界各地的人们所拥有的‘味觉集群’是非常相似的。”“不同地区对不同口味的观众规模可能会有很大的不同,但这些口味的实际内核并没有太大的不同。”
在Netflix上,口味以分类内容的形式显示。通常,这几排都是百视达老货架上的典型剧目:戏剧、喜剧、动作、科幻、爱情片等等。但是,当你进一步进入Netflix数据库中超过5万行标题时,事情变得非常具体——“强大的女主角”、“低俗的深夜喜剧”、“古怪的爱情片”、“超自然恐怖电影”等等。有许多网站专门记录向全世界的Netflix用户提供的最晦涩的类别——比如“坚韧不拔的英国监狱电影”。
“虽然我们的内部工作更加困难,”她说,“但我们为客户提供的服务实际上要好一些,因为你可以发现细微的口味,因为其他地区可以帮助你更有效地为不同地区的会员提供服务。”这部分也很令人兴奋。”
斯莫尔伍德领导着50多名工程师、数据科学家和数学家,他们正在努力提炼超过8600万Netflix用户的观看习惯,并使产品更好。算法编排了观众的体验,他们已经做出了回应:每天观看1.25亿小时。这就像每天看100多万次《星际迷航4:回家之旅》,或者看一集《谋杀,她写的》近270万次。这是一个巨大的数据量,要靠斯莫尔伍德来理解它。
正确的问题
从技术上讲,算法只是一组规则,计算机可以遵循这些规则来解决问题。对于斯莫尔伍德等90年代的早期数据科学家来说,这些问题主要局限于物流和运输:包装集装箱或协调航空网络。她说,她今天在Netflix解决的问题,在当时“并不存在”。
“最让我震惊的是数据量——它的规模与我以前经历过的完全不同,”她说,“因为有些大公司的产品本身就是与人互动的。很多人只是产生了大量的数据——数据量真的是最重要的。”
因此,随着互联网从大学扩展到办公室、客厅、笔记本电脑和裤子口袋,人们产生的数据量呈爆炸式增长。突然之间,所有东西都附加了额外的数据:数码照片现在与拍摄地点相关联;你的手机会记录下你停车的位置。就Netflix而言,它主要只对人们观看的节目和电影以及他们观看的方式感兴趣——但这也有很多数据点。
“在数据科学中,当你拥有大量数据时,会发生一些事情,”她说。“一是你真的可以用一种你希望是积极的方式来感动这么多人。即使我只是让你更快地完成一些任务,对我来说,这也很令人满意。”
对于Netflix的用户来说,这个任务主要是“我如何找到要看的东西?”对于呆在家里看电影的夫妇和试图安抚混乱的孩子的父母来说,答案是不同的,但这项服务从每个使用它的人那里学习。生成的数据由斯莫尔伍德的团队及其奇异的统计和机器学习技术库进行处理。在b谷歌这样的搜索巨头,技术人员在谈论“一种算法”时都很低调;在Netflix,他们每年测试500种不同的算法。斯莫尔伍德说,没有什么“灵丹妙药”。
这些算法支撑着整个操作,尤其是推荐系统。她解释说,公司的商业目标是增加和留住每月付费使用Netflix的用户,但同时也要增加用户使用该服务的时间。所以我们越容易找到我们想要的节目,发现我们甚至不知道自己想要的电影,她的团队就越成功。所以他们会问问题。哪一集你开始了,而没有完成?你选择上一部电影的那一排还有什么?你刷剧看了多久了?
她说:“我们可以跟踪、测量、研究、分析和其他所有事情的数量是疯狂的——做所有事情是不切实际的。”“因此,弄清我们必须从这个实验中学到的核心内容非常重要。让我们专注于这一点,再加上一两件事,而不是20件事。其中一部分是纪律。”
斯莫尔伍德说,在某些方面,解决正确的问题比实验结束时得出的结论更重要。然后是看数字的时候了。Netflix首先选择基于离线数据显示潜力的算法,而不是来自当前使用该服务的用户。只有最有前途的过程才会进行现场测试。
“既然你有这么多人的数据,你真的可以识别模式和集群,并看到人类行为的巨大变化,”她说。“然后你根据这种行为量身定制一些你可能不知道的东西。即使作为人类,我们也不一定能说清楚为什么我们会有这样的行为。数据的伟大之处在于它是纯粹的——它是真实发生的。
“你会发现令人惊讶的事情,否则别人不会发现。这几乎就像一个侦探。”
斯莫尔伍德特别注意到,Netflix对其分析的数据非常谨慎:在某些情况下,信息存在物理分离,并且广泛的匿名化,因此数据点不能附加到特定用户。她无法深入系统,找出到底是谁在凌晨3点看《金刚:传奇守护者》(Voltron: Legendary Defender)的每集。
她也不能透露他们在测试中找到的所有确切方法和结果,但是像《怪奇物语》、《纸牌屋》和(Smallwood目前最喜欢的)《王冠》这样的原创剧,他们正在做一些正确的事情。特别是在这些情况下,数据并不是100%的决定:人类的专业知识对于确保Netflix的目录是新鲜的、有深度的和成功的至关重要。她说:“有时它会使事情自动化,但有时它只是提供额外的数据点。”
“我们真的想帮助你更容易地找到你要看的东西。幸运的是,我们有很多其他会员在看,我们可以看到什么样的模式出现,以及你的品味和别人的品味在哪里一致。这可以帮助我们确定要给你的建议。”
通过算法,Smallwood和她的团队正在搭建人类行为和机器学习之间的桥梁,以提供最好的体验。
人类网络
在她职业生涯的早期,斯莫尔伍德致力于防止空军的技能退化——将数据应用于飞行员的职业培训。但她后来为美国邮政服务数据网络建模的工作为更多的人打开了大门。她说,这些网络在20世纪90年代要小得多,但这并没有使问题变得简单。
她说:“这个项目实际上让我更深入地爱上了数据科学,因为它是一种复杂的网络问题。”“你有语音线路和数据线路,它们都必须按照一种跨越美国、覆盖所有需求的模式进行配置和设计。研究起来很有趣。”
当斯莫尔伍德谈到她所面临的复杂数据集和网络挑战时,很容易看出她有多兴奋。这种数学不是写在黑板上的方程式,而是节点、连接和网络。其中有一个不可避免的人为因素——数据在说一些关于人的事情。她找到了进一步钻研数学的理由。
斯莫尔伍德说:“那是我第一次真正认为有一个我可以专攻的领域。“无论是在技术上还是在我能想象到的应用方面,它都与我和我的兴趣产生了共鸣。”
所以她在斯坦福大学获得了运筹学硕士学位。就在那里,贝丝·刘易斯——大家都知道她——成了凯特琳。她的研究生室友单方面认为她看起来更像凯特琳而不是贝丝,大约一年后,她发现自己是这样介绍自己的。
“到那年年底,没有人再叫我贝丝了,”她笑着说。但她仍然是同一个女人:专注于数据,寻找内在的真相。然而,这一焦点是来之不易的。
文艺复兴时期的女人
在上高中之前,斯莫尔伍德每年都上不同的学校。她的家人辗转于科罗拉多州和新墨西哥州等地,最终降落在弗吉尼亚州。这场运动可能造就了她某种文艺复兴时期的女性气质。
她说:“我是那种对太多事情感兴趣的人。”“我一直都是。”
对她来说,威廉玛丽是开始探索她的选择的正确地方。她来到斯波茨伍德大厅,最终加入了Chi Omega。她在大学二年级时是耶茨大学的住校助理,她深情地回忆起Green leaf, Cheese Shop,以及在当时的校长Paul Verkuil ' 61的蹦床上蹦蹦跳跳。当她想起有一天深夜和朋友一起跳过总督宫的墙时,她也笑了。
“威廉斯堡是一个如此美丽的城市,”她回忆道。“我和我的一个女朋友过去一周五天都一起去狗街跑步。我想念它。”
课程作业也很有回报。“我记得一些宗教和哲学课程实际上是在雷恩大楼举行的。这真是了不起,”她说。“感觉真的,真的就像你回到了过去,因为有教授站在老式的讲台上,有长椅……这是一个非常独特的教室环境。”威廉玛丽学院的教学质量简直棒极了。”
但是在上学期间,贝丝·刘易斯——未来的凯特琳·斯莫尔伍德——似乎无法停止换专业的脚步。
尽管她很喜欢自己的课程,但还是感觉有些不对劲。她先是尝试了会计专业,然后是生物,然后是哲学,然后是一场危机。
她给妈妈打了个电话,妈妈说:“嗯,你一直都很喜欢数学,而且——只是在不经意间——你已经具备了所有的素质,修了所有的课程,就好像你是学数学的一样。”妈妈是对的。
斯莫尔伍德说:“她的观点是,有时候我们认为某些事情不是我们的激情所在,因为它对我们来说很容易。“我想了想这句话,我意识到:我真的很喜欢数学。然后我真的开始投入其中并专注于它。”但她怎么花了这么长时间?
“数学有很多种口味,”她说。“有时候你可能会选择一门你并不喜欢的特定类型的课程,这可能会导致你对整个领域得出错误的结论。我真正了解到我喜欢的是图案。”
很快,斯莫尔伍德即将毕业,主修数学,当然还辅修哲学。在某种程度上,她知道采用尖端的方法和大量的数字,然后将它们与人类经验联系起来是多么重要。这一切从一开始就注定是有意义的——这都是关于模式的。
“当我还是个孩子的时候,”她说,“我经常剪纸,并不断地把它切成越来越小的碎片,看看我是否能得到无穷大。”
向前发展
无限感觉就像硅谷的地平线——技术的发展和发展如此之快。尽管凯特琳·斯莫尔伍德(Caitlin Smallwood)在蓬勃发展的大数据领域有着深厚的背景,但她仍然会抽出时间来摆脱束缚。她喜欢在加州的阳光下滑旱冰,最近还参加了一场石器时代女王的音乐会。2016年早些时候,她带着她的高中高年级双胞胎去威廉玛丽拜访,向他们展示了他们母亲故事的一个重要数据点。
她说:“我必须感谢威廉和玛丽,是他们让我走上了这条道路。”“我感到非常幸运,能在历史上的某个时间点找到一份职业,在这个时间点上,数据科学真的在不断发展。”