鞭打克隆人
结合159台计算机和475个独立处理器的能力,SciClone, William & 玛丽的科学计算综合体,是学院的重要资源,也是这种规模的校园的独特之处。11岁的蕾切尔·泰勒开发了一套软件来监控克隆人的性能。通过该软件进行的测试使泰勒相信,SciClone具有显著加快计算时间的潜力。
泰勒是一名本科生研究助理,与学院的高性能计算经理汤姆·克罗克特(Tom Crockett)一起工作。Crockett指出,速度是计算科学的驱动力之一。两人都认为,更快的克隆技术将对威廉玛丽研究界产生重要影响。
“计算机真正擅长的一件事是非常快地完成一系列单一任务,”泰勒解释说。“但是,最终,由于物理定律,你无法让它们以更快的速度完成这些任务。如果你想让你的电脑在更短的时间内做更多的事情,你就需要更多的电脑。不管你的计算任务是什么你把它分成很多小块。你给集群中的每台计算机分配一小块。”
克罗克特解释了这种将复杂问题分解成可管理的小块的通用方法是如何在计算机出现之前出现的。克罗克特说:“事实上,在电脑出现之前,有些人的职称就是‘电脑’。“他们坐在那里,拿着计算尺或机械计算器,做着我们现在用电脑做的事情。他们每个人都会研究问题的不同部分,然后把所有的结果放在一起。”
项目范围广泛
校园里任何需要的人都可以使用SciClone。克罗克特解释说:“任何有价值项目的人都有时间去运行它,并得到学院和拨款的支持。”“我们的项目范围非常广泛,而且还在不断变化。我们最近最大的用户是弗吉尼亚海洋科学和应用科学研究所。多年来,物理系一直是最严重的使用者之一。”其他用户包括数学、计算机科学、心理学和经济学。
作为一名数学专业的学生,泰勒开发了一种监控软件来评估节点——综合体内的单个计算机——来回传递信息的速度。她解释说,大多数情况下,节点将以相同的速率来回传递消息,而不考虑单个节点或正在发送的消息。然而,泰勒发现有时信息会被延迟。有趣的是,当出现延迟时,延迟总是相同的量。
也许更重要的是,有时信息传递得更快——同样,总是以相同的数量传递。
泰勒说:“当一切都正常工作时,他们都是一样的,都接近最佳表现。”“但是,有时他们会慢一点,只是一点点。但是,数量之多足以让我们想知道:‘嘿,为什么会发生这种情况?’然后,有时候,他们会更快,这真的很奇怪。”
“问题是为什么?克罗克特说。“一个更有趣的问题是:我们如何让它们都跑得快?”一直都是。’”
泰勒正在设计一系列的实验来找出快速和慢速异常的原因。她的最终目标是找到一种方法,使快速异常成为默认的运行模式。
Crockett继续说道:“许多项目会连续运行数天。“一些VIMS应用程序将运行10到15天。如果测试持续了10天,你可以提前一天得到结果,那就很有帮助了。”
它一直在使用
这里有一个大问题:检查SciClone是一个挑战,因为SciClone经常被使用。泰勒解释说:“有时很难进行控制实验,因为系统总是在使用中。”“如果其他人在系统上做事情,我们不能把所有人都踢出去。”
克罗克特对此表示赞同:“这个系统现在太忙了,我们没有足够的时间做原始的实验,而如果你在做一项真正的科学研究,你会想做这些实验。我们只是想了解这个系统的行为。”
最终,泰勒的研究结果将增强我们对sciclone——或许还有其他集群计算机系统——的理解。
“你喜欢认为计算机是确定性的,”克罗克特说。“我们有一组相同的硬件,你可以进行10次相同的实验。你会认为你能得到十次同样的表演,但我们没有。这就是让我们不开心的原因。”