1.天气预报是怎么预测天气的?

2.《自然》评选改变科学的10个计算机代码项目

谷歌天气预报系统物理学_谷歌天气怎么样

天气预报不准的七个理由

://news.xinhuanet/health/2004-11/12/content_2207888.htm

理由一:她还很年轻

虽然古人观察现象、寻找规律,早已经有了很多预测天气的经验,但是现代科学基础上的天气预报只有100多年的历史,她是通过简单的定时观测得出气压场、高低压、冷暖锋,并进行简单的线性推算这样一个简陋的手工作坊里发展起来的,而以数值预报为代表的对天气变化的简化物理过程的求解和运算只有几十年的时间。对于很多天气现象的发生、演变的内在机理和规律,人们还并没有完全掌握。气象科学还是早晨七八点钟的太阳,是一个极其年轻的学科。年轻人总是要犯错误的。

理由二:有无数只蝴蝶的翅膀

美国麻省理工学院教授洛伦兹用一种形象的比喻来表达他的这个发现:一只小小的蝴蝶在巴西上空煽动翅膀,可能在一个月后的美国得克萨斯州会引起一场风暴。这就是混沌学中著名的“蝴蝶效应”,也是最早发现的混沌现象之一。在我们的眼前,似乎有“无数只蝴蝶的翅膀”在煽动着。且不论城市热岛、工业排放所产生的温室效应,就是这个星球错综复杂的地形地貌就对天气的变化产生着决定性的影响,而且植被、水体等等都在发生着微妙的变化,而这一切在模拟运算中无法进行详尽的描述。

当然,我们并不会因为有“无数只蝴蝶的翅膀”就迁就天气预报的不准确,就如同学生不会因为自己考不了满分就慨叹考题太难。经常用“混沌”来进行自我安慰的人,还不具备预报天气的职业心理素养。

理由三:我们的眼睛有盲区

要预测天气,首先要观察天气,从理论上讲,要明察秋毫,任何一个细微之处都不能放过。而人类本身并不具有千里眼、顺风耳,我们的眼睛有盲区。

自从有了气象卫星,我们眼睛的盲区减少了,视野更加开阔了。台风无论多狡猾,都不会骗过卫星敏锐的目光,台风的螺旋云型、台风眼都一目了然,我们也才会胸有成竹地发布那些台风警报。但金无足赤,人无完人,气象卫星也一样。地球同步气象卫星目不转睛地注视着天气变化,但是它离地面的距离是36,000公里,比较遥远,分辨能力比较有限;极轨气象卫星的高度是800多公里,离地球近一些,但是它不可能目不转睛地观察特定区域,它的云图是拼接而成的,在观察一个特定区域时,相当于卫星有“眨眼睛”的毛病,而有一些天气就在“眨眼间”发生了。另外,如果有云层覆盖,我们就难以观察并测算植被、水体、沙尘的面积和强度等等,云层会掩盖很多秘密。

我们没有一双可以洞察一切的慧眼,在分析和预测的时候会产生误差,这是不可避免的事情。

理由四:东边日出西边雨

人们常用“东边日出西边雨”来形容天气的局部差异。在地形比较复杂的地区,或者强对流天气 如暴、冰雹等 比较流行的季节,在一个范围很小的区域中,天气也常常会迥然不同。

一座大山,迎风坡和背风坡,气温、降水量的差别非常大,因而植被的面貌也大相径庭。仅仅一山之隔,却展现着两种气候类型,古人说:始悟一岭隔,气候殊寒暄。

而我们国家幅员辽阔,既有中高纬度大陆性天气系统的影响,也有低纬度海洋性天气系统的影响,各种天气灾害琳琅满目,是天气灾害种类最繁多、表现最剧烈的国家之一。我们用一两分钟的时间概述全国天气,只能“从大局出发”,描述大范围的特点,肯定会删减很多局地特殊性的天气现象,会遗漏很多天气情节,它无法表述那么纷繁复杂的天气变化。

理由五:疑难病误诊

疾病的种类很多,而诊治各种疾病的难度各不相同。再妙手回春的医生也有误诊的时候,为天气把脉也常常碰到疑难杂症。

我清晰地记得一个例子:一个台风刚刚生成,就气势汹汹地向东南沿海奔袭而来,我们发布了警报。可是台风却很诡异地停止前进,在原地就地休整。但是正当人们稍稍松了一口气的时候,它又杀了一个回马枪,重新瞄准东南沿海,于是我们再次警觉地发布台风警报,然而当警报声响起的时候,台风却大摇大摆地朝向太平洋扬长而去。最终这个台风让人们虚惊一场。事后有几位同事总结说:这个台风好像是专门来戏弄我们的。

即使某种常规的天气过程,预报了不发生(行话叫:报空了),没预报发生(行话叫:报漏了)的情况也时常出现。长期以来,为了减少负面的社会影响,一些业内人士有一种“宁空勿漏”的心态。且不去议论业内的预报心态,我个人觉得,正是因为很多难度极大的预报,报错了 尤其是漏报 ,人们(包括领导)对于错误缺乏公允的评价,很多从事预报的同行经常有一种如履薄冰、如惊弓之鸟的感觉。我的一位领导有一句挂在嘴边的话:一万年之后,人们还会谈论天气预报准确性的问题。天气预报永远有不准确的时候。但愿他的这句话给一万年之后的观众也打个预防针。——天气预报的难题将长期存在。摸准老天爷的脾气的确是一件很艰难的事情。

理由六:你的感觉欺骗自己

2004年春天,有位实习生对我说:到了夏天,你们怎么办啊?这一句话让我摸不着头脑。他解释说:大家都说,高温季节明明是40多度,你们却总报36度、37度的样子,怕引起恐慌,所以不敢报也不愿报高温。

听了这样的分析,我真是觉得冤枉啊!

2003年的夏天,南方出现长时间、大面积的高温天气,缺水、缺电现象非常突出,大上海的夜间照明也取了限制措施。在福建、江西、浙江,很多地区的气温像进行体育竞赛一样,气温新高屡屡被刷新,各大“火炉”交相辉映。于是有很多观众反映天气预报故意压低气温结果,隐瞒不报,甚至将其上升到了“剥夺百姓知情权”的政治高度。

但实际上,对于2003年夏季的高温天气,气象部门恰恰做出了非常精彩、确凿的预报,仅中央气象台就破天荒地发布了31次高温预报和警报,而且对于气温的预报误差一般在一度左右甚至更低。可是,科学层面的精彩和公众层面的印象何以有如此强烈的反差呢?

我们追根溯源,气温与人们的身体感觉(体感温度)的差异是引起抱怨和质疑的首要原因。

我们所说的气温是指百叶箱里的温度,它是在草坪上,距离地面1.5米,通风,而且不受阳光的直射。但是我们的体感温度却受到很多因素的影响。同样的气温,阳光下和树荫下,感觉差别很大;有风和无风,差别很大;湿润和干燥,差别很大,感觉上的差别一般会在5度以上。而且在火辣辣的阳光烘烤下,地面温度,远远高于气温,当气温是35度的时候,表层土地的温度可能是50度,水泥或柏油马路的温度可能是70~80度,所以走在马路上的时候你感觉温度远远不止35度,于是对天气预报的怀疑产生了。

实际上在天气预报的历史上,从来没有过在盛夏季节主观故意压低气温预报结果的情况。如果真有那样的事,完全是伤害职业道德的卑劣行为,也是我们自己难以容忍的!

理由七:缺少对不准确的总结

我拜读过大量关于预报多么精彩、分析多么成功的文章和总结,但是极少看到对于预报失败个例的分析、点评,似乎一些人不愿意触及伤疤,没有诚恳地探讨失败的职业氛围。一旦预报出现重要错误,气氛会变得很凝重,不敢提及,生怕伤害了谁的感情。

北京电视台的天气预报在结尾处,有一屏是“某月某日天气预报满意率”,由观众为每天的天气预报结果打分。我每次都会认真地阅读这条信息,这是了解观众对于预报质量所持态度的重要渠道。满意率经常很高,百分之九十几甚至百分之百。但是也有满意率非常低的时候,比如预报了2004年6月14日和15日北京有“小雨”,但是老天爷就是不愿意配合,14日刮了一阵六级大风和一场扬沙天气,15日尽管天色阴沉、云层浓密,但偏偏不下雨,当天我路过一座游泳馆,那里的工作人员认出我来并开玩笑地说:“这两天天气预报这么不准,你还敢在大街上走 ”结果6月14日的天气预报满意率只有43%。当然,内行人都知道那几天预报的难度的确是非常大的。6月16日似乎老天爷终于被执著的预报感动了,下了一天的雨,但预报的最高气温是24度,而实际上下午的气温仅仅是17度,穿着单薄的人们被冻得哆哆嗦嗦,怨言丛生,但是6月15日对于16日预报的满意率是81.8%,看来虽然温度预报离谱,但是终究预报了降雨,大家还是很宽厚的。

天气预报是怎么预测天气的?

天气发生器通常是指一种模拟或模仿天气现象的装置或设备,不是物理概念。天气发生器通常是指一种模拟或模仿天气现象的装置或设备,可以通过人工或计算机模拟产生各种天气现象,如降雨、风暴、雷电等。天气发生器可以用于气象研究、天气预报、环境模拟、农业生产等领域,对于研究和预测天气变化、制定相应的应对措施具有重要意义。天气发生器本身并不是物理概念,而是一种技术实现和应用。不过,天气现象本身是与物理学相关的自然现象,涉及到大气科学、热力学、电磁学等多个学科的知识和原理。因此,天气发生器的设计和使用也需要借助于这些学科的理论和方法,以确保其有效性和可靠性。

《自然》评选改变科学的10个计算机代码项目

天气预报是使用现代科学技术对未来某一地点地球大气层的状态进行预测。从史前人类就已经开始对天气进行预测来相应地安排其工作与生活(比如农业生产、军事行动等等)。今天的天气预报主要是使用收集大量的数据(气温、湿度、风向和风速、气压等等),然后使用目前对大气过程的认识(气象学)来确定未来空气变化。由于大气过程的混乱以及今天科学并没有最终透彻地了解大气过程,因此天气预报总是有一定误差的。

中央电视台每晚19:30播报的都是短期天气预报,时效为未来2~3天。

扩展资料

中国古人的天气预报:

几千年来,水手、渔民、农民和猎人看云、看风、看天象、看物象来预测天气,探索作天气预报。天气预报成了一套民间技艺。古代人观天象,测风云。前者是肉眼和简单仪器能够观测到的天空状况,不但观测日月星辰的变化,还记录了各种过去和当前发生的自然现象,并把总结的经验与当前观测结合起来,做出天气预报。

参考资料天气预报——百度百科

 从Fortran到arXiv.org,这些计算机编码和平台让生物学、气候科学和物理学等学科的发展达到了真正“日新月异”的速度。

 2019年,视界望远镜团队让世界首次看到了黑洞的样子。不过,研究人员公布的这张发光环形物体的图像并不是传统的,而是经过计算获得的。利用位于美国、墨西哥、智利、西班牙和南极地区的射电望远镜所得到的数据,研究人员进行了数学转换,最终合成了这张标志性的。研究团队还发布了实现这一壮举所用的编程代码,并撰文记录这一发现,其他研究者也可以在此基础上进一步加以分析。

 这种模式正变得越来越普遍。从天文学到动物学,在现代每一项重大科学发现的背后,都有计算机的参与。美国斯坦福大学的计算生物学家迈克尔·莱维特因“为复杂化学系统创造了多尺度模型”与另两位研究者分享了2013年诺贝尔化学奖,他指出,今天的笔记本电脑内存和时钟速度是他在1967年开始获奖工作时实验室制造的计算机的1万倍。“我们今天确实拥有相当可观的计算能力,”他说,“问题在于,我们仍然需要思考。”

 如果没有能够解决研究问题的软件,以及知道如何编写并使用软件的研究人员,一台计算机无论再强大,也是毫无用处的。如今的科学研究从根本上已经与计算机软件联系在一起,后者已经渗透到研究工作的各个方面。近日,《自然》(Nature)杂志将目光投向了幕后,着眼于过去几十年来改变科学研究的关键计算机代码,并列出了其中10个关键的计算机项目。

 这台CDC 3600型计算机于1963年交付给位于科罗拉多州博尔德的国家大气研究中心,研究者在Fortran编译器的帮助对其进行了编程

 语言先驱:Fortran编译器(1957年)

 最初的现代计算机并不容易操作。当时的编程实际上是手工将电线连接成一排排电路来实现的。后来出现了机器语言和汇编语言,允许用户用代码为计算机编程,但这两种语言都需要对计算机的架构有深入的了解,使得许多科学家难以掌握。

 20世纪50年代,随着符号语言的发展,特别是由约翰·巴克斯及其团队在加州圣何塞的IBM开发的“公式翻译”语言Fortran,这种情况发生了变化。利用Fortran,用户可以用人类可读的指令来编程,例如x = 3 + 5。然后由编译器将这些指令转换成快速、高效的机器代码。

 不过,这一过程仍然很不容易。早期的程序员使用打孔卡来输入代码,而复杂的模拟可能需要数万张打孔卡。尽管如此,新泽西州普林斯顿大学的气候学家真锅淑郎(Syukuro Manabe)还是指出,Fortran让非计算机科学家也能编程,“这是我们第一次能够自己给计算机编程”。他和同事们利用这种语言开发的气候模型是最早取得成功的模型之一。

 Fortran发展至今已经到了第八个十年,它仍然广泛应用于气候建模、流体动力学、计算化学等学科,这些学科都涉及到复杂线性代数并需要强大的计算机来快速处理数字。Fortran生成的代码速度很快,而且仍然有很多程序员知道如何编写。古早的Fortran代码库仍然活跃在世界各地的实验室和超级计算机上。“以前的程序员知道他们在做什么,”美国海军研究院的应用数学家和气候模型师弗兰克·吉拉尔多说,“他们非常注重内存,因为他们拥有的内存非常少。”

 信号处理器:快速傅立叶变换(1965)

 当射电天文学家扫描天空时,他们捕捉到的是随时间变化的复杂信号杂音。为了理解这些无线电波的本质,他们需要看到这些信号作为频率的函数时是什么样的。一种名为“傅里叶变换”的数学过程可以帮到研究人员,但它的效率很低,对于一个大小为N的数据集需要N^2次计算。

 1965年,美国数学家詹姆斯·库利和约翰·杜基想出了一种加速该过程的方法。快速傅里叶变换(FFT)通过递归(一种通过重复将问题分解为同类的子问题而解决问题的编程方法)将计算傅里叶变换的问题简化为N log2(N)步。随着N的增加,速度也会提高。对于1000个点,速度提升大约是100倍;100万个点则是5万倍。

 这个“发现”实际上是一个再发现,因为德国数学家高斯在1805年就对此进行了研究,但他从未发表过。而詹姆斯·库利和约翰·杜基做到了,他们开启了傅里叶变换在数字信号处理、图像分析、结构生物学等领域的应用,成为应用数学和工程领域的重大之一。FFT在代码中的应用已有很多次,近年一个流行的方案是FFTW,被认为是世界上最快的FFT。

 保罗·亚当斯是加州劳伦斯伯克利国家实验室分子生物物理学和综合生物成像部门的主任,他回忆称,当他在1995年改进细菌蛋白质凝胶的结构时,即使使用FFT和超级计算机,也需要“很多个小时,甚至数天”的计算。“如果在没有FFT的情况下尝试做这些,我不知道在现实中应该如何做到,”他说,“那可能要花很长时间。”

 分子编目:生物数据库(1965年)

 数据库是当今科学研究中不可或缺的组成部分,以至于人们很容易忘记它们也是由软件驱动的。过去的几十年中,数据库的规模急剧膨胀,影响了许多领域,但或许没有哪个领域的变化会比生物学领域更引人注目。

 蛋白质数据库Protein Data Bank拥有超过17万个分子结构的档案,包括这种细菌的“表达子”(expressome),其功能是结合RNA和蛋白质合成的过程。

 今天,科学家所用的庞大基因组和蛋白质数据库源于美国物理化学家玛格丽特·戴霍夫的工作,她也是生物信息学领域的先驱。20世纪60年代初,当生物学家们致力于梳理蛋白质的氨基酸序列时,戴霍夫开始整理这些信息,以寻找不同物种之间进化关系的线索。她与三位合著者于1965年发表了《蛋白质序列和结构图谱》,描述了当时已知的65种蛋白质的序列、结构和相似性。 历史 学家布鲁诺·斯特拉瑟在2010年写道,这是第一个“与特定研究问题无关”的数据集,它将数据编码在打孔卡中,这使得扩展数据库和搜索成为可能。

 其他“计算机化”的生物数据库紧随其后。蛋白质数据库Protein Data Bank于11年投入使用,如今详细记录了超过17万个大分子结构。加州大学圣地亚哥分校的进化生物学家拉塞尔·杜利特尔在1981年创建了另一个名为Newat的蛋白质数据库。1982年,美国国立卫生研究院(NIH)与多个机构合作,成立了GenBank数据库,这是一个开放获取的DNA序列数据库。

 这些数据库在1983年7月证明了其存在价值。当时,由伦敦帝国癌症研究基金会蛋白质生物化学家迈克尔·沃特菲尔德领导的团队,与杜利特尔的团队各自独立报道了一个特殊的人类生长因子序列与一种导致猴子出现癌症的蛋白质之间的相似性。观察结果显示了一种诱发肿瘤机制——通过模仿一种生长因子,会诱导细胞不受控制地生长。美国国家生物技术信息中心(NCBI)前主任詹姆斯·奥斯特尔说:“这一结果让一些对计算机和统计学不感兴趣的生物学家头脑里灵光一闪:我们可以通过比较序列来了解有关癌症的一些情况。”

 奥斯特尔还表示,这一发现标志着“客观生物学的到来”。除了设计实验来验证特定的设,研究人员还可以挖掘公共数据集,寻找那些实际收集数据的人可能从未想到的联系。当不同的数据集连接在一起时,这种力量就会急剧增长。例如,NCBI的程序员在1991年通过Entrez实现了这一点;Entrez是一个可以让研究人员在DNA、蛋白质和文献之间自由检索和比对的工具。

 预测领先者:大气环流模式(1969年)

 在第二次世界大战结束时,计算机先驱约翰·冯·诺伊曼开始将几年前用于计算弹道轨迹和武器设计的计算机转向天气预测问题。真锅淑郎解释道,在那之前,“天气预报只是经验性的”,即利用经验和直觉来预测接下来会发生什么。相比之下,冯·诺伊曼的团队“试图基于物理定律进行数值天气预测”。

 新泽西州普林斯顿的美国国家海洋和大气管理局(NOAA)地球物理流体动力学实验室的建模系统部门负责人Venkatramani Balaji表示,几十年来,人们已经熟知这些方程式。但早期的气象学家无法实际解决这些问题。要做到这一点,需要输入当前的条件,计算它们在短时间内会如何变化,并不断重复。这个过程非常耗时,以至于在天气状况实际出现之前还无法完成数算。1922年,数学家刘易斯·弗莱·理查森花了几个月时间计算德国慕尼黑的6小时预报。根据一段 历史 记载,他的结果是“极不准确的”,包括“在任何已知的陆地条件下都不可能发生的”预测。计算机使这个问题变得很容易解决。

 20世纪40年代末,冯·诺伊曼在普林斯顿高等研究院建立了天气预报团队。1955年,第二个团队——地球物理流体动力学实验室——开始进行他所谓的“无限预测”,也就是气候建模。

 真锅淑郎于1958年加入气候建模团队,开始研究大气模型;他的同事柯克·布莱恩将这一模型应用在海洋研究中。1969年,他们成功将二者结合起来,创造了《自然》杂志在2006年所说的科学计算“里程碑”。

 今天的模型可以将地球表面划分为一个个25公里 25公里的正方形,并将大气层划分为数十层。相比之下,真锅淑郎和布莱恩的海洋-大气联合模型划分的面积为500平方公里,将大气分为9个层次,只覆盖了地球的六分之一。尽管如此,Venkatramani Balaji表示,“这个模型做得很好”,使研究团队第一次能够通过计算机预测二氧化碳含量上升的影响。

 数字运算机:BLAS(19年)

 科学计算通常涉及到使用向量和矩阵进行相对简单的数算,但这样的向量和矩阵实在太多了。但在20世纪70年代,还没有一套普遍认可的计算工具来执行这些运算。因此,从事科学工作的程序员会将时间花在设计高效的代码来进行基本的数算,而不是专注于科学问题。

 加州劳伦斯利弗莫尔国家实验室的Cray-1超级计算机。在BLAS编程工具于19年问世之前,并没有线性代数标准可供研究人员在Cray-1超级计算机等机器上工作

 编程世界需要一个标准。19年,这样的标准出现了:基本线性代数程序集(Basic Linear Algebra Subprograms,简称BLAS)。这是一个应用程序接口(API)标准,用以规范发布基础线性代数操作的数值库,如矢量或矩阵乘法。该标准一直发展到1990年,为向量数学和后来矩阵数学定义了数十个基本例程。

 美国田纳西大学计算机科学家、BLAS开发团队成员杰克·唐加拉表示,事实上,BLAS把矩阵和向量数学简化成了和加法和减法一样基本的计算单元。

 美国德克萨斯大学奥斯汀分校的计算机科学家Robert van de Geijn指出,BLAS“可能是为科学计算定义的最重要的接口”。除了为常用函数提供标准化的名称之外,研究人员还可以确保基于BLAS的代码在任何计算机上以相同方式工作。该标准还使计算机制造商能够优化BLAS的安装启用,以实现在其硬件上的快速操作。

 40多年来,BLAS代表了科学计算堆栈的核心,也就是使科学软件运转的代码。美国乔治·华盛顿大学的机械和航空航天工程师洛雷娜·巴尔巴称其为“五层代码中的机械”。而杰克·唐加拉说:“它为我们的计算提供了基础结构。”

 显微镜必备:NIH Image(1987年)

 20世纪80年代初,程序员韦恩·拉斯班德在马里兰州贝塞斯达的美国国立卫生研究院的脑成像实验室工作。该实验室拥有一台扫描仪,可以对X光片进行数字化处理,但无法在电脑上显示或分析。为此,拉斯班德写了一个程序。

 这个程序是专门为一台价值15万美元的PDP-11小型计算机设计的,这是一台安装在架子上的计算机,显然不适合个人使用。然后,在1987年,苹果公司发布了Macintosh II,这是一个更友好、更实惠的选择。拉斯班德说:“在我看来,这显然是一种更好的实验室图像分析系统。”他将软件转移到新的平台上,并重新命名,建立了一个图像分析生态系统。

 NIH Image及其后续版本使研究人员能在任何计算机上查看和量化几乎任何图像。该软件系列包括ImageJ,一个拉斯班德为Windows和Linux用户编写的基于Ja的版本;以及Fiji,这是ImageJ的分发版,由德国德累斯顿的马克斯普朗克分子细胞生物学和遗传学研究所的Pel Tomancak团队开发,其中包括关键的插件。“ImageJ无疑是我们所拥有的最基础的工具,”布洛德研究所(由麻省理工学院和哈佛大学联合创立)成像平台的计算生物学家贝丝·契米妮说,“我从来没有和一个使用过显微镜,但没有使用过ImageJ或Fiji的生物学家说过话。”

 拉斯班德表示,部分原因可能是这些工具是免费的。但威斯康星大学麦迪逊分校的生物医学工程师Kevin Eliceiri指出,另一个原因是用户可以很容易地根据自己的需求定制工具。自拉斯班德退休后,Kevin Eliceiri的团队一直领导着ImageJ的开发。ImageJ提供了一个看似简单、极简主义的用户界面,自20世纪90年代以来基本上没有改变。然而,由于其内置的宏记录器(允许用户通过记录鼠标点击和菜单选择的序列来保存工作流)、广泛的文件格式兼容性和灵活的插件架构,该工具具有无限的可扩展性。该团队的编程主管柯蒂斯·鲁登表示,有“数以百计的人”为ImageJ贡献了插件。这些新添加的功能极大扩展了研究人员的工具集,例如在中跟踪对象或自动识别细胞的功能。

 Kevin Eliceiri说:“这个程序的目的不是做到一切或终结一切,而是服务于用户的目标。不像Photoshop和其他程序,ImageJ可以成为你想要的任何东西。”

 序列搜索器:BLAST (1990年)

 可能没有什么能比把软件名称变成动词更能说明文化的相关性了。提到搜索,你会想到谷歌;而提到遗传学,研究者会立刻想到BLAST。

 通过诸如替代、删除、缺失和重排等方式,生物将进化中的改变蚀刻在分子序列中。寻找序列之间的相似性——特别是蛋白质之间的相似性——可以让研究人员发现进化关系,并深入了解基因功能。在迅速膨胀的分子信息数据库中,想要快速而准确地做到这一点并不容易。

 玛格丽特·戴霍夫在18年提供了关键的进展。她设计了一种“点接受突变”矩阵,使研究人员不仅可以根据两种蛋白质序列的相似程度,还可以根据进化距离来为评估它们的亲缘关系。

 1985年,弗吉尼亚大学的威廉·皮尔森和NCBI的大卫·利普曼引入了FASTP,这是一种结合了戴霍夫矩阵和快速搜索能力的算法。

 数年后,利普曼与NCBI的沃伦·吉什和斯蒂芬·阿特舒尔,宾夕法尼亚州立大学的韦伯·米勒,以及亚利桑那大学的吉恩·迈尔斯一起开发了一种更强大的改进技术:BLAST(Basic Local Alignment Search Tool)。BLAST发布于1990年,将处理快速增长的数据库所需的搜索速度,与提取进化上更为遥远的匹配结果的能力结合起来。与此同时,该工具还可以计算出这些匹配发生的概率。

 阿特舒尔表示,计算结果出来得非常快,“你可以输入搜索内容,喝一口咖啡,搜索就完成了。”但更重要的是,BLAST很容易使用。在一个通过邮寄更新数据库的时代,沃伦·吉什建立了一个电子邮件系统,后来又建立了一个基于网络的架构,允许用户在NCBI计算机上远程运行搜索,从而确保搜索结果始终是最新的。

 哈佛大学的计算生物学家肖恩·艾迪表示,BLAST系统为当时处于萌芽阶段的基因组生物学领域提供了一个变革性的工具,即一种根据相关基因找出未知基因可能功能的方法。对于各地的测序实验室,它还提供了一个新颖的动词。“它是众多由名词变成动词的例子之一,”艾迪说,“你会说,你正准备BLAST一下你的序列。”

 预印本平台:arXiv.org (1991年)

 20世纪80年代末,高能物理学家经常将他们已投稿的论文手稿副本邮寄给同行,征求他们的意见——但只发给少数人。物理学家保罗·金斯帕格在2017年写道:“处于食物链较低位置的人依赖于一线研究者的成果,而非精英机构中有抱负的研究人员则往往身处特权圈以外。”

 1991年,当时在新墨西哥州洛斯阿拉莫斯国家实验室工作的金斯帕格编写了一个电子邮件自动应答程序,希望建立一个公平的竞争环境。订阅者每天都会收到预印本列表,每一篇都与文章标识符相关联。只需通过一封电子邮件,世界各地的用户就可以从实验室的计算机系统中提交或检索论文,并获得新论文的列表,或按作者或标题进行搜索。

 金斯帕格的是将论文保留三个月,并将内容限制在高能物理学界。但一位同事说服他无限期地保留这些文章。他说:“就在那一刻,它从布告栏变成了档案馆。”于是,论文开始从比各个领域如潮水般涌来。1993年,金斯伯格将这个系统迁移到互联网上,并在1998年将其命名为arXiv.org,沿用至今。

 arXiv成立已近30年,拥有约180万份预印本,全部免费提供,而且每月有超过1.5万份论文提交,下载量达3000万次。十年前,《自然-光子学》(Nature Photonics)的编辑在评论arXiv创立20周年时写道:“不难看出为什么arXiv的服务会如此受欢迎,这个系统让研究人员能快速而方便地插上旗帜,显示他们所做的工作,同时避免投稿传统同行评议期刊时的麻烦和时间成本。”

 arXiv网站的成功也促进了生物学、医学、 社会 学和其他学科同类预印本网站的繁荣。在如今已出版的数万份关于的预印本中就可以看到这种影响。“很高兴看到30年前在粒子物理学界之外被认为是异端的方法,现在被普遍认为是平淡无奇和自然而然的,”金斯伯格说,“从这个意义上说,它就像一个成功的研究项目。”

 数据浏览器:IPython Notebook (2011年)

 2001年,费尔南多·佩雷斯还是一位希望“寻找拖延症”的研究生,当时他决定用Python的一个核心组件。

 Python是一种解释型语言,这意味着程序是逐行执行的。程序员可以使用一种称为“读取-评估-打印循环”(read–evaluate–print loop,简称REPL)的计算调用和响应工具,在其中输入代码,然后由解释器执行代码。REPL允许快速 探索 和迭代,但佩雷斯指出,Python的REPL并不是为科学目的而构建的。例如,它不允许用户方便地预加载代码模块,也不允许打开数据可视化。因此,佩雷斯自己编写了另一个版本。

 结果就是IPython的诞生,这是一个“交互式”Python解释器,由佩雷斯在2001年12月推出,共有259行代码。十年后,佩雷斯与物理学家布莱恩·格兰杰和数学家埃文·帕特森合作,将该工具迁移到web浏览器上,推出了IPython Notebook,开启了一场数据科学革命。

 与其他计算型Notebook一样,IPython Notebook将代码、结果、图形和文本合并在一个文档中。但与其他类似项目不同的是,IPython Notebook是开源的,邀请了大量开发者社区的参与其中。而且它支持Python,一种很受科学家欢迎的语言。2014年,IPython演变为Jupyter,支持大约100种语言,允许用户在远程超级计算机上 探索 数据,就像在自己的笔记本电脑上一样轻松。

 《自然》杂志在2018年写道:“对于数据科学家,Jupyter实际上已经成为一个标准。”当时,在GitHub代码共享平台上有250万个Jupyter Notebook;如今,这一数字已经发展到1000万个,在2016年引力波的发现,以及2019年的黑洞成像工作中,它们都发挥了重要的作用。佩雷斯说:“我们对这些项目做出了很小的贡献,这是非常值得的。”

 快速学习器:AlexNet(2012年)

 人工智能有两种类型。一种是使用编码规则,另一种则通过模拟大脑的神经结构来让计算机“学习”。加拿大多伦多大学的计算机科学家杰弗里?辛顿表示,几十年来,人工智能研究人员一直认为后者是“一派胡言”。但在2012年,他的研究生亚力克斯·克里泽夫斯基和伊尔亚·苏茨克维证明了事实并非如此。

 在一年一度的ImageNet比赛中,研究人员被要求在一个包含100万张日常物体图像的数据库中训练人工智能,然后在一个单独图像集上测试生成的算法。辛顿表示,当时最好的算法错误分类了大约四分之一的图像。克里泽夫斯基和苏茨克维的AlexNet是一种基于神经网络的“深度学习”算法,它将错误率降低到了16%。辛顿说:“我们基本上把错误率减半了,或者说几乎减半了。”

 辛顿还指出,该团队在2012年的成功反映了足够大的训练数据集与出色的编程,以及新出现的图形处理单元的强大能力的结合。图形处理单元是最初设计用来加速计算机性能的处理器。“突然之间,我们可以将(算法)运行速度提高30倍,”他说,“或者说,学习多达30倍的数据。”

 真正的算法突破实际上发生在三年前,当时辛顿的实验室创建了一个神经网络,可以比经过几十年改进的传统人工智能更准确地识别语音。“只是稍微好一点,”辛顿说,“但这已经预示了某些东西。”

 这些成功预示着深度学习在实验室研究、临床医学和其他领域的崛起。通过人工智能的深度学习,手机能够理解语音查询,图像分析工具能够很容易地在显微照片中识别出细胞;这就是为什么AlexNet会成为众多从根本上改变科学,也改变世界的工具之一。(任天)