[TED故事] 上帝是个数学家

每一个TED演讲在观者的眼中只是一个孤独的文本,唯有置于更广义的社会背景中,我们才能明白在这短短十八分钟的讲述背后所经历的挣扎、迷茫、坚定、梦想与奋斗。我们的团队新成员余恺将为大家带来别具一格的TED故事,分享TED演讲人背后的不凡人生和精彩思想。这一系列稿件旨在进一步推动TED演讲成为教育素材。余恺(yukind)目前在澳大利亚墨尔本大学进行社会研究项目并修读发展研究的硕士学位。

《上帝是个数学家》

by 余恺

《创世纪》说上帝用六天的时间创造了世界,但上帝在创世之前在干什么呢?

来自剑桥大学的数学教授小木头(J.E.Littlewood)曾经提出一个有趣的判断:“上帝在创世之前只是在研究纯理论的数学,然后他想做点应用应该是件有意思的事情。”(“Before Creation God did just pure mathematics. Then He thought it would be a pleasant change to do some applied.”)

按照小木头教授的理论,所有的数学家都是神学家了,难怪当年我上高数课时总有如沐天书的感觉。

+ 达尔文二世or克雷格文格一世?

克雷格文特(Craig Venter)显然是理解了小木头所说的上帝造物的数学原理。在2008年的TED上,这位被《华盛顿邮报》称为“不是这个时代最激动人心的,就是这个时代最疯狂的”科学家宣告了造物计划:我们已经把生物学数码化,现在是时候带着这些数据代码进入生物学的新时代,设计和制造生命的时代。”

克雷格文特注定是会被写入十年后课本的人物,正如那些为他铺下科学探索征程之路的伟大名字一样。在这条生命探索道路上留下过印迹的最伟大名字无疑是今年迎来200岁诞辰的查尔斯达尔文。有趣的是,达尔文是在小猎犬号(Beagle号)上踏上了他改写人类历史的环球航行,而克雷格文特则在2003年启动了巫师二号(Sorcerer II )考察计划。达尔文探索的是物种,而克雷格文特的任务则比达尔文更深入一步:探索新的基因,测定整个生态系统的序列。

但克雷格文特不想只成为“达尔文第二”。显然他不仅仅只想完成在科学界里拥有神一般地位的达尔文类似的研究,他想做的,是神的工作:在数据化的宇宙中创造新的生命。

TED.com: Craig Venter on DNA and the sea
本站文章: 《克雷格·文特:DNA和海洋(全文翻译)

“左手测序,右手造物”的克雷格文特的工作并不像传统想象的生物学:拿个订书钉钉住青蛙腿,在女生歇斯底里的尖叫声和男生血腥的暴力满足中完成的一节青蛙解剖的生物实验课。克雷格文特更像是一位数学家:他面对的是一堆以A、T、C、G代表的数据符号,这堆数据符号所组成的碱基对序列通过统计软件分析,与现有的大型基因数据库中存有的序列进行比较,克雷格文特就可以“发现”新的物种。

“发现”这个词需要重新理解:克雷格文特可能不知道这个物种长什么样子,但他解读了上帝在这个物种中留下的数据——碱基对序列。从某种意义上,克雷格文特的研究方法是“Google式的科学”(the Google way of science)。

+ 什么是Google式的科学?

在Google搜索栏中输入“siecnc”一词进行搜索,结果出来的是“science”,同时Google还会向你提问“Did you mean: science”?

为什么Google会知道我们拼错单词了?是不是Google有一个词典的数据库?

实际上Google并不知道正确拼写,也没有预置词典数据库,Google是通过所拥有的巨大的互联网网页数据库分析当输入的单词为“siecnc”的时候,有多少人会对所提的问题“你要找的是不是:science”提供肯定的回答。Google的拼写检查系统不是微软式的词典检查,而是把每一个人的回答作为数据点进行分析。

如果按照传统的科学理论模式,Google的拼写检查系统首先要做的是学习词典,把所有的单词都学会了,然后再对输入的单词进行配对,当无法配对的时候,就认为这个单词是错的。这套模式被称为“理论假设-科学验证”的模式:词典所代表的单词库是理论假设的前提、而输入的单词与原有单词库的配对过程则是科学验证或曰实验的过程。

TED.com: Sergey Brin and Larry Page on Google

但传统“理论假设-科学验证”模式的问题在于:人拼错单词的可能性几乎是一个无限的集合 ,怎样才能最准确地通过拼错的单词找到用户想要表达的正确单词呢?Google的方法是,不找最准确,而找最可能的。

另一个问题则是在于人类是处于不断创造新词汇的动态过程中,词典的容量很难跟上单词数量的增加。以英语为例,美国“全球语言监测站” 表示,第100万个英语单词于2009年6月10日诞生,该单词是:Web2.0。

该网站所使用的确认单词正式地位的方法是:“当只有全世界60%的人正式使用某个单词,而且不同群体的人能理解这个单词,此时,这个单词才会有意义。比如只有在硅谷中工作的人才理解的某个新技术术语就不能算作是一个主流单词。分析采用的计算机模型检查5千个网站、辞典、学术出版物和新闻稿件,查看单词的使用频率。一个单词必须出现2.5万次才能得到认可,成为英语中的正式一员。”

这正是词典编撰人Erin McKean在TED演讲上所说,词典编撰人的工作并不是像交通警察一般判断好词、坏词、哪些词能成为英语、哪些不能够;而是更像一位渔夫把网撒到英语的浩瀚大海里,时不时打捞起一些令人欣喜的珍奇。

TED.com: Erin McKean redefines the dictionary
本站文章:《Wordnik:重新定义词典

Google所用的纠错模式,所遵从的正是Erin McKean的“打捞式”哲学:没有理论假设,在一个庞大的数据库中,用人们搜索的关键词与搜索结果选择的关联(correlation)作为分析的依据。

运用Google式的关联模式,Google 开发了语言翻译系统,实现语言之间同样是按照关联性进行分析。Google研发主管Peter Norvig曾得意洋洋地说:“在我们进行中文翻译系统开发工作的团队中没有一个人懂中文。”不懂中文怎么翻译呢?只要懂数学就可以了,通过计算数学的分析,可以找到数据间的关联性,实现机器系统的翻译。

Google的成功正是基于这套Google式的科学实现盈利。Google向人们提供免费的搜索服务,而收入则来源于每次人们输入关键词后在结果页面右侧的广告栏。通过搜索关键词的关联分析,Google可以为广告投放商准确地定位客户人群。Google实际上是一家广告公司。

TED.com: Chris Anderson of WIRED on tech’s Long Tail

《连线》(Weird)杂志主编Chris Anderson已经迫不及待地为Google式的“关联科学模式”加冕。这位“长尾理论”与“免费模式”的缔造者撰写了题为《理论的终结:数据洪流让科学方法过时》(The End of Theory: the Data Deluge Makes the Scientific Method Obsolete)。在文章中,Chris Anderson大声宣告:

“科学方法是基于可验证的假设。大部分的模型都是在科学家头脑中想象的系统,模型会被测试,实验会证明或证否关于世界运行规律的理论模式。这是科学数百年来的运作模式。

科学家的训练让他们意识到关联并不等于因果关系,简单地分析X和Y之间的相关性并不可以推导出结论。你需要的是理解X和Y之间相关性内在的机理,一旦有了理论模型,你就可以相信数据之间的关联性。没有理论支撑的模型只是噪音。

但是面对海量的数据,这个假设、理论和验证的科学方法已经变得过时…

现在有更好的方法。在拍字节(PB,2的50次方字节,约为千万亿个字节)的时代,我们可以说:‘关联就已足够。’我们可以不再需要模型。我们可以不需要理论的前提假设就对数据进行分析。我们可以把数字仍进史上最为庞大的计算机阵列,让统计算法找出科学无法找到的规律。”

克雷格文特正是这么做的:他的团队把巫师二号帆船在全世界海域每200英里就采样一次的海水样本进行测序,然后扔进计算机数据库进行分析,各种人类从未发现过的物种就源源不断地在计算机中显现,尽管克雷格文特都不知道这些物种长什么样子。

+ 科学4.0时代

Chris Anderson无疑是个典型的互联网时代赢家:用夸张的语言和概念的新意来修饰自己的观点,因而夺得众多的眼球关注。尽管关联性模式已经并将会继续成为一种研究模式,正如美国国家科学基金会所资助的“簇探索”项目(Cluster Exploratory),由Google、IBM和六所大学共同进行,建造超巨型的计算机簇群进行脑科学、神经科学和生命科学的研究。Chris Anderson认为如此巨大的计算能力将会提供关联性模式进一步超越传统“假设-验证”科学模式的机会。

但Chris Anderson关于“理论终结(End of Theory)”更像是一句广告口号,这个颇像尼采“上帝死了”或福山“历史的终结”的夸张而武断的表达十分适合成为杂志或报纸的头条标题。“关联性模式”的发展并不一定代表现在科学模式的终结,而更多是一种多元模式并存的时代,一个不同与前三次科技革命特征的第四次科技革命的时代:科学4.0时代。

正如法国哲人Lyotard 所说:“宏大叙事的时代而已终结。”单一模式已被多元模式取代:关联性模式与“假设-验证”模式并非你死我活的关系;在科学4.0时代,他们是一种共存的关系。

看看TED上的研究,亨利·马克莱姆(Henry Markram)在瑞士洛桑联邦理工学院(EPFL)所领导的“蓝脑计划”正是基于理论模型进行神经元的模拟以理解大脑新皮层的运作机理,马克莱姆的做法,是构建一个大脑模型,然后进行各种各样的实验验证。正是传统的“假设-验证”科学模式。

TED.com: Henry Markram builds a brain in a supercomputer

又如鬼才内森·梅尔沃德(Nathan Myhrvold)在TED演示的用传热模型做出美味的食物所依据正是分子美食学与传热学的理论。当然,我曾经看过一个关于微波炉的研究计划,通过连接互联网的微波炉,可以通过与你要煮食的食物相关的搜索信息,自动确定大多数人采用的微波功率与时间的加热条件组合,就是最佳的烹饪方案了。或许关联性模型的好处是,你不需要像梅尔沃德般有才,也不需要计算出一条与实测曲线拟合度为1.00的完美理论曲线,也可以用微波炉做一顿天下最美味的食物。

关联模式本来并非什么新事物。生命科学就常用梅尔沃德所用的相关性分析研究两个现象之间的关联性;社会科学上,马克斯韦伯就曾经用关联模式探讨经路德与加尔文改革后的新教伦理与资本主义诞生的关系。在TED上演讲过的Steve Levitt在他的著作《魔鬼经济学》中用关联性分析解释纽约犯罪率在上世纪末突然大幅度下降与堕胎法案通过的关系;而同样是TED Talker的格拉德威尔(Malcolm Gladwell)则在成名作《引爆流行》中用“破窗理论”解释过同一事件。按照“假设-验证”的科学模式,Gladwell和Levitt必定有一人是错的;但按照关联模式理解,两者可以共存:都与纽约犯罪率下降存在相关性。

关联模式的真正起源是18世纪的英国数学家贝叶斯所提出的以其名字命名的定理。简单来说,贝叶斯定理是指某件事情发生的概率大致可以由它过去发生的频率近似地估计出来。Google的计算模式就是基于贝叶斯定理。

按照贝叶斯定理发展的贝叶斯技术的吸引力在于简单性。预测完全取决于收集到的数据–获得的数据越多,结果就越好。另一个优点在于贝叶斯模型能够自我纠正,也就是说数据变化了,结果也就跟着变化。换言之,Chris Anderson所高呼的全新的关联科学模式,实际上也是一种“假设-验证”模式,理论前提正是贝叶斯定理;只不过这个前提是亚里士多德三段论中的大前提;而非一般科学研究中特点假设的小前提。

TED.com: Tim Berners-Lee on the next Web

互联网发明者蒂姆·伯纳斯-李在TED上谈到“关联数据”的概念,同时强调了互联网开放的重要性。而正是因为互联网时代的到来,才真正让关联模式变得现实:因为样本数量足够大,关联数据才足够好。

关联数据模式基于强大的计算能力。正如Peter Denning在他的IT人专栏中提及的:“计算是一门自然科学。” 计算不再是一门纯理论的学科,而是一门研究自然的学科。通过强大的计算能力与庞大的数据收集,可以挖掘出生命科学、物理科学与社会科学中存在的深层数据结构。

这些数据结构正是我们了解世界和自身所需要的信息。或许这解释了为什么科学巨匠牛顿在写下了《自然哲学的数学原理》这部划时代的科学巨著后,却开始信仰上帝了。因为自然万物深层结构所显现的数学规律性似乎可以表明:上帝是个数学家。

TEDtoChina signature

您可以通过RSS阅读器订阅“TEDtoChina”的文章:
http://www.tedtochina.com/feed/
欢迎发表评论,参与“TEDtoChina”的讨论组,或者在twitter上follow我们。

《[TED故事] 上帝是个数学家》有2个想法

发表评论

邮箱地址不会被公开。 必填项已用*标注