圣经真的藏有密码吗？(3)

正式反驳

　　事情演变到此，卓思宁似乎略居下风，但是这件事并没有完全解决，原因在于对原先魏茨滕等人的那一篇〈圣经创世记里的等距字母序列〉并没有直接的推翻。因为这三个人的确很用心在设计他们的实验，而且很仔细地做统计分析;而他们也认为卓思宁有些地方太宽松，做了一些统计不显着的结果。因此想反驳他们，一定要提得出道理，说明他们的作法到底有那里出了问题，否则光是用那些图表的方式或是拉姆西定理，恐怕还是没有办法让人心服口服;更何况芮普斯也一直表示，只有〈创世记〉里有圣经密码，想反驳这一点，也势必要回归到原先的这一篇文章来。

　　而经过同侪审核的期刊文章，还是要由期刊文章，而且最好是由同一期刊的文章来反驳，比较有公信力与说服力。1998年马凯与两位希伯来大学的学者，巴希蕾(Bar-Hillel)及巴纳丹(Bar-Natan)，首先在一通俗性的统计期刊《Chance》，针对魏茨滕等的文章做全面的反驳，里面没有太多技术性(统计)的探讨，但是描述了整个事件的来龙去脉，攻击言辞猛烈，并且宣称在《战争与和平》的希伯来文版，也可以发现密码，这跟魏茨滕等人的论文结果相反。接着在1999年，马凯等三人再加上希伯来大学的数学教授卡莱(Kalai)，在《Statistical Science》发表了一篇学术文章：〈解决圣经密码的疑惑〉(Solving the Bible Code Puzzle)，为《Chance》的文章提供了统计学上的依据。他们在这篇文章中表示，魏茨滕等人在1994年发表的那一篇文章有相当严重的缺陷，特别是实验的设计和数据的收集。有什么问题呢？这时就要回过头来看看，统计里对实验设计有哪些要求。

(一)实验设计与议定书

　　统计学中讨论实验设计时，通常都会提到：找寻最佳生产配方的工业实验设计，以及找寻新药的药物试验设计。关于后者，由于过去几十年来对临床实验新药的经验，学界和医界已经订立了相当严格的标准，这些标准的规范，都写在议定书 (protocol) 里。首先要知道，做医学实验，或药厂试验新药前，一定要先写议定书，而且必须在议定书批准后才能开始进行。通常议定书里必须写明实验的目的是什么，整个的设计是什么，又要如何执行。以下所列的十四个项目，是波克 (S.J. Pocok) 在《临床试验》(Clinical Trials) 中列举的：

(1)背景与一般目的(Background and general aims)。

(2)特殊目的(Specific objectives)。

(3)选取病人的标准(Patient selection criteria)。

(4)疗程(Treatment schedules)。

(5)评估的方法(Methods of patient evaluation)。

(6)试验设计(Trial design)。

(7)病人的注册及随机分配(Registration and randomization of patients)。

(8)病人的同意(Patient consent)。

(9)研究需要的数量(Required size of study)。

(10)试验进展的监控(Monitoring of trial progress)。

(11)表格与数据的处理(Forms and data handling)。

(12)协议的偏离(Protocol deviations)。

(13)统计分析的规画(Plans for statistical analysis)。

(14)行政责任(Administrative responsibilities)。

　　以下选出跟密码问题有关的几项，稍作说明。

　　首先，当然要说明实验的背景和目的是什么。魏茨滕等人的主要目的，是要证明上帝在〈创世纪〉里藏有密码。论文的特殊目的就是想证明，拉比的名字与其出生日期很靠近，并不是偶然的事件。

　　其次的几项与病人的处理有关，其中病人的选取对应到论文里拉比的选取。而魏茨滕等人是用什么标准来选取这些拉比的？这牵涉到许多事情，包括拉比名字的拼法，如何依此去估算出前面所提到的距离，其中的细节留待后面再叙。在医学实验里，如果选取的病人一开始就很虚弱，且并发症不少的话，那么即使药再灵，效应恐怕都不会很好;但是如果病人的病症很轻微，看来很强壮的话，那么「药到病除」和「不药而愈」的情况都有可能。因此病人和拉比的选取，会直接影响所有的分析结果。

　　再来是讨论试验的设计，而这关系到之后要如何做实验。例如魏茨滕是透过配对，以及对照实验的方法来进行的。对照实验是一种比较实验，除了处理因素(如药效或上帝预示)外，其它可能会影响实验结果的因素都必须控制得完全一样。所以魏茨滕等人利用《战争与和平》做对照实验时，采用希伯来文版，而且将字数选得一样多，就是这个目的。另外。有人可能听过「双盲设计」(double blind design)，主要是说，如果要实验两种可能的药物时(当然包括安慰剂)，那么除了病人本身不知道他吃的是什么药，免得心理作用之外，连医生也不知道病人服用的是不是安慰剂，以免医生因为知道病人「有吃药」的前题，而使诊断不自觉的倾向有效的判断，认为病人会因此变得比较好。因此双盲(或者叫双瞒)的主要目的，也是要求在实验的过程中，尽可能避开人为的偏见。而在对病人次序的编排上，譬如单数吃药，双数吃安慰剂等，也有可能产生这种不自觉的偏见 ⁵ ，所以有必要弄乱吃药者的编排(随机化)，使其不是顺着一个固定的模式进行。由于随机的安排，病人有可能因此没吃药。所以必须让病人事先同意整个过程。

　　还有，这样的实验到底需要多少病人，也是一个很有趣的问题。例如。魏茨滕的实验选了三十二个拉比，这样够不够？少一点是否也能证明相同的结论？或者为了周全，必须把整个百科全书里的人都选进来？这点很值得思考，表格和数据处理看起来不起眼，其实非常重要。例如许多表格常要填写出生年、月、日，而论文中拉比的资料只有出生的月和日，并不包括年，处理这样的资料时就要特别小心。此外，万一实验与议定书有所偏差时，例如应该进来的病人没有进来，需要的样本少一个时怎么办？诸如此类的事情，在议定书里都要表示清楚。

　　第十三项规定怎么做统计分析，这一项很清楚不用多说。最后是责任的问题。换句话说，这洋洋洒洒的十四项，其实只有一个目的，就是所有实验的进行，都应该是在严格的规范下操作的，否则很可能会出问题。

(二)针锋相对

　　了解实验设计后，再回过头来看看马凯他们的批评：第一、魏茨滕等人所用的统计方法，如果一小部分的数据稍微变动一下，就会很敏感。第二、最大的麻烦出在拉比的称呼，以及它的拼法如何选择上。以我们的现任总统为例，可以称呼他陈水扁，陈总统水扁，陈水扁先生或是阿扁，甚至还有种种别名，到底要选哪一个？在西方社会里，还有缩写的问题哩！

　　魏茨滕实验所分析的拉比，是根据一位名叫 Havlin的教授所准备的名单。但是另一位研究拉比的学者 M. Cohen却说，这种取法是没有科学根据的，完全是不一致的，而且是一个随意选取的结果。他同时也准备了一分名单。不过更好玩的是，另一位学者认为，这两分名单「一样令人讶异!」由此看来，光是名字这一部分，仔细推敲就产生很大的问题了，更何况犹太人对日、月还有各种不同的讲法，就如同我们有一月、正月和元月等讲法。所以在议定书里，诸如此类的规定就要事先制订好，否则就有很大的伸缩空间;一旦有了伸缩空间，解释就多，往往就无法控制了。但也有可能殊途同归，达到相同的结果。

　　因此，下一步要问的就是，假如真有这样的自由度可以发挥的话，它所产生的后果是什么？马凯等人依照上述的自由度，应用在《战争与和平》的版本上，把那些拉比的名字稍微变动一下，得到的数据结果却是 p <0.05。换句话说，《战争与和平》从没有显着的结果，变成有显着结果。

　　再来，就〈创世纪〉的实验来说，它原先的方法为什么是对的？是不是它的自由发挥得太过度了呢？马凯等人认为是的。而且他们还测试了很多小小的变动，譬如把出生的年分加进去、用别的称呼等，结果发现大部份的结果都变弱了，有些变得不太显着，有些甚至已经不显着了。种种现象，似乎指向作者对数据的选择，有固定的偏好，像是去挑捡一些特别的拉比，才得到这样的结果。马凯甚至表示，魏茨滕他们其实作了一些「调整」(tuning)。这种现象的另一种说法是「直觉的统计期望」。意思是说，当你知道一个现象的理论结果是什么的时候，做出来的实验结果往往就会是如此；因为有了这样的心理倾向，就会产生了一些自觉或不自觉的「调整」行为。所以受到这样心理影响的实验报告，就会过于完美，必须特别小心这样的结果是不是真的。

　　这一类的事件在统计界也发生过，其中最有名的，就是统计学家兼遗传学家费雪(Fisher)对孟德尔(Mendel)碗豆实验的数据所产生的怀疑。费雪甚至表示，当初孟德尔可能为了理论，调整了数据；原始的数据，不应该那么漂亮。不过还好，最后孟德尔的理论是对的。这表示，即使数据真的是制造出来的。结果也不见得是错的；但是实验的结果那么好，总会令人怀疑这些数据是被动过手脚的。因此调整的另外一个讲法，就叫「动手脚」。不过费雪的怀疑是有其理论基础的，因为这样完美的结果表示，它的结果是不允许抽样带来的合理误差。事实上，每个样本都会对应一个统计量，通常不同样本的统计量，彼此并不完全相同。就像用望远镜去量测天空中某个星球的距离，量测次数一多时，即使再怎么努力调整仪器，结果多少都会有一些起伏的。这种起伏就是抽样误差造成的，也有人归因于广义的噪声 (noise)。真正的度量难免会掺杂着噪音，而有噪音的数据，其所对应的定 p 值就不应该太小。而魏茨滕的 p 值小到 10^-6(百万分之一)，因而让人对于其数据的取得产生一些疑问。

(三)最后一击

　　最后，马凯等人又从历史的角度，再度批评了一番。由于目前这个《圣经》的版本，并不是一天定下来的，它与《孟子》、《老子》这些书一样，都是源远流传的，创作始于两、三千年前。以1947到1951年间，在死海的西北端发现的《死海古卷》来说，那是一个写在羊皮上，相当古老的的《圣经》原文，很可能是目前所知最古老的《圣经》书籍。书里的〈以赛亚书〉相当完整，还有很多〈创世记〉的片段，但大都是残卷。后来的《圣经》版本很可能是根据这些残卷再修正的，因此，经文如果有密码，这个密码也不可能从最原始的版本流传至今。因为经文在流传的过程，难免会经过删减和插增，如果先前定义的跃距 d 很小的话，选出的 ELS不变的机会就很大，密码就不会被删掉;可是如果 d 很大的话，只要中间删掉一个字母，就不再是一个完整的 ELS。例如，卓思宁在找出拉宾被剌这个密码时用的 d =4,772，在间隔这么长的字符串中，要保证没有被插入或删除实在很难。所以从文献流传的观点来看，也没办法保证密码不是后天造成的。

　　最后马凯他们下了两个结论。首先，他们认为这篇文章不是故意找一个检定方法来配合数据的。也就是说，并不是数据已经在那边，然后再故意找一个方法将推论做得很好。举例来说，如果要用平均值(方法)，来代表王永庆先生与笔者的财富状况(数据)，那么笔者当然就会显得很有钱，可是那个平均值一定不能代表笔者的收入，这个方法只是故意要造成笔者很有钱的结论。这就是所谓的，用方法来配合数据，虽然数据是客观的，方法却是为了产生特定的效果而制定的。马凯他们表示，目前这篇文章并不是这样的，它是透过拉比的选取，因而调整了数据来配合这个检定的。就像是前述王永庆和笔者的例子，把王永庆换成一位比他穷一点的人，再用一位比笔者富有一点的人来取代笔者，使两者间的收入差异不大，这时用平均值来做代表，自然就合乎统计的道理了。

　　第二个结论则是全篇文章的总结。他们认为并没有证据显示，有办法从 ELS找到密码。拉比的名字跟生日这些配对的安排相近与否，纯属机运。主编卡斯也对此做了响应，他在马凯等人的文章之前是这么介绍的 :「…正如他们所下的结论，这个谜题的确像是解决了。」《Statistical Science》似乎有意为这场论战谱上休止符，而不想再争辩下去了。