English

数字的“妙用”

2009-05-30 来源:光明日报 作者:李文 我有话说

■学者随笔

20多年前,我在南开大学教社会学,曾在课堂上对同学讲,对任何统计数字的使用,事先都应该认真加以审视与核实。为证明“缺少原始数据的百分比令人生疑”这一论断,我最爱举的一个例子是:美国霍普金斯大学开始接收女学生时,一个不赞成异性同

校的记者做了一个惊人的报道:霍普金斯大学1/3的女学生嫁给了该校教师。一时舆论哗然。后来,另有一位记者到该校摸清了真相:该校总共有3名女生,其中1人嫁给了老师。事例很好,同学也爱听,却忘记典出何处,成为多年埋在心中的一桩憾事。最近在书店看到了达莱尔・哈夫的《统计数字会撒谎》一书,勃然心动,买回家后,仔细阅读,果然在该书的第135页发现了相关记载。

《统计数字会撒谎》是一本给人以智慧的书,不仅有益于从事研究工作的专业人士,也能帮助一般读者提高辨别是非的能力。书中一一戳穿了为达到某种目的巧妙使用统计数字的种种把戏,让人拍案叫绝。

有个笑话说,一位中国皇帝为了掩盖自己多吃多占的事实,曾拿数据说话:后宫佳丽三千,太监也三千,因此并不违背一夫一妻原则。看了《统计数字会撒谎》后,你会发现,“官出数字、数字出官”,美国也是古已有之。哈夫指出,在美国,每隔4年,不完全匹配的数据就会出现一个兴盛期,并非因为这种数据存在自然波动的特性,而是因为每4年有一场竞选。许多政客的竞选纲领,都是完全建立在看似相互联系但实际上却毫无关联的数据之上。例如,共和党就声称:1942年该党的杜威竞选州长前,一些地区教师的最低年收入只有900美元;而到1948年,由于杜威当政有方,纽约市教师最低收入水平提高到2500~5325美元之间。这个前后比较的把戏,其奥妙就在于一些未被指明的因素加入到过程中。以前只有900美元,现在已在2500~5325美元之间,的确有了长足的进步。但实际上,前者是该州所有乡村地区的最低收入,而后者却是纽约市的最低收入水平。在杜威执政期间,教师的收入水平可能有所提高,但也可能并没有提高。

改革开放之初,我一学者到美国访问,见到报纸刊登这样的广告词:“参加海军,周游世界”,对美国海军招兵时不提保卫祖国,而是把游玩作为诱人手段的做法,深感惊诧。其实,美国海军招募新兵的花样远远不止于此。《统计数字会撒谎》中就指出:在美国与西班牙交战期间,美国海军的死亡率是9‰,而同时期纽约市居民的死亡率是16‰。后来海军征兵人员就用这些数据来证明参军更安全。数据的确不虚,但问题在于,这两组对象是不可比的。海军主要由那些体格健壮的年轻人组成,而城市居民包括了婴儿、老人、病人,他们无论在哪儿死亡率都比较高。这些数据根本不能证明这一点:符合参军标准的人在海军比在其他地方有更高的存活机会。

斯蒂格利茨等人曾指出:市场中卖方比买方更了解有关商品的各种信息,因此比买方更处于有利地位。的确,买的没有卖的精。商家公布出来的数据,可信度同样很成问题。我们日常所听到的诸如“跳楼”、“吐血”大甩卖,多是虚假信息。此外,商家还惯于出一些让你意想不到的招数。《统计数字会撒谎》中就讲了一则故事:美国政府要求商家在制作兔肉三明治时,兔肉所占的比例不得低于50%,而当人们询问一街头小贩的兔肉三明治卖的价钱为何如此便宜时。“哦”,他回答道:“我当然得掺一些马肉,但我的比例依旧控制在一比一:一匹马,一只兔子。”这使我想起了一些亲身经历:超市里搞促销,说“买一送一”,结果却是买一瓶名酒送一支牙刷,或是买一特大瓶酒送一特小瓶酒。

众所周知,只有当差别有意义时才能称之为差别。但《统计数字会撒谎》的看法是:商家为了赢利,在没有差别的地方也会找出差别来。例如,老黄金香烟公司就利用一个“毫无价值”的统计数据大赚了一笔。事情是这样的,《读者文摘》曾聘请了一些实验室人员对不同品牌香烟的烟雾展开了分析。杂志刊登了最终结果。在详尽的数据支持下,该杂志声明:所有品牌的香烟烟雾中尼古丁以及其他有害物质的含量都是一样的,无论你吸的是什么牌子的香烟,不会有任何差异。但老黄金的老板却从中发现“玄机”:在一长串具有相同有害物质的品牌名单上,总有一个排在最后,这就是“老黄金”牌香烟。于是,电报漫天飞舞,大幅广告以最大的字体刊登在报纸上。广告的标题和副本仅仅提到,由一家国家级杂志主持的实验证明“老黄金”牌香烟在不良物质以及尼古丁含量方面“排名最后”。任何关于各个品牌的差异并不显著的文字甚至是暗示都被省略了。

有时商家会采用严重有偏的样本,而这样的样本几乎能够产生任何人需要的任何结果。哈夫写道:“只要样本容量足够小,或者你尝试足够多的次数,正确的随机样本也可以达到理想效果。”“用户反映使用多克斯(Doakes)牌牙膏将使蛀牙减少23%”,大字标题历历在目。你希望减少23%的痛苦,于是接着往下读。你发现这些结论出自一家信誉良好的“独立”实验室,并且还经过了注册会计师的证实。其实,被测验的用户仅有12个。多克斯公司让这12个人连续记录6个月的蛀牙数量,之后一定会发生以下三种结果中的一种:蛀牙明显增多、明显减少和没有变化。如果是第一种或第三种结果,该公司就会将其束之高阁,然后重新试验,直到有理想的实验结果问世为止。

如何使用数字,对学者也是一种考验。前些时日,有两位年龄还都不算大的学人,在学术成果的数量上做文章,其中一人称他已经发表学术论文200多篇,另一人更是了得,“已公开发表学术论文2000多篇”,而细究起来,他们所谓的“学术论文”,绝大多数都是报纸上发表的“豆腐块”,甚至包括电台和电视台的采访,和“学术论文”根本就是两回事。这样的做法,是否属于学术不端?还望学界同仁不吝赐教。

(《统计数字会撒谎》,达莱尔・哈夫著,廖颖林译,中国城市出版社2009年,28.00元)

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有