English

数字图书馆:一项全新的事业

2006-09-01 15:55:00 来源:书摘 〔法〕让一诺埃尔•让纳内 著 裴程 译  我有话说

一个雷鸣般的宣告

我们获悉,目前世界上最通用的电脑网站搜索器拥有者――美国的Google公司,计划用六年的时间,将一千五百万册、共计四十五亿页左右的印刷书籍数字化。

G

oogle的创始人赛吉・布林和拉里・佩奇当日在他们加利福尼亚的山景城总部大张旗鼓地宣布了这条消息。我们同时获悉,斯坦福大学和密歇根大学已分别和Google签约,同意将它们各自图书馆藏书交给热诚的企业家们,由他们负责扫描并在互联网上传播。就是要在网上无偿地提供所有不受版权保护的书籍,以及部分地开放1920年以后出版的书籍的数字版本。另外三家颇有声望的图书馆也在不同的程度上参与此举。著名的哈佛大学威德纳图书馆和纽约公立图书馆都已承诺,将给这个宏图大业提供上万册书籍。据悉,牛津大学的伯德雷恩图书馆也将为此计划提供所有馆藏1990年以前出版的书籍。

随着新技术的发展,人们不禁梦想有朝一日,可以把人类千百年来积累的知识财富一览无遗地向所有的人敞开。但同时也不免生出一丝疑虑。面对如此一个认识领域所期待的庞然大物,我们无论如何必须首先关注其整体框架的问题。一大堆杂乱无章的信息是毫无意义的。

包罗万象的图书馆是不存在的。选择自古有之。自从谷登堡以后,人类大致印刷了一亿册书左右(我只指西方世界)。Google预计的数目虽然惊人,但是和整体相比,也不过沧海一粟。所以我们不能不考查被选书籍,以及决定选择标准的问题。

使用过Goole的人都知道,在它提供的信息资料中,主次排列的次序是关键。即使搜寻的结果可以洋洋万言,浏览者往往只停留在头几页。选择的动机当然是非常重要的。这里就同时涉及到两种不同的动机:文化动机和商业动机。一方面是来自精神氛围对选择、排列次序和检索等方面决策的影响;另一方面是对利润的追求而必然导致的商品化的挑选。

到目前为止,法国几乎是惟一一个有计划地把为数众多的专著完整地数字化的国家。1988年7月14日,密特朗总统在其顾问雅克・阿塔利的建议下,提出了“特大图书馆”的宏伟计划。法国国家图书馆已经把自己库藏的八万多种书(外加七万多种图片和几十个小时的声像)载入了以Gallica命名的数字图书馆,以供全世界的读者在屏幕上阅读或打印。而且我们还在不断地增添新内容,以满足更广泛的需求。我们的选择既要有收藏价值,又要符合百科全书的原则。其内容纵贯古今,包括专著、期刊、经典或非经典性著作、辞典、参考书目和各类工具书、学术团体出版物。此外还有以主题分类的多媒体资料集成,比如“法国之旅”、“意大利之旅”和“非洲之旅”等等。

你要读莎士比亚于1603年第一次出版的“哈姆雷特”吗?您只要在英国国家图书馆的网站上点击“Treasuresinfull”栏即可。您需要查找1805年某日芬兰的报纸吗?赫尔辛基大学图书馆的网站正等着您,把您所需要的期号显示在屏幕上。如果您对有关埃及和努比亚的文物的注释条目感兴趣,请把您的鼠标点向“东方和地中海研究所”的网站。凡此种种,举不胜举……

由欧洲十所国家图书馆加盟的欧洲国家图书馆网站(简称“Tel”,即“TheEuropeanLibrary”)新近建成。它的使命就是建立并不断更新一个数字化资料的清单,提供各类目录和建立目录间的联系。众多的博物馆、档案馆(法国档案馆和加拿大档案馆最近联合开办了它们共同的网站)、大规模的国家级文献图书馆大学图书馆都提出了类似的跨国界的计划,并还在不断地扩展这些计划。数字文献园地正出现一个百花齐放的局面。其中不仅有印刷出版物,而且也有其他形式的历史和文化的特定见证:版画,古代图书,宪章和公约,钱币和徽章,乐谱,照片,口述档案,音响资料,等等。

印度和中国已经制定了一百万册书数字化的计划(《百万册书计划》),目前至少有五万册书已经上网。参加合作的有两国的政府部门、研究所和大学。在印度,已经有近二十个数字化中心展开工作。在全国公认的十八种文字中,有十一种文字的出版物被数字化中心扫描。在中国,政府在这个领域里也起着相当积极的作用,它既促动了文化的飞跃,同时也加强了监控。至少有10%的网站在其严格监控的范围内。

值得一提的是,这些计划得到了好几家美国基金组织的鼎力资助和技术咨询服务,比如互联网档馆和卡内基・梅隆大学。和Goole不同的是,这些组织和机构的目的不是寻求经济回报(法国国家图书馆也得到梅隆基金会的资助,完成了馆藏的敦煌文献的数字化工作)。

书本将继续存在

每当一种新型媒体问世,总是会有灾难的预言家和悲观的信徒们宣告前一种媒体不可避免的灭亡。在七月王朝时代,出版界上层就对大批量印刷的大众化报刊反感并忧心忡忡。在两次世界大战的间隙,报界又对电台的崛起而感到恐具,以至于许多报刊拒绝电台在本报纸摘要节目中引用自己的内容。到了20世纪50年代,随着电视的发展,又有许多人出来预言电台的未日。却不料电台因半导体收音机的发明而得救。在我于1984年到1985年任法国电台主席期间,曾有人告诫,电视新推出的早晨节目,会把电台黄金时段的播音逼上绝路。我至今耳边还回响着这些危言耸听的预告。然而事实怎样,人所共知……

在每一次变革的关头,总会出现一些不祥之鸟的鼓噪。他们既无视社会实践和文化行为的多样性、各种观点错综复杂的胶合,也不懂得这样一个明显的道理:人们往往会借助新的信息渠道,重新认识并由此返回到一个以前比较陌生的传统载体。我敢断言,众多的网上读者会被带回最传统的书本中去。

互联网很可能会让许多因稀有、难懂或被遗忘而冷落在书架里的书重现于世,使它们重新得以进入公众阅读的领域。将来一定会出现根据需求按原样单个印刷和装订图书的服务(法国国家图书馆就有根据读者要求,把不受版权限制的音响资料印制成册的计划)。我们可以期待,小批量地再版旧书的服务会繁荣兴旺。因为现在的印刷技术为此提供了方便,而且电脑操作的介入也使此类服务获得完善和多样化,从而促进这方面的需求。根据法国国家图书馆的Gallica数字书库统计,许多读者在网上阅读后,都会在网上或传统的书店里购买自己阅读过的书籍(新旧不一)。

可以想象:油画、照片、素描、图册、雕版等等艺术作品,通过数字化形式大量传播后,必然提高人们对原作的兴趣,这是前所未有的。艺术作品的魅力只能因此而增加,就我所知,马尔罗曾经梦想的“想象博物馆”,非但没有减少展览的观众,相反,在欧洲,尤其是在法国,它使观众的人数翻了几倍。

一册在手之便、触摸书本的喜悦、直接感受原作的裱装和气味等,这些是人之常情。但是四五年前,一些人却看不破这一点。他们热衷于“e-books“之类的、只供屏幕阅读并可以充值下载内容的电子书,结果损失惨重。他们的失败(至少暂时如此)令人瞠目结舌。或许将来,这一类发明会不再受某种特殊工具的限制,以另一种形式重新再现(我们的数字图书馆Gallica就经常被如此应用和下载)。但是我绝不相信所谓的电子书会取代我们书架上的书籍,现在不会,将来也不会。

时常有人报怨:“与其劳民伤财地建造一个所谓的特大图书馆来收藏这些没有的废纸,不如耗巨资把一切都数字化。”对这种观点,我只能?之以鼻。因为两种选择并不是非此即彼。一个文明必须同时在这两条路上前进。密特朗总结提出的建设“特大图书馆”的倡议和数字化的号召,代表了图书馆的现代化发展趋势,并促进了它的进程,同时,如所周知,他热爱书本,我甚至可以说他对书本有着一种爱恋般的情感。

我们需要图书馆员和书商

我们由此可以推断,图书馆员和书商们大可不必担心自己的行业会消失。

在未来,图书馆员的社会和文化职能将更广泛。长期以来,

他们一直在给杂乱无章的书籍分门别类,以便引导读者找到自己所期待的、深藏在各类浩翰的信息和载体背后的真知。随着数字资料的产生,这个基本职能将会起到更重要的作用。

至于“传统意义”的书商,我认为他们也应该对自己的未来充满信心。当然,他们必须适应新的环境,在浩翰的书海里进一步加强自己作为向导和代言人的地位。不确实的、带偏见的、荒诞的信息在网上层出不穷。这就更需要一种有图书馆员和书商参加的机构给予审定。把书籍拆散,根据搜寻器的点击标准分别确认,并不是最好的读书方法,书必须一页一页地去读,去领会,去积累。但是Google到目前为止,它所关心的只是页张,而不是把书作为一个整体处理。显然,那些仍然受版权保护的书籍是不可能被完整地再现网上的,在网上只能看到它们的节选。如果你查找‘南特+监狱’,你将获得数以千计的‘点击’。在所有这些‘点击’中,可能有一两条和这本书有关。即使你有幸找到它们,又能派什么用场呢?再比如你找到这样一段引文:‘1874年,南特的监狱里没有杀人犯’……而且还附出处。其实毫无用处。如果你不对你所需要的书作大量的补充查询,那么就会面对在网上找到的几句引文无所适从。这些所谓的信息一旦脱离了上下文就没有任何意义。图书馆员们要不遗余力地告诫社会:知识的大厦是一个整体,它需要全面、综合地构建,而不是包罗万象的凌乱堆砌。

铺天盖地的广告

Google的策略并不是像其他报刊杂志那样在页面里加广告带。Google发明了一套独特而精明的做法,它把出售的广告链接安排在屏幕的右上方,根据屏幕左方的搜寻结果而配置。由于这些广告链接是根据读者的兴趣投其所好,所以吸引读者注意力的机遇就大得多。

这一项业务以拍卖的方式出售。Google利用发行数字版图书的便当,有偿地给某些公司企业作宣传。这种方法必然导致发行书籍的主次排列受广告效益的支配,以最高地满足出资者的利益。

让我们来考察一下这种合同的不平等因素。图书馆以保护文化遗产为使命,慷慨地提供数字化的原料和数字发行所需的精神内容,利润则属于私营企业。表面上看,GooglePrint免费提供服务,但这只是一个假象。因为,借助网上阅览带来的广告价值,它实际上在变相地出售这些不属于自己的书籍的使用权。此外,Google期待数字书阅览会给它各方面的服务带来更多的网民,总体上提高自己的广告价值。

  哪些书排在首位?

这实际上是最大的问题。因为它涉及到GooglePrint搜寻器如何排列搜寻结果的主次,恰如铁屑受磁石吸引一样,受优待的总是那些已经被人熟知或已经有读者群众的书目,而且这个趋势会日益强化。

主次排列的建立遵循一定的计算规则,用大众化的语言来说,这是一个对搜寻结果作页面排列的自动化操作。它建立在什么原则之上?这是一个技术机密,就像可口可乐公司不对外公开它的基本生产原料的配制一样。但是人们知道,Google的排列原则主要(当然还有其他因素)根据每一页包含的链接数量;不仅如此,这个数值还要根据每一链接自身包含的其他链接算平均值――这样的连环链接可以数十亿之多。另外似乎还有一个参照系数,就是搜寻的词句在一页里被提到的次数。

最近一位美国教授朋友告诉我,如果他要找一句克莱特关于巴赫的评语,只要在Google搜寻器里打进“GoletteBach“,就可以很快找到他需要的引言。没有问题,这是一个很便利的咨询站。但是他接着补充说:“假如我要更泛泛地提出一个较复杂的问题,比如民主是否促进平等,那么我就要浏览成千上万页的搜寻结果。”在此,理解主次排列的标准就变得至关重要。既然Google根据阅读的次数和链接的寡众来排列搜寻结果,那么搜寻器最熟悉的网页也就更容易被其他网民的链接寻取(依照“越是有钱就越容易借到钱”的常规)。可以肯定,本来就占优势的网页会越来越占优势。长此以往,在Google描绘的监图里,互联网的重心必然日趋缩小一个极有限的区域。

这么一锅大杂烩将不断地在Google巨大的世界锅炉里提炼。这种“Google舞会”(这个称呼挺雅致)至少一个月举办一次。它要求越来越复杂的计算,所以也需要越来越大的投资。

这种方法虽然比简单地记录阅读次数(否则就给舞弊行为洞开方便之门)复杂些,但是人们不难看出,它实际上还是一种使成功者更成功的方法。受害的当然是创新的、少数的或奇特的作品。总的趋势是缩减搜寻的深度,销毁持久性,这显然是对文化很不利的。

要保护那些我们明知在市场竞争中受威胁的自由权。比如:“发行量小”的作家的自由权,小本经营的出版商的自由权,少数民族的语言和文化的自由权等等。

也要谨防潜在的查封的可能。从现在起,Google就开始酝酿如何根据某某使用条例,在搜寻结果中取缔它认为不符合资格的网站的问题,Google可以拥有这类网站的信息,但是在搜寻器上却无法找到。

图像模式、文本模式、元数据

谈论数字化的问题,图像模式和文本模式之间的取舍和选择值得慎重考虑。图像模式是对原文一成不变的扫描复制;文本模式在目前尚需要重新作电脑输入,或者在严格的质量检验的条件下,对扫描文本作自动电脑处理。文本模式的费用通常要比图像模式的费用高八到十倍。

两种模式的选择应以原文的性质而定。比如报纸,显然用图像模式扫描复制而有意义。因为版页、文章的位置、标题、版面的大小等因素和一篇文章的内容几乎同样重要,它们有助于正确认识一篇文章的实际意义。

关于这个问题,似乎Google采用一种简化的文本模式,既不能下载,也不能加注,实际上Google不排除两种模式混合使用的可能。

所谓元数据,就是那些不属于原版形式,在互联网版上补充加入的比如标题、作者、参考资料等。就是建立一个目录所需的内容。人所共知,一本书若在书库里放错了位,那么就等于不存在了(这就是那些让我们的读者听了就头痛的“缺失”);在网上,侥幸也是同样不存在的。给每一个资料补充一个内在标记结构,使其各种用途扩展到最大的限度,例如读者加入自己的评语,各种注释、引文、参照……

元数据是在把一个文件复制成电子版本时添加的,它们提供和文件有关的各种不同性质的信息。有些用来描述文件,类似传统书目中的条目,包含题目、作者姓名、各种参考数据。这些数据参照图书馆界长期以来建立的分门归类体系(最著名的属杜威分类系统)或者是某些关键词系列。另一类数据用来管理文件,比如和法律有关的信息,以便更好地管理作者、译者和出版者的权利。还有一类数据和文件的内部结构有关。最后一类数据记录有关电子资料的技术特性。

假设“图像”和“文本”两种模式之间的差距逐渐缩小(这绝不是什么想入非非),耗资较少的图像模式不久将会得到新的技术突破。所谓光学字符识别的技术(英文缩写OCR)就是对扫描文件作自动分析,并建立索引和查找工具,以便在上下文关联中确认主题词或关键词。

必须时刻注意协调好“简单必”和“复杂性”之间的平衡,在日常生活中,我并不想知道我的电脑内部是怎样运行的,这和我想不到打开汽车机盖看个究竟是一个道理:只要能启动就行。

(摘自《当Goolge向欧洲挑战的时候》,北京图书馆出版社2006年5月版,定价:16.00元)

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有