English

搜索引擎的过去与未来

2004-08-18 来源:光明日报 作者:钱峻英 我有话说

自“打击淫秽色情网站专项行动”开展以来,已有千余家不良网站被查处。这些被查处的网站,大多是由群众举报给“违法和不良信息举报中心”,然后再由该中心转交给公安部等执法部门,经这些部门查实后依法处理的。如果在日常上网时发现不良网站,我们能否自行将其封闭呢?光明网即将推出的“反黄先锋”,就能做到,其

中,“直达网址”搜索引擎起着至关重要的作用。

“直达网址”是一种新的网页定位技术,属于互联网搜索引擎之一,由青岛每步数码有限公司推出。它采用自然语言词汇作网址,如光明日报、光明网、2008年奥运会、每步数码等既是专用名称,又是其所有者开设的互联网站的网址。

“反黄先锋”基于“直达网址”技术,是一种能自动更新黄色网站数据库地址的、智能化的反黄网络软件。使用前,应先到光明网(www.gmw.cn)、中国反黄网(等网站下载并安装“反黄先锋”插件。以后,如果网民输入的网址系“黄色网站”,则电脑将自动弹出警告提示窗口,并阻止该网民继续访问黄色网站。由于“反黄先锋”采用实时更新与分析技术,记录了几乎所有色情网站的信息,并对新出现或更新变化了的黄色网站信息能在自行侦测或获得举报后,自动补充、更新“反黄”信息库,从而确保了拦截色情站点的即时性、准确性和个性化。从这场“反黄”实战,我们看到,即时性、准确性、个性化正成为互联网搜索引擎技术的发展趋势。

搜索引擎走过10年

搜索引擎是一种网民查询互联网信息的搜索型工具,通过为用户提供信息检索服务,起到导航信息的目的。它基于传统的全文信息检索理论,即通过扫描每一篇文章,对文中的每一个词建立排序文件,再根据欲检索词在每一篇文章中出现的频率、在一篇文章中出现的概率的高低,依序输出包含欲检索词的文章。互联网的搜索引擎由“蜘蛛”(SPI DER)系统、全文信息检索系统和检索结果页面生成系统组成,其中,“蜘蛛”系统负责自动搜集互联网网页的数据,并把搜集到的网页内容交给全文信息检索系统进行索引和检索处理,然后再由检索结果页面生成系统,将检索结果,自动形成互联网的页面显示出来。

雅虎是第一个搜索引擎产品。1994年4月,雅虎的创始人――大卫・费罗(DavidFilo)和杨致远(JerryYang)建立了自用的网络指南信息库,以记录他们个人对互联网的兴趣。不久以后,他们将雅虎变成了一个可定制的数据库,以有效地查找、识别和编辑互联网上存储的资料,帮助那些刚刚使用互联网的用户。今天的雅虎,已链接了数千万台互联网上的计算机。

中文搜索引擎已经历了10年的发展。1994年4月,中国科学院物理所首次接入互联网;此前,中国台湾、香港地区已接入互联网。此后,两岸三地的中文搜索引擎得到了快速发展,内地的代表作先后有天网、搜狐、网易、新浪、百度等,港台有Openfind、奇摩、茉莉之窗、网上行、悠游等。自2000年以来,国际大型搜索引擎公司纷纷进军中文搜索引擎市场,最引人注目的是2003年末,雅虎以1.2亿美元收购3721科技有限公司。

2004年前,3个方向的搜索引擎曾受人关注,一是通过分析网上的超链接结构,为网民提供更为准确的、与欲检索信息更加相关的内容,如Google;二是分析用户的点击行为,将分析结果提供给委托/订制者,如DirectHit(2001年被收购);三是与门户网站的目录相结合,使用自然语言、开展本地化的个性化搜索服务。就目前情况而言,Google在商业上获得空前成功;而本地化的个性化服务,至今仍处于探索、实验阶段。

商业需求是加速嚣

2002年,全球搜索引擎产业的年收入为20亿美元;但同期英国的一份调查报告显示,只有5年历史的Google公司,市值已高达250亿美元。

2003年,中国搜索引擎市场的年收入为5.2亿元,比2002年增长了127%。上海艾瑞市场咨询公司预测,2004年将达到8.8亿元,2006年会突破24亿元,年均增长率在60%―70%之间。有专家称,2008年,中国搜索引擎市场的年收入应超过100亿元人民币。

艾瑞公司的市场调查显示,93.1%已使用过搜索引擎的企业,仍会继续使用搜索引擎开展营销工作。另有调查显示,84.6%的中国网民,通过搜索获取所需信息。这些数据表明,搜索引擎越来越被企业看中,并具有很大的市场潜力。搜索引擎被企业看中,彻底改变了搜索引擎的赢利模式,加快了搜索引擎“即时性、准确性”的发展速度。其主要原因有:企业的每一个关系到品牌形象、产品的信息,都需要迅速、准确地传达给公众,尤其是该企业的用户及其潜用户群,但成本不能高。而基于搜索的广告,非常符合这一要求,它只会显示给检索该企业、品牌或产品名称的目标用户群,并且按用户群对广告的实际点击情况付费;通常,被点击率在3%以上,就算成功有效地解决了传统广告有效到达率的难题。

另外,商业需求也促使搜索引擎“个性化”发展。商家需要开发新的市场、找寻新的用户,而搜索引擎个性化的核心,就是通过跟踪分析网民的搜索行为,找出其某段时间内的高频检索词,即其关心的内容,然后由搜索引擎主动地将与高频检索词相关的信息,推送给网民,以提高网民的搜索效率,而有关商家也会利用这种主动推送方式,将其最新的技术、产品等商业信息,展示在网民眼前。

未来发展走向智能化

即时性、准确性、个性化,是搜索引擎的发展趋势,但他们应建立在专业、智能、多媒体搜索的基础上。

随着互联网信息量的爆炸式增加,以及网民总量的持续增长,细分信息类型与网民需求是提高搜索效率的有效手段之一。细分信息类型,即建立专业型的信息索引数据库,专门收录某一地区、某一行业、某一主题的信息,按网民需求储存在相应数据库中,方便网民进行各种查询,这种查询应以实用、快捷、准确著称。

提高搜索的准确性,智能技术不可少。网民来自不同的社会环境,往往不同的字词,代表相同的事物,如国内“京城”即指“北京”,当网民用中文检索“北京”时,智能技术则会依需确定是否检索或显示有关“京城”的信息。再比如,一个北京网民正在浏览家装类信息,他输入的检索词是“鸿利博雅”,那么,应用了智能技术的搜索引擎,则会仅显示“鸿利博雅”在北京的家装信息,同时自动滤除“鸿利博雅”的其他信息。总之,搜索引擎的智能化,一要能理解搜索请求,二要能分析网页内容。前者要对用户的查询意图、兴趣方向等进行推理、预测,后者应为网民提供有效的答案,以确保智能技术既不“漏检”,也不“泛检”。可见,对自然语言的理解与搜索,只是智能化的一个方面。智能搜索引擎的主要特征是基于知识或概念层面的检索,而目前的信息检索还基于关键词层面。智能搜索引擎应对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等,具有信息服务的智能化、人性化特征,能为网民提供更方便、更确切的搜索服务。

随着宽带的普及,互联网将进入多媒体时代,目前,可查寻图像、声音和电影的搜索引擎已经出现。未来的搜索引擎,将能以人机对话的形式,在专业、智能、多媒体搜索的基础上,为网民提供即时、准确的个性化服务。 (作者单位:北京信息工程学院)

[值班总编推荐] 以劳动谱写时代华章

[值班总编推荐] 青年的朋友习近平

[值班总编推荐] 让青春在科技创新中焕发更加绚丽 ...

手机光明网

光明网版权所有

光明日报社概况 | 关于光明网 | 报网动态 | 联系我们 | 法律声明 | 光明网邮箱 | 网站地图

光明网版权所有