攀登智能识别之巅

2009-09-07　来源：光明日报　作者:本报记者张凌云我有话说

如何让计算机认识人、认识字、认识图,而且不会认错,这个中华文化在现代新技术条件下传承发展的难关,被清华大学丁晓青教授带领的智能图文信息处理研究室攻克了。他们赋予了计算机与人相似的“识图认字”能力与“视觉感知”功能,成为世界这一领域的领跑者。

攀登智能文字识别之巅

2008年,有一套大型出版物问世:总计19亿汉字,全套132卷,这就是《人民日报图文电子版缩印本(1946―2006)》。它的文字量远远超过约8.9亿字的《四库全书》,而电子版却凝缩在19张DVD光盘中。这是由青苹果数据中心应用丁晓青教授自主研发的“THOCR基于识别的原文重现系统”历时5年制作完成的。

丁晓青拿出其中一本告诉记者:“它是经版面分析、识别、理解,最后自动精确重构为原式原样的标准格式电子出版物,实现了文本和版面数据的双平台阅读、检索、下载和打印功能。”青苹果数据中心在清华大学文字识别技术的支持下,已经完成几百种报纸、文献、杂志的数字化,覆盖中日韩文,达3500亿万字。

上世纪80年代,汉字能否进入计算机成为关乎中华文化传承的大问题。“当时形势非常严峻,如果不能实现这个突破,就只能使用拼音。我们中华民族的五千年文明,难道要在计算机时代败下阵来?”责任心的驱使,让丁晓青走进了文字识别这一领域,一干就是20多年。

汉文字识别之难,莫过于让计算机认字,而且保证它不会认错字。当时的研究者往往采用提取汉字笔划的结构识别方法,但是,笔划提取和结构描述十分困难,有限笔划和特征的汉字描述,无法获得必要的识别信息量。字型一旦出现细微差别,固执的计算机就会翻脸不认“字”。

在经历了拆笔划识别算法等尝试后,丁晓青独辟蹊径,提出模式识别信息熵理论,最早成功解决了多字体印刷汉字识别这一难题。简单地说,就是让计算机通过图像来进行“全局性”认字,就和我们认字往往凭借视觉的感知一样,让计算机也懂得通过对文字整体结构的判断来认字。多字体印刷汉字识别系统获1992年国家科技进步奖三等奖。

随后,他们研发了高性能的综合集成(印刷、脱机手写和联机手写)汉字识别系统,获1998年国家科技进步二等奖,居于国际领先水平。难度最大的手写文档――如手写报表、支票、信封地址,以及数码相机拍摄的文字,都可以被计算机成功识别。高性能东方文字(中日韩)文档智能全信息数字化系统,获2003年国家科技进步二等奖,在国际竞标中夺标,授权美国微软公司推广使用。

丁晓青总是说,科研成果不应束之高阁,而应在实际应用中大显身手。自1992年以来,他们的研究成果迅速产业化。TH-OCR系列软件产品已在自主版权软件出口、增值税发票防伪识别、电子出版物制作上发挥着重要的作用。其中,防伪税控识别系统应用于全国数万税务局、50万企业用户,有效防止了税收流失。

神奇的人脸识别认证

在丁晓青的工作室,她展示了主动视频人脸检测―跟踪―识别监控系统。当摄像头对准记者的时候,屏幕上会出现“stranger”(陌生人)的提示;当对准丁教授时,屏幕上出现她的名字和基本信息。

人脸识别系统是这个团队多年的心血结晶。它能适应人脸姿态、表情、饰物变化,包括人脸检测、眼睛定位、姿态估计、活体检测、三维人脸识别和人体跟踪。2005年6月,集成了丁晓青研发的TH-FaceID人脸验证系统的“旅客自助查验通道”在世界第一大陆路口岸深圳罗湖口岸投入使用。目前,深圳、珠海、北京、上海、广州等地的边检口岸共已开通了400多条自助通道,验放旅客超过2.5亿人次,通过率98%,通关时间小于5秒/人。此举节省了大量的人力物力,实现了旅客通关的自动化、电子化和人性化,是世界人脸识别技术大规模成功应用的范例。

目前,我国在人脸识别领域的研究已达到了国际领先水平。在2004年国际模式识别会议组织的国际高水平人脸验证国际评测中,清华大学研发的TH-FaceID,以全部三项评测均第一,测试误差低于第二50%的极大优势,获“全面性能最优成就”奖。他们研制的人脸识别系统参加国际工业界最权威的人脸识别测试FRVT2006,也取得了国际领先的成绩,是全部性能优于人眼认证的领先算法。

说到人脸识别技术的应用,丁晓青说:“凡是需要身份认证的地方都可以利用该技术。人脸识别技术可以代替用账号、密码登录计算机的方式,用户只需在开机后看一下摄像头,经识别认证就能成功登录了;过海关不再需要专人来查验护照,只要刷一下卡,看一下摄像头就可以了;另外还可以利用人脸识别技术查身份证的真伪、嫌疑犯查询、公共场所敏感人物监控。”

人脸识别远程监控报警系统等已经成功应用于北京、天津、石家庄等地铁路公安系统、ATM机监控系统、北京和西藏等机场、安全系统、技防系统以及2010年上海世博会筹备工作,即便被识别者采用了戴眼镜、贴胡须等易容手段,系统也能准确地判定识别。

首创多民族文字识别系统

我国的少数民族文字字形不规则、连笔书写,文档的切分识别遇到极大困难。据丁晓青介绍,少数民族文字信息化的困难主要集中在利用智能化模式识别技术解决文字和文档自动计算机输入问题。让电脑认识少数民族文字,通过扫描仪把大量的蒙文、藏文、维文等民族文字输入电脑,变成可以任意编辑、多次复制和能在网络上快速传播的电子文档,这是少数民族文字实现信息化的关键。

这有相当大的难度。由于民族文字信息化基础薄弱,有的民族文字的基本字符集合和字符编码标准尚不完善,相关语言资源库较为匮乏,在收集用于训练识别器的字符样本、用于测试的标准实际文档样本库、以及用于建立语言模型的语料库、词典库方面都要付出更多努力。

历时8年,历尽艰辛。在丁晓青团队的努力下,计算机终于能够认出在我们看来像“天书”一般的少数民族文字。丁晓青提出的蒙藏维哈柯朝多民族语言的、基于不同字符基元的切分和基元统计识别方法,解决了困难的多民族文档识别问题,实现了统一支持汉、英、日、韩、阿、蒙、藏、维、哈、柯、朝等主要文字文档识别综合系统。他们研制的“统一平台民族文字(蒙藏维哈柯朝)文档识别系统”获2008年“钱伟长中文信息处理科学技术奖”一等奖――中文信息处理领域最高科技奖。该系统实现了将蒙古文等六种少数民族文字的纸质出版物转换成电子出版物,文档识别综合集成在统一的平台系统中,不再依靠人工录入,印刷文档的扫描图像就会自动生成可编辑检索的电子文档。

目前,这一系统已在北京、西藏、新疆、内蒙古、甘肃、四川、青海、云南等地推广应用。它对于促进少数民族的文化交流,促进我国少数民族地区的信息化建设以及促进我国与阿拉伯国家的合作、交流,都具有重要意义。

[值班总编推荐] 以劳动谱写时代华章

[值班总编推荐] 习近平离京对法国、塞尔维亚和匈 ...

[值班总编推荐] 低空经济已经“起飞”

“群岛哲学”视角下的个体意识与生活哲学
　　【详细】
刘巽达：沪语版《繁花》，够味儿！
　　【详细】
奋斗的青春，为伟大时代写下生动注脚
　　一往无前，新时代中国青年要勇做走在时代前列的奋进者；奋发有为，新时代中国青年要勇做走在时代前列的开拓者；心系家国，新时代中国青年要勇做走在时代前列的奉献者。【详细】
深刻领会加强党的纪律建设的重大意义
　　【详细】

漫话天下

城市更青春

“五个一百”看大美中国

文化事业进步

【漫评两会】极不寻常极不平凡的过去五年@人民生活水平不断提高