AER归档电子文件图文管理员
广东省档案局科技项目
一、概况
AER是英文“归档电子文件(Archival electronic records)”的缩写。软件是根据归档电子文件须保证电子文件的真实性、完整性、长期可读性的管理理论,和省档案管理部门提出的“信息固化(即是将doc、Excel、wps等文本文件转换为国际通用的tif文件以便归档长期保存)”观点,针对当前电子文件处理与管理中的一些技术问题而研发的适应于文档工作的通用软件。软件集“信息固化、元数据获取、扫描加工、OCR识别、文档数据库管理”于一身,由广东清华文通科技有限公司和省档案局科教处联合研制,2006年该软件被批准为广东省档案局的科技研究项目。
二、软件主要特点介绍
1、可以把Word、Excel、wps等格式化文本文件直接转换为tif等图像文件;转换时还可以设置各种转换参数,如:分辩率(100dpi-300dpi)、颜色(黑白、灰度、16色、256色、真彩)、格式(tif、bmp、jpg)等。 下图1是固化时的操作界面。

图1
2、在文本文件中可以自动或半自动方式获取元数据;当选择捕获元数据时,系统将打开word文档,这时可用鼠标拖黑word文档中元数据需要的文字,并直接拖到元数据界面相应的拦目中,无需人工录入。下图2红箭头所示是将涂黑部分的文字用鼠标拖进元数据的相应栏目框里。

图2
3、在图象文件中也可以自动或半自动方式获取元数据;操作时使用鼠标拖拉即可,无需人工录入。 下图3是将扫描进来的tif文件的标题“关于申报2003……(见红框处和箭头) ”通过OCR的区域识别技术获取为元数据(正题名)。

图3
4、固化后的tif图像格式完全符合国际标准规范,通用的图像浏览软件均可浏览。下图4是用ACDSee看图工具查看我们软件固化后的tif图像,红框内是元数据。

图4
5、对tif文件进行优化处理,兼顾图像还原、打印质量和存储空间,使其占据的存储空间在许可的范围内降低到最小。实测证明,固化后的tif文件比扫描的tif文件体积减少了50%以上。
6、软件自动捕获了电子文件的固化时间和字节数等元数据,该信息被埋藏在tif文件中,因此文件有没被修改将一目了然;可供接收系统进行基本的真实性检测。 下图5红框内所示信息就是固化时的真实性元数据,该信息被埋藏在tif文件中,因此文件有没被修改将一目了然。

图5
7、软件将题名、责任者、形成时间、主题词等元数据写入tif文件供利用者浏览。
8、软件可以自动生成元数据纯文本文件和全文的纯文本文件,以便提供给其它OA系统或应用系统调用。
9、软件附设了一些辅助功能,可以很方便的制作规范的公文,包括红色的单位文件头编辑,图像文件背景的水印编辑,加盖电子印章及档号章等。
10、图象加工处理功能,可对扫描的图象文件进行加工与处理,包括多个tif文件合并为单个tif文件,或相反,在图象文件中写入信息等,支持对图象文件加工的批处理,可定义一键OK扫描功能。
11、软件支持OCR识别功能,支持对图象文件的区域或全文识别。
12、文档管理功能,软件支持多库表的文档管理,即可将不同类型的文档分门别类进行管理。
三、产品类型
目前,“AER图文管理员”已经形成功能较完整独立的工具软件,有6个不同性能的版本:
1、超值版(A版):具有扫描、图像文件加工处理、文本信息固化、文本文件以自动和半自动方式获取元数据等功能。
2、标准版(B版):具有扫描、图像文件加工处理、文本信息固化、文本文件以自动和半自动方式获取元数据、文件标识(文件头)编辑、文件水印编辑、多数据库文档管理等功能。
3、增强版(AB版):具有扫描、图像文件加工处理、文本信息固化、文件标识(文件头)编辑、文件水印编辑、公章图像叠加、档号章叠加、图象文件的区域或全文的文本识别(OCR)、文本文件和图像文件以自动和半自动方式建立元数据、多数据库文档管理等功能。
4、中间件(C版):为OA系统或其它应用系统提供功能组件或插件。
5、固化文件真实性检测单元(D版):可自动检测固化文件的真实性。
6、AER图文管理系统(E版):是“AER图文管理员” 增强版(AB版)的网络版,除了支持AER图文管理员的所有功能外,还支持领导对文档的流转签批,适合做“收文”与“发文”的文档管理系统。