首頁   公司   开发   加工   市场   咨询   下载   我们   客户中心   友好链接  
产品目录
关于双层PDF文件加工
图书文件档案数字化建设与管理平台
一、前言
1、开发背景

图书、文件、档案经过数字化加工,使传统载体的信息成为电子图书、电子文件、电子档案等数字信息,数字信息具有传统载体信息无可比拟的优势,可以通过网络提供远程利用,快捷方便;可以纳入OA等信息管理系统进行处理、加工,文本型数字信息更可以进行检索,准确、迅速的查询到需要的信息内容。

然而,面对大量的图书、档案以及不断收到的纸质文件,如何使这些锁固在纸张上的静态信息,成为可以实时利用、处理的数字信息是许多单位的难题。数字化加工不仅投资大而且需要投入相当的人力物力,同时加工的数字图书、文件、档案做到图像质量高且存储容量小,还需要较高的技术含量和一定的技术技巧。

2、双层PDF文件特点

PDF文件格式已成为国际标准,越来越多的行业和单位正在使用它。其特点是具有多层结构,包括图层和文字层,而且其图文位置上下一一相对应,这样,既可以100%保留原始版面效果,又可以通过下层的文字信息支持选择、复制、全文检索等功能。因此,双层PDF文件同时兼顾视觉效果和信息利用,极大地方便了对电子文件的管理。

3、系统概述

我们开发的“图书文件档案数字化建设与管理平台”,可以很方便的解决这些问题,很小的人、财、物投入就可自行数字化加工,优质高效的制作数字图书、文件、档案。更考虑到没有OA等信息管理的单位勿需额外投资,直接利用“图书文件档案数字化建设与管理平台”的查询检索和管理模块,问题便迎刃而解。

“图书文件档案数字化建设与管理平台”既适合于已经建成OA等信息管理系统的单位,利用数字化加工模块和PDF制作模块,把纸质载体信息转换到信息系统;也适合于没有或不需要信息管理系统的单位,仅加工制作数字图书、文件、档案,及查询检索利用。“图书文件档案数字化建设与管理平台”投资小,见效快,可做到当天安装,当天使用,充分保证了您的投资。

二、图书文件档案数字化建设与管理平台的结构

“图书文件档案数字化建设与管理平台”由“扫描加工工作站”、“电子文件图文生产车间”、“Web查询与管理系统”等3大部分组成。

1、平台工作流程
2、平台拓扑结构
3.平台结构说明

“图书文件档案数字化建设与管理平台”系统结构采用C/S和B/S组合方式,其中“扫描加工工作站”和“电子文件图文生产车间”采用C/S结构,“Web查询和管理系统”采用B/S结构。通过Web服务器,单位局部网内桌面终端无需安装任何软件即可实现对图像文件的元数据查询、全文检索(可定位到页面字符级)及阅读,但如果使用PDF格式来阅读文件时,需下载安装一个PDF阅读器,比如方正的Apabi阅读器。当数据量不是很大或从节省投资考虑时,也可将Web服务器、图像文件服务器、索引文件服务器安装在同一台物理服务器上。

4.服务器说明

系统配置有三个类型的服务器,分别是Web服务器、图像文件服务器、索引文件服务器,其作用说明如下:

Web服务器:提供IIS Web服务安装,以实现单位局部网内桌面终端可以Web浏览器方式对归档电子文件的查询检索和浏览阅读。

图像文件服务器:提供对扫描文档源图像文件Tif和双层PDF文件的存储和管理。

索引文件服务器:提供对源图像文件Tif的元数据和全文本索引信息的存储和管理,实现以元数据方式或全文索引方式来查询电子文件。

5、系统使用文件格式说明

归档保存:Tif文件

阅读:Tif文件、双层PDF文件

三、平台功能介绍
1、扫描加工工作站

软件用来将纸质图书、文件、档案加工为图像型电子文件,并对电子文件提供各种图像处理,比如:倾斜校正、去斑、自动文件命名、裁边等等,以确保电子文件的质量。软件可以半自动方式(鼠标拉框,无须从键盘敲入)建立图像电子文件的元数据,并将图像电子文件和元数据信息上传到网络图像服务器和索引服务器。界面见下图所示:

主要功能:

(1)支持Twain标准各种扫描仪;既可连接扫描仪对直接扫描进来的图象文件进行加工处理,也可对已存在的目录中的图象文件进行加工处理。

(2)自动扫描文件命名;自动装订(将多个单页TIF文件合并为1个多页TIF文件);自动文件分割(支持固定页分割、白页分割、标志按钮分割等);自动扫描页计数等等。

(3)图象属性改变,如:真彩→256→16色→灰度→黑白,300dpi→200dpi;可使用调色板改变字体颜色;可将多个图象文件拼接为一个更大的图象文件,例如将2个A4图象拼接为1个A3图象等等。

(4)任意“快捷键”自定义功能;设置和插入档号章、公章;编辑和插入背景水印,水印可以是文字,也可以是图片;对目录中有页码的图像可自动进行排序;如果扫描时背面影像更清晰,可以将其变为正面等等。

(5)其它各种图像处理功能,如:亮度/对比度、自动/手动倾斜较正、去斑、去色、全部/区域漂白、去黑边、橡皮搽、清除、放大、缩小、切分、剪裁、移动、加粗、平滑、居中、旋转等等。

(6)建立元数据,元数据分为“基本元数据”和“真实性元数据”,系统自动建立“真实性元数据”,包括:图象文件生成时间,文件大小,总页数,该功能可用于对图象文件的真实性检测。而“基本元数据”类别分为“图书”、“档案”、“文件”,系统已建有基本元数据集,用户可根据类别及需要自行选择或增加来建立自己的元数据集。可以半自动方式(鼠标拉框,无须从键盘敲入)建立图像电子文件的元数据。选择和建立元数据集见下图所示:

2、电子文件图文生产车间

软件用来将图像文件生成全文本文件,还可生成双层PDF文件。软件支持“自动加工”工序,即:可设置实时异步监控指定的目录,当发现目录中有文件时即自动转换,也可对指定目录设定自动转换的时间,系统将按设定的时间自动操作,无需人工干予。系统还可对“自动加工”后质量不好的图档给出提示,质量不好的图档可转入第1—6道工序进行手工处理。对于输出质量要求特别高时,也可直接使用手工处理(1—6道工序),以确保获得高质量的双层PDF文件。对于有目录的图书或文件,可以半自动方式(鼠标拉框,无须从键盘敲入任何字符)建立目录书签。生成双层PDF文件时还可设置密码和权限(如:不能拷贝、不能打印)。系统主界面栏目如下图所示:

主要功能:
(1)第0道工序:自动加工

可实时异步监控指定的目录,当发现目录中有文件时即自动转换;也可对指定目录设定自动转换的时间,系统将按设定的时间自动操作,无需人工干予,见下图界面:

(2)第1道工序:倾斜校正

该工序读入指定目录文件,批量旋转、批量自动倾斜校正、支持对页面的直接手动倾斜校正。见下图界面:

(3)第2道工序:阀值调整

该工序读入指定目录文件,批量自动阀值调整、支持对选中页面的手动阀值调整。见下图界面:

(4)第3道工序:版面分析

该工序读入指定目录文件,批量自动版面分析、支持对选中页面的手动版面分析。见下图界面:

(5)第4道工序:文字识别

该工序读入指定目录文件,批量自动文字识别、支持对中文繁体、中文简体、英文的识别。见下图界面:

(6)第5道工序:集中校对

该工序读入指定目录文件,对文字识别结果进行集中式的校对(纵向校验),即:无论识别多少页图档,只需校验一次,可确保数据的百分百正确。系统还支持“纵向校对”和“横向校对”相结合的混合校对方式,可大大提高了校验的工作效率。见下图界面:

(7)第6道工序:输出文件(文本文件或双层PDF文件)

该工序读入指定目录文件,批量自动生成文本文件或双层的PDF文件,还可对输出的双层PDF文件设置密码与权限(如:不能复制、不能打印、凭密码打开等)。见下图:

(8)增强工序:建立书签

该工序对于有目录的图书或文件,可以半自动方式(鼠标拉框,无须从键盘敲入任何字符)建立目录书签,以方便阅读。建立书签可在第6道工序前的任何一道工序的前或后建立,见下图所示:

(9)上传和发布

生成的文本文件或双层PDF文件将分别通过上传和发布功能传送到图文服务器和Web服务器。

3、Web查询与管理系统

系系统提供单位局部网内桌面终端以Web方式查询检索和浏览阅读所需要的图像电子文件。其Web界面如下图所示:

(1)查询检索与浏览阅读

系统既支持使用元数据的查询方式,也支持全文检索的查询方式(可定位到页面字符级)。元数据查询项由用户根据类别自行定义,例如文件类:文件编号、发文时间、标题、主题词、发文单位等,如使用全文检索的查询方式,对于10万页的图像文件库,检索时间在1秒钟以内,但对于100万页的图像文件库,检索时间大概需要15秒左右。系统支持以tif格式或pdf格式浏览阅读查找到的图像文件,如果以pdf格式阅读电子文件,需要在桌面安装一个pdf阅读器。当以全文检索方式进行图像文件检索时,系统将列出检索到的所有文件、页面、并直接定位到页面中的字符级,例如:使用全文检索来查找内容有“科技”二个字的图像文件时,在界面中的左边将列出查找到的含有“科技”二个字的全部十多个文件,点击进入其中的某个文件时,将列出含有“科技”二个字的所有页数,进入某一页时,系统将用红色方框标出内容含有“科技”二字的位置。也可采用pdf方式来阅读文件,下图是采用pdf阅读器来阅读一个双层pdf文件,该阅读器可以仿照人的习惯用鼠标进行翻页。双层pdf格式支持对文件内容的利用。

(2)系统管理

系统管理包括用户管理和角色管理,为了保证数据的安全性,需要对用户的访问和操作进行权限和角色的控制。

角色管理:可定义使用系统的人员角色,比如:系统管理员、系统操作员、系统访问者、系统发布者等等,并对每种角色的权限分门别类进行定义,比如:系统操作员拥有文档扫描加工和文档整理(含双层PDF生产加工)的操作权限,系统管理员拥有对录入文档的检查、上传、发布等操作权限,系统访问者拥有按级别浏览文档的权限等等。

用户权限:用户除了受角色控制外,还分为9级权限,对应文档的9级控制级别(由系统管理员设定),如某用户被授权为9级权限时,可以查看所有文档,授权为8级权限时,可以查看文档控制级别除9级外所有文档,以此类推。

四、图书文件档案数字化建设与管理平台的特点

1、涵盖从纸质文档的扫描录入、电子文件加工、建立元数据、建立目录书签、非书类文件标引、双层PDF文件生成、数据审核、文件发布、元数据查询、全文检索、浏览阅读、用户管理的全面解决方案;

2、该平台适应面广,数据可大可少,既可用于党政机关,也可用于图书或档案馆室及各类企事业单位,既可作独立应用的图书文件档案管理平台,也可与OA等各种信息系统整合应用;

3、强大的图像处理和加工能力,使电子文件的图像质量得到稳定可靠的保证;并在保证质量前提下可获得最小的扫描图像电子文件;

4、可以半自动方式(鼠标拉框,无须从键盘敲入文字)建立元数据和建立目录书签,并以全自动方式建立全文检索的索引信息;

5、文本文件和双层PDF文件加工工序设计完整,既支持自动加工处理,也支持六道工序的人工处理;先进的“纵向校对”和“横向校对”相结合的OCR混合校对方式,既保证了快速,又保证了精确;

6、图文加工时可全界面显示缩略图,并直接对缩略图进行各种处理操作,如:倾斜校正、阀值调整、版面分析等,缩略图大小可自行调整,以便容纳显示更多的图档,大大提高加工效率;

7、自创简单实用高效的全文检索算法,支持以全文检索方式查询图像电子文件,全文检索时可支持页面字符级定位;

8、如增加手机模块,可支持使用手机查询检索和浏览阅读;

9、可提供模块或系统的外部接口,方便与其它系统整合。

五.平台应用环境
●服务器

操作平台:Windows Server 2000及以上/IIS/.NET Framework 2.0

数据平台:Windows SQL Server 2000及以上

●桌面查询检索终端:

操作平台:Windows 2000/XP/Vista

浏览软件:IE 6.0及以上

●扫描加工工作站接口:

TWAIN标准高速或平板扫描仪

六、最小平台配置

1、扫描加工工作站 1套

2、电子文件图文生产车间 1套

3、Web查询与管理系统(20用户) 1套

4、高速扫描仪(选件) 1台

5、零边际平板扫描仪(选件) 1台

中国OCR技术应用网 版权所有:广东清华文通科技有限公司
备案序号:粤ICP备05099948号
业务咨询: 业务咨询