首頁   公司   开发   加工   市场   咨询   下载   我们   客户中心   友好链接  
产品目录
关于双层PDF文件加工
智能数字化文档扫描加工系统
广东省档案局科技项目
一、前言

纸质文档的数字化加工在各个行业已经广泛应用,越来越多的用户把大批量的纸质文档进行数字化扫描加工,以便保存和利用。但目前的现状是数字化加工的质量参差不齐,有的单位扫描加工的文件图像质量令人堪忧。虽然目前扫描仪的种类越来越多,扫描速度越来越快,但用于纸质文档数字化加工的专用工具软件却难以寻觅。《智能数字化文档扫描加工系统》针对文件、档案管理工作的特点,通过集合图像处理、OCR等多项自动化智能技术,实现处理扫描图像自动纠偏、除黑边、去污等处理,实现扫描文件自动命名与装订,生成多页TIF文件,通过OCR识别技术实现电子文件元数据半自动获取,在大幅度提高扫描加工的工作效率的同时,可以完成电子文件元数据的获取工作,并在保证扫描图像文件质量前提下,以最低的容量存储文件。

二、产品优势

既可连接扫描仪对直接扫描进来的图象文件进行加工处理,也可对已存在的目录中的图象文件进行加工处理。

三、适用范围

● 数字化扫描加工企业;

● 需要利用扫描仪进行纸质文档扫描加工和OCR处理的机关、企事业单位。

四、系统主界面
五、自动流水线功能介绍
1、扫描加工流水线界面
2、目录加工流水线界面
3、流水线功能

①自动扫描与目录图象属性加工设置(见红框1);

②自动倾斜较正/去黑边/去白页/加粗/A3切割为A4(见红框2);

③前置处理设置:去斑、亮度/对比度、颜色通道(见红框3);

④自动文件命名(见红框4);

⑤自动装订(将多个单页TIF文件合并为1个多页TIF文件),支持固定页分割、白页分割、标志按钮分割(见红框5);

⑥自动JPG输出质量设置(见红框6);

⑦自动扫描页计数(见主界面扫描计数器),目录中文件与页数自动统计(见红框7)。

六、其它系统功能

1、任意“快捷键”自定义功能;

2、自动批量重命名;

3、图象文件属性标志显示,属性标志分为黑白、灰度、16色、256色、真彩;无须逐一打开图象文件,就可知道图象的属性,便于对文档的处理;

4、任意图象文件装订(将多个单页TIF文件合并为1个多页TIF文件)和拆解(将1个多页TIF文件分为多个单页TIF文件);

5、任意图象文件属性(颜色、分辨率、大小)改变;

6、图象拼接功能:可将多个图象文件拼接为一个更大的图象文件,例如将2个A4图象拼接为1个A3图象;

7、使用调色板改变颜色(支持多选);

8、插入电子印章;设置和插入档号章;

9、编辑和插入背景水印,水印可以是文字,也可以是图片;

10、页排序:对目录中有页码的图象可自动进行排序;

11、背面影像:如果扫描时背面影像更清晰,可以将其变为正面;

12、元数据:元数据分为“基本元数据”和“真实性元数据”,系统自动建立“真实性元数据”,包括:图象文件生成时间,文件大小,总页数,可用于对图象文件的真实性检测;还可半自动建立“基本元数据”,输出的“基本元数据”格式为TXT、XML、INI,可根据需要自行设定;

13、OCR识别功能:支持对简体、繁体、英文及中英混合识别;支持对横排、竖排的识别;支持局部识别、全文识别、表格识别、版面复原识别;支持对彩色文档的识别。

七、图象处理与加工功能

● 大镜:局部放大镜功能,可设置放大倍数;

● 放大:逐级放大图象;

● 缩小:逐级缩小图象;

● 橡皮:橡皮檫功能;

● 清除:清除鼠标拉框内的内容;

● 去色:去掉某个颜色,支持成批处理;

● 去斑:去掉页面中的斑点,支持成批处理;

● 漂白:将彩色图象转变为黑白图象,支持成批处理;

● 区漂:支持局部漂白功能,即是将鼠标拉框内的局部彩色图象转变为黑白图象;

● 亮度/对比度:亮度与对比度调整,支持局部的亮度与对比度调整,支持成批处理;

● 自校:自动倾斜较正(20度以内),支持成批处理;

● 手校:手动倾斜较正,支持任意角度;

● 黑边:自动去黑边与自动倾斜较正,支持成批处理;

● 切分:将1个大的图象文件切为2个小的图象文件,比如1个A3图象切为2个A4图象,支持成批处理;

● 剪裁:裁剪鼠标拉框内或外的内容,支持成批处理;

● 移动:移动鼠标拉框内的内容到其它位置;

● 加粗:加粗图象中的字符,支持成批处理;

● 平滑:平滑图象中的字符,支持成批处理;

● 居中:将图象居中,支持成批处理;

● 撤消:撤消最近一次的操作;

● 左旋:向左旋转90度;

● 右旋:向右旋转90度;

● 翻转:旋转180度;

● 旋转:按设定角度旋转。

八、图像处理工作流

如上所述,系统具有很多的图像处理功能,你还可以按照自己的需要,将它们组织成一个工作流,操作时系统将按照工作流顺序自动运行,以简化操作。见下图:

九、系统特点
1、具有智能、自动、成批处理能力“自动流水线”和“工作流”功能,可定义要自动执行的流水线工作模式,如:图象属性、自动倾斜较正/除黑边、自动批量文件命名、自动装钉等等;也可将各种图像处理功能组织成工作流,让系统按照你定义的流水线模式和工作流进行自动运行,实现高度智能化。
2、支持彩色文档的OCR识别;
3、支持图像文档的全文查找,该功能对于十多页以上的图像文档特别有用;
4、在扫描加工的实践中,遇到个别纸质比较箔时,往往会出现扫描出来后正面的图像反而没有背影的图像清晰,这时可以利用系统中的“翻转”功能,利用“水平翻转”功能将背影的图像转变为正面的图像。
5、与人工处理的比较优势

●强大的图像处理和加工能力,使扫描的图像质量得到稳定可靠的保证;

●一套该软件可取代一条扫描加工的人工流水线(由3 至4 人减为1 人),而且除了大大减轻录入人员的劳动强度外,还可大大提高工作效率至少20 倍以上;

●配合“数据库挂接”软件可实现从扫描端到数据终端全流程的全自动化操作;

●获得最小的扫描图像文件;

十、选件
1、OCR识别集中校验模块

除了系统已提供的OCR识别图文比对校验(横向校验,在全文识别时出来)功能外,如果使用本模块,还可对OCR识别结果进行集中式的校对(纵向校验),即:无论识别多少页图档,只需校验一次,除了可确保数据的百分百正确外,还大大提高了校验的工作效率,使得每人每天正确录入20万字不再空谈。

2、双层PDF自动生成模块

随着PDF格式成为国际标准后,有些企事业单位要求将扫描加工输出为PDF文件格式。本模块可自动将图像文件和OCR识别结果文本文件合成并生成双层结构的PDF文件(图层和文本层),该PDF文件具有全文检索定位(字符级定位)功能。

十、接口标准

系统支持TWIN标准的所有高速或平板扫描仪。

十一、使用环境

操作系统:Windows 2000 / Xp /Vista /中文简体版/中文繁体版

十二、系统说明

本系统由广东省档案局科教处和广东清华文通科技有限公司联合开发。软件包括四大功能模块:①图像扫描/处理/加工;②流水线和工作流;③OCR功能;④生成双层PDF文件。分别对应软件的五个版本:普通版(①)、标准版(①+②)、增强版(①+②+③部分功能)、高级版(①+②+③)、企业版(①+②+③+④)。并可向软件开发商提供二次开发接口。

中国OCR技术应用网 版权所有:广东清华文通科技有限公司
备案序号:粤ICP备05099948号
业务咨询: 业务咨询