当前位置:首页 > 技术文章 > 正文内容

OCR技术之文档识别、公文识别SDK开发包

arlanguage4周前 (04-08)技术文章34

OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题的友好性,产品的稳定性,易用性及可行性等。

编辑本段软件结构由于扫描仪的普及与广泛应用,OCR软件只需提供与扫描仪的接口,利用扫描仪驱动软件即可。因此,OCR软件主要是由下面几个部分组成:图像输入、预处理、版面分析、字符切割、字符识别、版面恢复、后处理、校对。

OCR识别技术

编辑本段工作流程一个OCR识别系统,其目的很简单,只是要把影像作一个转换,使影像内的图形继续保存、有表格则表格内资料及影像内的文字,一律变成计算机文字,使能达到影像资料的储存量减少、识别出的文字可再使用及分析,当然也可节省因键盘输入的人力与时间。

从影像到结果输出,须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。

产品描述

文通TH-OCR SOK 11,是北京文通科技有限 公司研制开发的多语种亚洲语言文字识别软件开 发包 ,提供强大的识别 API开发接口 ,帮助用户将 OCR 文字识别技术无缝内嵌到用户业务系统中 , 为数字资源的建立提供了方便 、快捷 、稳定的技 术手段。

TH-OCR SOK 支持简体中文 、繁体中文、日 文 、韩文 、纯英文的文字识别 ,具有识别率高 、 适应性强等突出的技术优势 。

OCR文档识别

特色功能

可以对图像由于扫描引起的倾斜进行自 动校正;

支持对指定区域的识别;

可以对图像进行 自动版面分析;

支持回调函数显示OCR 识别进度;

支持对内存中的图像进行识别;

能够获取识别字符在原文中的位置和大小信息;

支持USB key授权控制,序列号授权控制;

C语言编写的程序,并预留有VC、VB、DEPH、JAVA等开发语言的API;

提供OCX插件及DLL动态链接库方式的调用接口

能识别纯英文 、简繁体中文 、 日文、韩文 、 中英文混排的文本图像;

根据识别结果能够进行版面恢复 ,并导出TXT 、RTF , XLS ,双层PDF等格式文件;

支持GB一2312 码(大陆使用上 BIG一5 码(台湾使用) 、GBK 、Shift-JIS ( 日文使用)、KSC (韩文使用)内码的输出;

支持TIFF , JPEG, PCX , BMP 格式图像的读取 ,支持Pacleb its 和G4 压缩的TIFF格式;

可以对横排文本图像 ,纵排文本图像 ,表格文本 图像、 图形图像进行识别。

版本划分

通过拍照界面,指导用户拍出合格证件图像。

采用文字识别(OCR)技术,自动提取证件信息(如姓名、证件号码、地址等)及头像。

识别证件种类包括,身份证、名片、驾照、护照、港澳台证件、军官证等身份证件,以及行驶证、机动车VIN码、车牌号等车辆信息。

版本划分

标准版:标准版含三个开发进程,无识别页数限制,无时间期限限制

企业版:企业版不限制开发进程,无识别页数限制,无时间期限限制

配置要求

支持windows 32位、64位;linux 32位、64位;

CPU:586以上;

内存:256M以上。

图像规范

规范的扫描图像有助于提高识别率;

DPI,200至300dpi扫描分辨率是最佳的;

扫描尽量规范不倾斜。

扫描二维码推送至手机访问。

版权声明:本文由AR编程网发布,如需转载请注明出处。

本文链接:http://www.arlanguage.com/post/3908.html

标签: ocx控件安装
分享给朋友:

“OCR技术之文档识别、公文识别SDK开发包” 的相关文章

【Nginx】Nginx 4种常见配置实例 nginx常用配置

本文主要介绍nginx 4种常见的配置实例。Nginx实现反向代理;Nginx实现负载均衡;Nginx实现动静分离;Nginx实现高可用集群;Nginx 4种常见配置实例如下:一、Nginx反向代理配置实例1.1 目标访问http://ip,访问到的是Tomcat的主页面http://ip:8080...

Linux 安装 Alist 个人云盘 alpine linux安装

1. 简介云服务器有比较大的空间,想自己搭建一个个人云盘,做大文件的转存。其他百度云盘等的下载速度感人,不想充值会员。查询了一轮之后 Alist,Nextcloud,Cloudreve,ownCloud,Seafile等等看到了不少,但是很多都需要各种配置安装。要么是通过宝塔可以快速安装,但是我的服...

Nginx 在微服务中的应用(9)

在微服务架构中,Nginx 通常作为反向代理服务器、负载均衡器和 API 网关,承担着多个关键角色。它可以帮助管理微服务之间的流量,确保请求的高效路由、负载均衡、流量控制、安全防护等。Nginx 由于其高性能、轻量级和配置灵活性,成为微服务架构中非常常见的组件。以下是 Nginx 在微服务中的几种主...

Java 加密解密和数字签名

在做项目中,只要涉及敏感信息,或者对安全有一定要求的场景,都需要对数据进行加密。在Java中原生API即可实现对称加密与非对称加密,并支持常用的加密算法。对称加密对称加密使用单钥完成加解密,加密和解密采用相同的密钥。对称加密的速度快,常用于大量数据进行加密。主流的算法有:AES,3DES。生成3DE...

08《Nginx 入门教程》Nginx 的 Http 模块介绍(中)

在前面介绍完 post-read、server-rewrite、find-config、rewrite 和 post-rewrite 阶段后,我们将继续学习 preaccess 和 access 两个阶段,中间会涉及部分模块,一同进行说明。1. preaccess 阶段在 preaccess 阶段在...

深入Docker容器之日志篇

操作系统流重定向在linux系统中,运行一个命令,通常会是以下的方式:在linux 和 Unix系统中,在运行程序时,通常会有三种io流: stdin, stdout,stderr 。 stdin 是从外部设备或是键盘获取输入,而 stdout 是标准输出,stderr 是标准错误输出。而不管是标准...