登录|注册新帐号

  • 2087阅读
  • 0回复

将扫描文章(tif.jpg.bmp.pdf)转为可以编辑文档word [复制链接]

上一主题 下一主题
 

发帖
189
只看楼主 倒序阅读 使用道具 楼主   发表于: 2010-04-13
将扫描文章(tif.jpg.bmp.pdf)转为可以编辑文档word

转载


你是否想把在书报上看到的好文章保存成电子文档以备日后使用?
你在语文试卷命题时是否想把报纸杂志上的时文作为阅读理解的材料而又苦于录入?
你是否为扫描后的文章不可编辑而苦恼?
如果你有以上想法,就接着往下看吧,否则请关闭此帖子,我不想浪费你的时间。

先了解什么是OCR识别,请看:
http://baike.baidu.com/view/17761.htm

给你一个在线OCR识别网站
http://www.netocr.com/

为你找了几个OCR识别软件:

1、清华紫光OCR(TH-OCR)v9.0简体中文版(内有破解补丁)
OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。

  TH-OCR是清华大学自1985年就开始研发的,TH是TsingHua(清华)的缩写,TH-OCR代表北京清华紫光文通信息技术有限公司开发的OCR软件。在国家“863”计划支持下,持续了十多年的科研成果,从1.0版本开始已经升级到现在的9.0版本。独家真正实现了汉英混排同时识别,在国际上首次突破了OCR产品只能处理汉字或英文单一文字的局限性,新增了东方文字(简繁汉、日文、韩文)识别功能,对日文和韩文与英文混排文档的识别水平甚至超过日本和韩国对本国文字的识别水平,在国内、外产生了重大的影响,并连续3年被中国软件行业协会评为优秀软件产品,成为汉字输入技术的一座里程碑。TH-OCR9.0版本已应用到了包括电子政务、电子出版物、报社、银行、邮政、税务、图书馆等多个领域,成为国内OCR市场的先锋。

  本届两会代表的所有提案全部采用了我国自主知识产权的世界识别领域领先产品——清华紫光文通的TH-OCR9.0进行录入识别,它以准确的识别率、优异的识别速度博得了两会工作人员的交口称赞。而清华TH-OCR技术在两会上的成功应用更论证了我国也完全有实力拥有自己的卓越技术。

TH-OCR的突出特点:
◇ 汉英双语同时混排,识别率最高,居世界领先水平。  
◇ 可以识别黑白、灰度、彩色图像,可以读取多种图像格式。
◇ 首创对识别结果进行电子文档版面复原功能,所见即所得。
◇ 首创日文、韩文、日英混排、韩英混排识别功能,识别率98%以上。

TH-OCR的六大优势:

1. 是唯一可以识别2万多汉字的多体文字识别系统,汉字识别国内最优。
2. 汉字和英文混排、日文和英文混排、韩文和英文混排同时识别。
3. 汉字识别率最高。清华紫光文通TH-OCR经过"863"智能专家组对数十万字的指标评测和中国软件评测中心对产品的严格测试,识别正确率超过99.5%,代表了目前印刷体文字识别的最高水平。
4. 支持多种环境接口。清华紫光文通TH-OCR支持WINDOWS环境和GB、BIG5、GBK、JIS、 SHIFT-JIS和KSC等多种内码,可以用于 WINDOWS NT和WINDOWS 98/2000/XP,适合全球各个地区使用。TH-OCR还具有自学习功能,不论什么生僻字,都可以通过键盘输入进行学习,大大拓宽了OCR系统的识别字符集。
5. 历次国内鉴定均被中国科学院院土和中国工程院院土等专家组成的鉴定委员会评定为“具有世界领先水平”。

广泛的社会认可:
1、多年来为众多著名的扫描仪厂商HP、UNISCAN、EPSON、CANON、 LENOVO等提供TH-OCR普及版作为其扫描仪的捆绑软件。
2、美国MICROSOFT公司将TH-OCR作为东方文字识别捆绑到WINXP 操作系统中。
3、美国MOTOROLA公司确定TH-OCR的部分技术使用权。
4、美国INTEL公司确定TH-OCR为最新的MMX技术支持项目。
5、《计算机世界》市场调查结果,清华紫光文通TH-OCR市场占有率达65%以上。
6、《中国计算机报》 CIWLAB组织的用户调查认为, TH-OCR是一个性能极好的系统,是一个值得用户信赖的系统(对其他品牌OCR评价为:“是值得用户选择的产品”)。


复制下面的网址用迅雷下载:
thunder://QUFodHRwOi8vd3d3Lmp4bHRlei5jbi9kb3dubG9hZC9qb2IucGhwP2pvYj1kb3dubG9hZCZpZD0xOTMwOSZkaWQ9MFpa

另一下载请点击下载

2、尚书7号OCR文字识别系统完全版 Shocr7.0(已注册)
本软件系统是应用OCR(Optical Character Recognition)技术,为满足书籍、报刊杂志、报表票据、公文档案等录入需求而设计的软件系统。
目前,许多信息资料需要转化成电子文档以便于各种应用及管理,但因信息数字化处理的方式落后,不但费时费力,而且资金耗费巨大,造成了大量文档资料的积压,因此急需一种快速高效的软件系统来满足这种海量录入需求。本软件系统正是适用于个人、小型图书馆、小型档案馆、小型企业进行大规模文档输入、图书翻印、大量资料电子化的软件系统。
●识别字符
简体字符集:国标GB2312-80的全部一、二级汉字6800多个。
纯英文字符集。
简繁字集:除了简体汉字外,还可以混识台湾繁体字5400多个以及香港繁体字和GBK汉字。
●识别字体种类
能识别宋体、仿宋、楷、黑、魏碑、隶书、圆体、行楷等一百多种字体,并支持多种字体混排。
●识别字号
初号 小六号字体。
●表格识别
可以自动判断、拆分、识别和还原各种通用型印刷体表格。
通过以上各点,可以看出,尚书七号OCR系统确实是一个提高文档办公效率的好帮手。



复制下面的网址用迅雷下载:
thunder://QUFodHRwOi8vd3d3Lmp4bHRlei5jbi9kb3dubG9hZC9qb2IucGhwP2pvYj1kb3dubG9hZCZpZD0xOTMxMSZkaWQ9MFpa

另一下载请点击下载

3、汉王 OCR 6.0 特别版

在最近几年中,OCR识别技术随着扫描仪的普及得到了飞速的发展,扫描、识别软件的性能不断强大并向智能化不断升级发展。
      OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的文字图片信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中,由此可以看出,OCR实际上是让计算机认字,实现文字自动输入。它是一种快捷、省力、高效的文字输入方法。

       汉王OCR 是针对机关单位、企业及有文字录入需求的个人用户,在日常的工作中,快速的对书刊、报纸、公文、宣传页等印刷稿件中内容进行录入的应用需求而推出的。本产品集成了汉王科技顶尖的文字识别技术,对印刷文稿录入的识别率高达99.5%,能够识别百余种印刷字体和各种中英繁表图混排格式的文本,。是理想的文字、表格、图像录入系统。
      这样一来,就不用再手工输入大量的资料了,只要扫进去,像那种抓英文的工具一样,让软件自动地转成WORD文档。即可将图片变成可编辑的文挡格式。这是目前破解最完美的汉王OCR软件。

点击下载

4、丹青中英日文OCR辩识 白金版 4.5

安装序列号:MXRD450-7DMN-MM7M-CFCB

功能简介
原文重现 尽在瞬间
◎提供繁中、简中和日文三种操作介面
◎可辨识繁中、简中、英文及日文四种文件
◎辨识后的文件可储存成各种常用档案格式再编辑
◎超高辨识速率及辨识率再提升,快速原文重现各式文件

产品说明
影像扫瞄
1. 可处理彩色、灰阶或黑白的文件影像。
2. 倾斜校正:自动侦测文件影像倾斜角度,并提供旋转影像之功能。

辨识文件
< 文件分析及辨识 >
1. 自动辨识:轻按一钮,即可自动分析、辨识、校对影像文件,图文分离,并转换成可编辑的文件档案。
2. 设定辨识字集:不需切换语文环境,即可辨识繁中、简中、纯英文及日文四种文件。
3. 高辨识速率:在Pentium III 667MHz个人电脑环境下,每秒钟能辨识高达150个中文字。
4. 多种字体辨识及重现:能够辨识多种印刷字体,如明体、黑体、仿宋体、楷书、圆体、隶书等,并在辨识后还原成原稿的字体。
5. 原文重现编辑环境:可辨识各种表格及影像,辨识结果依照原文件的图文版面格式呈现,方便您校对、编辑,节省重新排版的时间。

< 自动校对与学习 >
1. 再辨识功能:提供合/分字、合/分行、合/分区块、变更区块属性等再辨识功能,让您能够修正错误的辨识结果。
2. 学习新字功能:可将易辨识错误的字元输入到学习资料库中,提高下次辨识之正确率。
3. 候选字功能:提供原文影像供辨识后图文作校对,且针对型态相近之文字及语意上前后相连的字词提供候选字轻松更正辨识错误的文字。
4. 自动校对:利用内建的常用词库自动校对辨识出的文字,并标示出辨识时所碰到的疑问字,节省您校对的时间。

输出档案
1. 传送至其他应用软体:可将辨识结果直接传送至您所指定的应用软体中再处理,例如可设定辨识结果自动储存成HTML档案并直接传送至网路浏览器中。
2. 可储存多种档案格式:辨识后的结果可储存成不同之档案格式,如TXT、RTF、DOC、XLS、SLK、CSV、HTML等,方便您做不同的应用与处理。

点击下载
做拯救民族文化的细节工作,我快乐。
快速回复
限100 字节
如果您在写长篇帖子又不马上发表,建议存为草稿
 
上一个 下一个