高端学术
您当前的位置:核心期刊咨询网电子信息论文》电子核心期刊论文范文对PDF文档的认识与应用

电子核心期刊论文范文对PDF文档的认识与应用

来源:核心期刊咨询网时间:12

摘要:摘要:我们平常往往会把WORD改为PDF格式。再切换到Word或记事本程序中。使用OCR技术。公司的Acrobat软件可谓大名鼎鼎。小面介绍文档应用的常见情况。 关键词: PDF , Word , OCR ,Acrobat,应用 PDF是英文Portable Document Format的缩写,意为便携式文档

  摘要:我们平常往往会把WORD改为PDF格式。再切换到Word或记事本程序中。使用OCR技术。公司的Acrobat软件可谓大名鼎鼎。小面介绍文档应用的常见情况。

  关键词:PDFWordOCR,Acrobat,应用

  PDF是英文Portable Document Format的缩写,意为便携式文档格式,其突出优点是“将PDF文件格式的文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中”,从而保持源文档排版风格和字体格式不变(这样就不用担心其他电脑上的字体不全了)。我们都知道,一种软件一般只编辑自己格式的文档,如果计算机里没有该软件,则文档就无法打开,而若把这种格式的文档转换成PDF格式,则只要电脑里装有PDF浏览器,就可以阅览到这些文档的内容,从而避免了必须安装相应软件的麻烦。PDF文档的优点还有很多,具体可参见文[1-2]。所以很多产品说明书、技术文档、大量电子版书籍、学术论文以及相关文件等资源均以 PDF文件为主流的电子图书格式存储于互联网之中,它已成为了互联网中电子文档分发广泛使用的格式。

  1 PDF文档浏览

  我们平常看PDF文件的软件是Adobe Reader,这是Adobe公司免费提供的用于阅读PDF文档的软件,相信很多人对它并不陌生,但比较起来,有个软件似乎也并不逊色,它就是Foxit Reader(福昕阅读器)。该软件支持Adobe Reader的所有功能特性,它具有令人难以置信的小巧体积OCR,安装空间比Adobe Reader小得多,只有区区几个MB,而AdobeReader 比较庞大,安装后甚至多达190MB。难能可贵的是,FoxitReader也有一些常用的编辑功能,比如可以制作书签,在PDF文档上输入字符、对内容进行标记等等,这对于普通用户来说,已基本可以满足日常办公和学习需求。

  2 PDF文件编辑

  Adobe公司的Acrobat软件可谓大名鼎鼎,广为人知。它是一款用来创建、编辑、审阅、批准、加密和在线共享PDF的软件,功能非常强大。比如要编辑PDF文档里的文字,可以选择“视图→工具栏→打字机工具”,打开其工具箱,便可以对文字进行编辑。此外还有注释工具、文本框、页眉页脚的添加等等。Acrobat有许多功能,如PDF文件分割与合并、Word格式转换成PDF格式、PDF页面顺序调整、页面管理等,基本上都可以用其它的专门软件来替代实现,网上有不少的专门工具(这些工具小巧玲珑,启动速度快捷,有的还是绿色版,根本无需安装),可以在百度里以相应关键词搜索下载。Acrobat的不足之处也是体积过于庞大,正是因为如此,我们有时可用Foxit PDF Editor取而代之。Foxit PDF Editor同样具有可靠而卓越的所见即所得的编辑功能,其中,“快速导出电子书特定页面”更是可圈可点,值得称叹。对于一本拥有数十甚至数百页的PDF电子图书,如果想将其中某些页面提取出来单独作为资料进行保存,一般的常规作法可能很难来实现,但在这款软件中,却很容易搞定。用户在Foxit PDF Editor中打开PDF电子图书,然后在软件的“文档”菜单中选择“导出页面”选项,在打开的“导出页面”对话框中,只要指定导出页面保存路径和导出页面的范围,软件即可进行自动导出了论文服务。在默认的条件下,软件是导出“当前页面”,但这款软件还可以进行批量导出,在该“导出页面”对话框的“原始页面范围”中先选中“页面”,然后指定需要导出的页面页码或页面页码范围即可OCR,如“1,5,6,8,11”页、“5-12”页等等。美中不足的是,Foxit PDF Editor不支持为PDF文档添加页码。

  3 PDF文档应用的常见情况

  3.1 从PDF文档中提取文字和图片

  从PDF格式的资料文件中提取文字内容拷贝到Word文档中,方法很简单:在PDF浏览器(如FoxitReader)中打开该PDF文档,然后用鼠标选取,右击“复制”命令(放到了剪切板上),再切换到Word或记事本程序中,“粘贴”即可(或者选用“选择性粘贴”中的“无格式文本”复制到Word)。这与我们平常在Word中的操作没有什么不同。问题是,有些PDF格式的文档,我们却不能拷贝其文本内容,原因可能是:1、本身里面的内容是图片格式的,即源文件没有文本内容,整个文件由bmp格式的图像组成;2、这个PDF文档是加密的,需要破解,破解后即可进行选取、复制等操作。如果是图片格式的PDF,只能通过一些OCR识别软件(例如Office自带的OCR识别软件)来进行识别,即从图中抓取文字,通俗地说,就是“抠字”。

  OCR是英文Optical Character Recognition的缩写,即采用各种光学设备识别手写或打印的字符。使用OCR技术,可通过扫描仪、数码相机等光学输入设备将报刊、书籍、文稿、票据以及其它印刷品的文字转化为计算机的图像信息,然后再转化为计算机的内码,也就是计算机的文本。经过几十年的发展,OCR技术已经相当成熟。OCR技术功能强大,可以识别数字、标点符号、中英文字符,可以对中英文混排文稿进行识别,还具备版面分析和识别功能,无论横版、竖版、中文表格、图文混排文件都能识别[3]。需要提醒读者注意的是,在识别之前,需要首先把PDF文件转换成tif或jpg格式的图像页。

  还有一种情况非常特殊(但也比较少见),PDF文档里的文本虽然可以复制,但粘贴到Word后竟全是乱码。这时候,只有把文档输出图片格式,再进行文字识别(OCR)了。

  提取PDF文档中的图片的方法是:在Foxit Reader打开PDF文件,点击“工具→快照”OCR,或者直接在工具栏点选“框选某视区范围并复制为图片”按钮,随后光标变成十字型,拖动鼠标将要复制的图片选中,系统会自动将图片复制到剪贴板中了,再粘贴到Word等软件中即可。

  这里要特别说明的是PDF文件中数学公式的抽取。把PDF数学公式复制粘贴到Word、记事本等程序中总是显示为不规范的符号、结构甚至乱码。文[4]也提到基于OCR技术的解决方法,但阐述的是从理论角度,不具有可操作性和适应性,对一般用户意义不大。

  3.2 在PDF文档里添加页码

  前已所述,Acrobat软件相关功能都可以用其它软件替代,但经笔者多年实践,若要对PDF文档添加页码,似乎只有Acrobat一枝独秀,可以胜任。添加页码的方法很简单,在Acrobat中,选择“文档→页眉和页脚”,在弹出的“添加页眉页脚”对话框进行相关设置即可,这里不多赘述。提醒读者注意一下几点:选择好某种字体,一定要注意下面的预览,看看其能否显示和显示效果;在“添加页眉页脚”对话框的右边可以设置一些其他要求,比如奇偶页什么的,最后点“确定”就行了;如果确定之后对之前设置的页码什么的不满意或者要修改,可以重新执行“文档→页眉和页脚”,点击“替换现有的”,重新弹出“添加页眉页脚”对话框,就可以直接设置为新的格式,当然,如果顶上的三个框框里都是空白的话那就是删除了页眉页脚,那页码也就没了。

  3.3 Word文件转PDF格式

  前已阐述Acrobat软件具有PDF文件转换的功能,但是如果仅仅用它来转换,显然是大材小用,尽管如此,我们还是有必要知道转换的方法,这主要是考虑到转换的方法有其相通性,即能虚拟打印就能转换。安装好Acrobat,系统会自动生成两个PDF虚拟打印机(Acrobat Distiller和Acrobat PDFWriter)。转换PDF格式,正是借助Acrobat Distiller或Acrobat PDFWriter实现。打开源文档,然后执行“文件→打印”命令调出打印对话框,在打印机名称下拉列表中选择 AcrobatDistiller 或Acrobat PDFWriterOCR,再像平时真正打印一样作一些设置,然后单击“确定”按钮,随后就会弹出一个另存为PDF的对话框,输入文件名并单击“确定”按钮即可。虚拟打印并不是真正的打印,请读者不要误会。当然,如果仅是为了转换格式,用Acrobat确实有点“杀鸡用牛刀”。其实有些转换PDF文件的小工具更好用,如著名的CutePDF Writer等,其转换的方法与之如出一辙,都是用“虚拟打印”的方法实现,过程、途径与上面相似,这里不赘。

  3.4 PDF文件转Word格式

  PDF格式虽然能用Acrobat编辑但毕竟不方便,因此很多时候,需要将它们转换为DOC文档后再编辑。微软的Word字处理软件想必是全民皆知的。PDF文档转换成Word文档,与Word转换PDF格式不同,相对比较难,容易出现乱码、格式版式丢失等等情况。网上PDF转Word 的工具软件也很多,如PDFFactory Pro、Converter for Microsoft Word等,但功能表现经笔者实践似以Solid PDF Converter最为抢眼。最值得称道的地方在于:当转化PDF文件为Word格式时,用其“全真页面模式”转化Word文件,转化的效果非常好,在编排上不出现任何变化,尤其是Word文档含有图片、表格时。具体的操作很简单论文服务。安装Solid PDF Converter后,Word中会多出一个“Open PDF”按钮。在Word中点击这个按钮,会出现PDF Converter的对话框。在“PDF File To”中选择要转换的PDF文档,然后点击“OPEN”就会在PDF文档所在的目录下生成同名的DOC文档,同时Word会自动打开转换后的DOC文档。虽然有时还是有乱码产生,但实践表明它在同类软件中仍然是最好的。由于转换DOC文档目的是为了更方便编辑,所以对于那种图片格式的PDF,尽管可以用Solid PDF Converter将其转换为Word格式,但转化后的Word仍然是图片似的,仍无法对其文字编辑。所以还是要借用OCR软件来处理(前面已有阐述)。识别的结果有时候可能有些“惨不忍睹”,但除了这种方法,似别无他法。

  值得一提的是,若用Acrobat将PDF文档转换为Word文档,首先打开一篇PDF文档,再选择“文件→另存为”,选择“保存类型”为rtf格式OCR,建议最好保存成这种格式,以最大限度地减少乱码的产生。

  3.5 PDF文档书签

  我们在打开PDF电子书时,无论上次阅读到什么位置,显示的总是首页,如果页数较多找起来比较麻烦。若能像阅读书籍那样使用书签,就可方便下次的查阅。这是一项非常实用高效的功能。我们以Acrobat为例,加以简单介绍。首先进入Acrobat的主界面,然后在菜单栏中依次选择“编辑→首选项→文档”,并选中右侧的“重新打开文档时恢复上次视图设置”选项,这样设置后的PDF文档,即可在每次打开时自动定位到上次关闭的页面位置。使用这个无形的书签,减少了不必要的反复寻查,为我们具体摘要。

  结束语

  PDF是一种全球通用的文件格式,在网络信息中,越来越多的人在使用这种格式,PDF正越来越普及和受到青睐。本文探讨了普通用户相对比较关心、以及在具体使用中可能会碰到的问题,基于笔者多年的经验和心得,提出了参考意见,期待对大家有所启发和帮助。PDF更多赏心悦目的特色和引人入胜的功能,还有待读者自己去挖掘,去体会。

  参考文献

  [1]郑明.Adobe Acrobat软件在多媒体教学中的应用[J]. 科技信息,2010(6):258-260

  [2]纪宏伟.数学论文的LaTeX排版与全文上网[J]. 软件导刊·教育技术,2011(1):87-88

  [3]李新平.OCR技术的教育应用研究[J]. 教育技术导刊,2006(9):45-46

  [4]田学东等.基于统计特征的数学公式抽取方法的研究[J]. 计算机工程,2006,32(19):211-213

转载请注明来自:http://www.qikan2017.com/lunwen/dzi/5655.html

相关论文阅读

论文发表技巧

期刊论文问答区

电子信息优质期刊

最新期刊更新

精品推荐