电子核心期刊论文范文对PDF文档的认识与应用
来源:核心期刊咨询网时间:12
摘要:摘要:我们平常往往会把WORD改为PDF格式。再切换到Word或记事本程序中。使用OCR技术。公司的Acrobat软件可谓大名鼎鼎。小面介绍文档应用的常见情况。 关键词: PDF , Word , OCR ,Acrobat,应用 PDF是英文Portable Document Format的缩写,意为便携式文档
摘要:我们平常往往会把WORD改为PDF格式。再切换到Word或记事本程序中。使用OCR技术。公司的Acrobat软件可谓大名鼎鼎。小面介绍文档应用的常见情况。
关键词:PDF,Word,OCR,Acrobat,应用
PDF是英文Portable Document Format的缩写,意为便携式文档格式,其突出优点是“将PDF文件格式的文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中”,从而保持源文档排版风格和字体格式不变(这样就不用担心其他电脑上的字体不全了)。我们都知道,一种软件一般只编辑自己格式的文档,如果计算机里没有该软件,则文档就无法打开,而若把这种格式的文档转换成PDF格式,则只要电脑里装有PDF浏览器,就可以阅览到这些文档的内容,从而避免了必须安装相应软件的麻烦。PDF文档的优点还有很多,具体可参见文[1-2]。所以很多产品说明书、技术文档、大量电子版书籍、学术论文以及相关文件等资源均以 PDF文件为主流的电子图书格式存储于互联网之中,它已成为了互联网中电子文档分发广泛使用的格式。
1 PDF文档浏览
我们平常看PDF文件的软件是Adobe Reader,这是Adobe公司免费提供的用于阅读PDF文档的软件,相信很多人对它并不陌生,但比较起来,有个软件似乎也并不逊色,它就是Foxit Reader(福昕阅读器)。该软件支持Adobe Reader的所有功能特性,它具有令人难以置信的小巧体积OCR,安装空间比Adobe Reader小得多,只有区区几个MB,而AdobeReader 比较庞大,安装后甚至多达190MB。难能可贵的是,FoxitReader也有一些常用的编辑功能,比如可以制作书签,在PDF文档上输入字符、对内容进行标记等等,这对于普通用户来说,已基本可以满足日常办公和学习需求。
2 PDF文件编辑
Adobe公司的Acrobat软件可谓大名鼎鼎,广为人知。它是一款用来创建、编辑、审阅、批准、加密和在线共享PDF的软件,功能非常强大。比如要编辑PDF文档里的文字,可以选择“视图→工具栏→打字机工具”,打开其工具箱,便可以对文字进行编辑。此外还有注释工具、文本框、页眉页脚的添加等等。Acrobat有许多功能,如PDF文件分割与合并、Word格式转换成PDF格式、PDF页面顺序调整、页面管理等,基本上都可以用其它的专门软件来替代实现,网上有不少的专门工具(这些工具小巧玲珑,启动速度快捷,有的还是绿色版,根本无需安装),可以在百度里以相应关键词搜索下载。Acrobat的不足之处也是体积过于庞大,正是因为如此,我们有时可用Foxit PDF Editor取而代之。Foxit PDF Editor同样具有可靠而卓越的所见即所得的编辑功能,其中,“快速导出电子书特定页面”更是可圈可点,值得称叹。对于一本拥有数十甚至数百页的PDF电子图书,如果想将其中某些页面提取出来单独作为资料进行保存,一般的常规作法可能很难来实现,但在这款软件中,却很容易搞定。用户在Foxit PDF Editor中打开PDF电子图书,然后在软件的“文档”菜单中选择“导出页面”选项,在打开的“导出页面”对话框中,只要指定导出页面保存路径和导出页面的范围,软件即可进行自动导出了论文服务。在默认的条件下,软件是导出“当前页面”,但这款软件还可以进行批量导出,在该“导出页面”对话框的“原始页面范围”中先选中“页面”,然后指定需要导出的页面页码或页面页码范围即可OCR,如“1,5,6,8,11”页、“5-12”页等等。美中不足的是,Foxit PDF Editor不支持为PDF文档添加页码。
3 PDF文档应用的常见情况
3.1 从PDF文档中提取文字和图片
从PDF格式的资料文件中提取文字内容拷贝到Word文档中,方法很简单:在PDF浏览器(如FoxitReader)中打开该PDF文档,然后用鼠标选取,右击“复制”命令(放到了剪切板上),再切换到Word或记事本程序中,“粘贴”即可(或者选用“选择性粘贴”中的“无格式文本”复制到Word)。这与我们平常在Word中的操作没有什么不同。问题是,有些PDF格式的文档,我们却不能拷贝其文本内容,原因可能是:1、本身里面的内容是图片格式的,即源文件没有文本内容,整个文件由bmp格式的图像组成;2、这个PDF文档是加密的,需要破解,破解后即可进行选取、复制等操作。如果是图片格式的PDF,只能通过一些OCR识别软件(例如Office自带的OCR识别软件)来进行识别,即从图中抓取文字,通俗地说,就是“抠字”。
OCR是英文Optical Character Recognition的缩写,即采用各种光学设备识别手写或打印的字符。使用OCR技术,可通过扫描仪、数码相机等光学输入设备将报刊、书籍、文稿、票据以及其它印刷品的文字转化为计算机的图像信息,然后再转化为计算机的内码,也就是计算机的文本。经过几十年的发展,OCR技术已经相当成熟。OCR技术功能强大,可以识别数字、标点符号、中英文字符,可以对中英文混排文稿进行识别,还具备版面分析和识别功能,无论横版、竖版、中文表格、图文混排文件都能识别[3]。需要提醒读者注意的是,在识别之前,需要首先把PDF文件转换成tif或jpg格式的图像页。
还有一种情况非常特殊(但也比较少见),PDF文档里的文本虽然可以复制,但粘贴到Word后竟全是乱码。这时候,只有把文档输出图片格式,再进行文字识别(OCR)了。
提取PDF文档中的图片的方法是:在Foxit Reader打开PDF文件,点击“工具→快照”OCR,或者直接在工具栏点选“框选某视区范围并复制为图片”按钮,随后光标变成十字型,拖动鼠标将要复制的图片选中,系统会自动将图片复制到剪贴板中了,再粘贴到Word等软件中即可。
这里要特别说明的是PDF文件中数学公式的抽取。把PDF数学公式复制粘贴到Word、记事本等程序中总是显示为不规范的符号、结构甚至乱码。文[4]也提到基于OCR技术的解决方法,但阐述的是从理论角度,不具有可操作性和适应性,对一般用户意义不大。
3.2 在PDF文档里添加页码
前已所述,Acrobat软件相关功能都可以用其它软件替代,但经笔者多年实践,若要对PDF文档添加页码,似乎只有Acrobat一枝独秀,可以胜任。添加页码的方法很简单,在Acrobat中,选择“文档→页眉和页脚”,在弹出的“添加页眉页脚”对话框进行相关设置即可,这里不多赘述。提醒读者注意一下几点:选择好某种字体,一定要注意下面的预览,看看其能否显示和显示效果;在“添加页眉页脚”对话框的右边可以设置一些其他要求,比如奇偶页什么的,最后点“确定”就行了;如果确定之后对之前设置的页码什么的不满意或者要修改,可以重新执行“文档→页眉和页脚”,点击“替换现有的”,重新弹出“添加页眉页脚”对话框,就可以直接设置为新的格式,当然,如果顶上的三个框框里都是空白的话那就是删除了页眉页脚,那页码也就没了。
3.3 Word文件转PDF格式
前已阐述Acrobat软件具有PDF文件转换的功能,但是如果仅仅用它来转换,显然是大材小用,尽管如此,我们还是有必要知道转换的方法,这主要是考虑到转换的方法有其相通性,即能虚拟打印就能转换。安装好Acrobat,系统会自动生成两个PDF虚拟打印机(Acrobat Distiller和Acrobat PDFWriter)。转换PDF格式,正是借助Acrobat Distiller或Acrobat PDFWriter实现。打开源文档,然后执行“文件→打印”命令调出打印对话框,在打印机名称下拉列表中选择 AcrobatDistiller 或Acrobat PDFWriterOCR,再像平时真正打印一样作一些设置,然后单击“确定”按钮,随后就会弹出一个另存为PDF的对话框,输入文件名并单击“确定”按钮即可。虚拟打印并不是真正的打印,请读者不要误会。当然,如果仅是为了转换格式,用Acrobat确实有点“杀鸡用牛刀”。其实有些转换PDF文件的小工具更好用,如著名的CutePDF Writer等,其转换的方法与之如出一辙,都是用“虚拟打印”的方法实现,过程、途径与上面相似,这里不赘。
3.4 PDF文件转Word格式
PDF格式虽然能用Acrobat编辑但毕竟不方便,因此很多时候,需要将它们转换为DOC文档后再编辑。微软的Word字处理软件想必是全民皆知的。PDF文档转换成Word文档,与Word转换PDF格式不同,相对比较难,容易出现乱码、格式版式丢失等等情况。网上PDF转Word 的工具软件也很多,如PDFFactory Pro、Converter for Microsoft Word等,但功能表现经笔者实践似以Solid PDF Converter最为抢眼。最值得称道的地方在于:当转化PDF文件为Word格式时,用其“全真页面模式”转化Word文件,转化的效果非常好,在编排上不出现任何变化,尤其是Word文档含有图片、表格时。具体的操作很简单论文服务。安装Solid PDF Converter后,Word中会多出一个“Open PDF”按钮。在Word中点击这个按钮,会出现PDF Converter的对话框。在“PDF File To”中选择要转换的PDF文档,然后点击“OPEN”就会在PDF文档所在的目录下生成同名的DOC文档,同时Word会自动打开转换后的DOC文档。虽然有时还是有乱码产生,但实践表明它在同类软件中仍然是最好的。由于转换DOC文档目的是为了更方便编辑,所以对于那种图片格式的PDF,尽管可以用Solid PDF Converter将其转换为Word格式,但转化后的Word仍然是图片似的,仍无法对其文字编辑。所以还是要借用OCR软件来处理(前面已有阐述)。识别的结果有时候可能有些“惨不忍睹”,但除了这种方法,似别无他法。
值得一提的是,若用Acrobat将PDF文档转换为Word文档,首先打开一篇PDF文档,再选择“文件→另存为”,选择“保存类型”为rtf格式OCR,建议最好保存成这种格式,以最大限度地减少乱码的产生。
3.5 PDF文档书签
我们在打开PDF电子书时,无论上次阅读到什么位置,显示的总是首页,如果页数较多找起来比较麻烦。若能像阅读书籍那样使用书签,就可方便下次的查阅。这是一项非常实用高效的功能。我们以Acrobat为例,加以简单介绍。首先进入Acrobat的主界面,然后在菜单栏中依次选择“编辑→首选项→文档”,并选中右侧的“重新打开文档时恢复上次视图设置”选项,这样设置后的PDF文档,即可在每次打开时自动定位到上次关闭的页面位置。使用这个无形的书签,减少了不必要的反复寻查,为我们具体摘要。
结束语
PDF是一种全球通用的文件格式,在网络信息中,越来越多的人在使用这种格式,PDF正越来越普及和受到青睐。本文探讨了普通用户相对比较关心、以及在具体使用中可能会碰到的问题,基于笔者多年的经验和心得,提出了参考意见,期待对大家有所启发和帮助。PDF更多赏心悦目的特色和引人入胜的功能,还有待读者自己去挖掘,去体会。
参考文献
[1]郑明.Adobe Acrobat软件在多媒体教学中的应用[J]. 科技信息,2010(6):258-260
[2]纪宏伟.数学论文的LaTeX排版与全文上网[J]. 软件导刊·教育技术,2011(1):87-88
[3]李新平.OCR技术的教育应用研究[J]. 教育技术导刊,2006(9):45-46
[4]田学东等.基于统计特征的数学公式抽取方法的研究[J]. 计算机工程,2006,32(19):211-213
转载请注明来自:http://www.qikan2017.com/lunwen/dzi/5655.html
相关论文阅读
- 2022-09-28创新要素对涉农科技型企业发展质量的影响
- 2022-09-19“一带一路”建设框架下中非经贸合作的机遇与挑战
- 2022-07-14多媒体计算机技术在广播电视工程中的应用
- 2022-07-12高校教务管理信息化的优势及发展趋势
- 2022-07-04探讨光伏发电技术中分布式控制的有效应用
- 2022-07-02计算机通信网络安全维护措施研究
- 2022-06-30在线实训教学模式在电子商务教学中的应用研究
- 2022-06-25低代码数据接口开发架构的研究与实现
- 2022-06-24区块链技术对审计模式优化的探索
- 2022-05-28云网安全防护运维管控的研究
期刊论文问答区
- 2025-04-24英文期刊发表论文几个版面起发
- 2025-01-21论文顺利通过审稿的8个操作
- 2025-01-11管理学类30本期刊(国自然基金委员会认定)
- 2025-01-02电刺激治疗相关文章选题推荐
- 2024-12-17植物学比较热门的论文选题
- 2024-12-03人事管理方面文章选题推荐和发表期刊
- 2024-11-18金融学专业的论文选题方向推荐
- 2024-11-01教育核心期刊有哪些
- 2024-07-12学术论文初审是谁在审?审什么?审多久?
- 2024-07-02管理学cssci期刊目录(36本)
电子信息优质期刊
- 1国家级《计算机与网络》
- 2国家级《解放军理论学习》
- 3省级《工程技术研究》
- 4核心级《无线电通信技术》
- 5省级《常州工学院学报》
- 6省级《计算力学学报》
- 7核心级《电子技术与软件工程》
- 8省级《天津大学学报:自然科学与工程技术版》
- 1国家级《计算机与网络》
- 2国家级《解放军理论学习》
- 3国家级《机电元件》
- 4国家级《中国电子科学研究院学报》
- 5国家级《电子科学学刊:英文版》
- 6国家级《材料科学技术学报:英文版》
- 7国家级《电光与控制 》
- 8国家级《测绘学报》
- 1省级《工程技术研究》
- 2省级《常州工学院学报》
- 3省级《计算力学学报》
- 4省级《天津大学学报:自然科学与工程技术版》
- 5省级《福建电脑》
- 6省级《计算机技术与发展》
- 7省级《深圳大学学报:理工版》
- 8省级《测绘科学与工程》
- 1核心级《无线电通信技术》
- 2核心级《电子技术与软件工程》
- 3核心级《润滑与密封》
- 4核心级《计算机应用与软件》
- 5核心级《电讯技术》
- 6核心级《固体电子学研究与进展》
- 7核心级《自动化学报》
- 8核心级《华东电力》
最新期刊更新
- 《中国政府采购》
- 《中国政府采购》
- 《农业图书情报学刊》
- 《农业技术经济》
- 《水文地质工程地质》
- 《房地产世界》
- 《中央民族大学学报:哲》
- 《广州化学》
- 《物理学报》
- 《东方宝宝》
- 《新能源进展》
- 《热带农业科学》
- 《建筑经济》
- 《中国学校卫生》
精品推荐
- 12022-09-28创新要素对涉农科技型企业发展质量的影响
- 22022-09-19“一带一路”建设框架下中非经贸合作的机遇与挑战
- 32022-07-14多媒体计算机技术在广播电视工程中的应用
- 42022-07-12高校教务管理信息化的优势及发展趋势
- 52022-07-04探讨光伏发电技术中分布式控制的有效应用
- 62022-07-02计算机通信网络安全维护措施研究
- 72022-06-30在线实训教学模式在电子商务教学中的应用研究
- 82022-06-25低代码数据接口开发架构的研究与实现
- 12018-05-06机器人研究方向有哪些核心期刊比较好投
- 22017-09-07国内电气工程方面的普刊有哪些?
- 32018-03-02电气审稿较快的期刊
- 42022-02-26人工智能在财会领域的运用与应对策略
- 52021-11-17港口码头系统智能化应用的现状与发展
- 62022-02-26电气工程及其自动化技术在电力系统中的应用分析
- 72022-03-01数据管理视角下的内控信息化建设
- 82022-06-30在线实训教学模式在电子商务教学中的应用研究
- 12025-04-24英文期刊发表论文几个版面起发
- 22025-04-24声音与振动杂志JOURNAL OF SOUND AND VIBRATION期刊收稿方向
- 32025-02-12“互联网+”时代的农产品营销与农业经济发展
- 42025-02-12羊肉消费市场调研
- 52025-02-12文创产品营销策略
- 62025-01-21论文顺利通过审稿的8个操作
- 72025-01-15经济学英文论文好发的期刊《Energy Economics》
- 82025-01-11管理学类30本期刊(国自然基金委员会认定)
- 12021-05-24刊号字母G、G0、G1、G2、G3、G4、G8是什么意思
- 22021-05-06论文引用率不能超过多少
- 32018-09-11语法翻译法的运用以及优缺点分析
- 42020-03-08发表在期刊上的论文一般多少字
- 52020-09-21疾控中心工作怎么评职称
- 62020-01-03新北大核心什么时候更新,几年更新一次
- 72020-03-08通讯作者和二作哪个含金量比较高
- 82021-02-23发表的期刊论文见刊的时候可以在知网查到吗