获取文本文件的途径较多,主要有以下几种方式(图3-1)。
图3-1 获取文本资源的途径示意图
(一)键盘录入
手工录入是计算机应用的最普通、最直接的文本获取途径,主要指通过计算机连接键盘,再利用相应的软件(如Word、Excel、WPS等)将需要的信息录入计算机中。Windows系统内嵌各种语言的输入法,默认为英语输入法。中文输入要安装中文输入软件,比如搜狗拼音输入法、QQ拼音输入法、搜狗五笔输入法、QQ五笔输入法等,安装后在控制面板中点击“区域和语言”,选择“添加语言”,选取想要添加的输入法。转换输入法的快捷键为Shift+Ctrl或Ctrl+空格(Win 10)。
(二)手写录入
通过计算机连接手写板(图3-2)或利用鼠标(图3-3),通过手写软件识别系统把手写的各种字体转换为计算机可识别的标准字体,手写录入广泛应用于智能手机、平板电脑等移动设备。汉王手写板和手写笔在识别技术、响应速度、个性输入、连接方式等具有优势,在不喜欢键盘录入和特殊录入的人群中拥有较高使用率。
图3-2 汉王手写板示意图
图3-3 手写录入软件示意图
(三)语音录入
在计算机连接麦克风(MIC)、智能手机、平板电脑等移动设备(内置MIC),并安装语音输入软件后,运行该软件,打开WPS、Word等文字处理软件,人声通过麦克风和软件将语音识别后转换成文字。讯飞科技的语音识别、语音合成技术比较先进,在国内应用比较广泛。讯飞语音输入法识别度、准确率都比较高。
(四)文字扫描
利用扫描仪、扫描笔、手机等设备将印刷品中的文字扫描成图像形式,再用光学字符识别软件OCR(Optical Character Recognition)将图像中的文字识别出来,并转换成文本格式文件。目前OCR的识别正确率还不能达到百分之百(受文件内容、文稿印刷质量、设备好坏、软件选择等因素影响),有时出错率比较高,尤其是对英文的识别,所以对识别出的文本必须进行人工校正和编辑。
1.利用智能手机完成文字识别(www.daowen.com)
手机版OCR识别软件非常多,可以在手机“应用市场”查找下载,以“OCR扫描王”软件(图3-4)为例,打开软件选择“通用文档识别”,点击“拍照识别”,打开相机,如图3-5所示,利用手机内置相机,对纸质文稿、图片、显示器的文字进行拍照(保持文稿平整、光线充足、手持稳定),再选择需要识别的文字内容,点击确定“√”后就自动识别出文字内容(图3-6),点击“复制”保存到粘贴板,然后粘贴到其他文字编辑软件中进行编辑、修改,即可获得文本文件。
图3-4 OCR软件示意图
图3-5 手机照相示意图
图3-6 文字识别示意图
2.利用计算机连接扫描仪、安装OCR软件进行
扫描仪一般分为(1)滚筒扫描仪:分高档滚筒扫描仪和小型台式滚筒扫描仪;(2)平板扫描仪:分高、中、低三个档次,针对印刷设计应选用高、中档扫描仪;(3)手持式扫描仪,可用于办公室等;(4)胶片和透明介质扫描仪,用于数字化35 mm的正片和负片。办公一般用A3或A4规格的平板扫描仪(图3-7)。
图3-7 平板扫描仪示意图
(五)格式转换
格式转换指将一种文件格式转换为其他格式,如PDF、CAJ等格式文件转换为Word格式文件。PDF(Portable Document Format的简称,意为“便携式文档格式”)是由Adobe Systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。它的优点是跨平台、能保留文件原有格式、开放标准,越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。其缺点是不能进行编辑和修改,因此要先将其转换成可编辑的文本格式文件,可使用Word、Solid Converter PDF、Adobe Acrobat等软件进行转换,还有国内一些网站也提供在线PDF转换。
CAJ为中国学术期刊全文数据库的英文缩写(China Academic Journals);CAJ同时也是中国学术期刊全文数据库中的一种文件格式,需使用CAJViewer来阅读。CAJ转换:在CAJ浏览器的左上角找到文字识别功能图标,然后框选需要转换的内容,这时候会自动生成文字识别结果,再将结果复制到剪贴板或发送到WPS/Word中即可进行编辑和修改。
(六)网络资源
通过搜索网站输入关键字,搜索需要的文本素材。如果是文本文件,选择文本链接,点击右键,选择“另存为”保存文件;如果是页面文字,选择所需文字,点击右键,选择“复制”或按“Ctrl+C”复制文字到剪贴板,然后粘贴到文字处理软件中。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。