关于一些基于深度学习的和深度学习框架的热门话题,下面就让小编为大家一一讲解吧!
选自《走向数据科学》
作者卢卡斯苏亚雷斯
机器之心编译
对于许多人来说,将PDF转换为可编辑文本是必不可少的,但没有简单的方法。在本文介绍的项目中,K1Digital的高级机器学习工程师LucasSoares尝试使用OCR自动转录PDF幻灯片,转录效果还不错。
传统讲座通常附带一组PDF幻灯片。此类讲座的笔记通常需要从PDF中进行大量复制和粘贴。
最近,K1Digital的高级机器学习工程师LucasSoares正在寻求通过使用OCR自动转录PDF幻灯片来直接操作Markdown文件中的内容来自动化此过程。这避免了手动复制和粘贴PDF。这就是内容。
左边是项目作者卢卡斯苏亚雷斯。
项目地址
为什么不尝试使用传统的PDF到文本转换工具?
卢卡斯苏亚雷斯(LucasSoares)发现,传统工具往往会产生更多题,并且需要更长时间才能解决。他尝试使用传统的Python包,但遇到了很多题,因此他决定尝试使用对象检测和OCR来解决题。
基本过程可以分为以下步骤
将PDF转换为图像。
检测并识别图像中的文本。
查看示例输出。
使用基于深度学习的OCR将PDF转录为文本
将PDF转换为图像
Soares使用的PDF幻灯片来自DavidSilver的强化学习。使用“pdf2image”包将每张幻灯片转换为png图像格式。
PDF幻灯片示例。
地址
代码将如下所示
fromnbsp;pdf2imagenbsp;importnbsp;convert_from_pathfromnbsp;pdf2imageExceptionsnbsp;importnbsp;nbsp;PDFInfoNotInstalledError,nbsp;PDFPageCountError,nbsp;PDFSyntaxErrorpdf_pathnbsp;=nbsp;34;imagesnbsp;=nbsp;convert_from_pathpdf_pathfornbsp;i,nbsp;imagenbsp;innbsp;enumerateimages:nbsp;nbsp;nbsp;处理后,所有PDF幻灯片将转换为PNG格式的图像。
检测和识别图像中的文本
为了检测和识别PNG图像中的文本,Soares使用ocrpytorch库中的文本检测器。按照说明下载模型并将其保存到您的检查点文件夹中。
ocrpytorch库地址
代码将如下所示
39;RGB39;/input_images/39;/output_images_with_boxes/nbsp;Ifnbsp;thenbsp;outputnbsp;foldernbsp;existsnbsp;wenbsp;willnbsp;removenbsp;itnbsp;andnbsp;redonbsp;itifnbsp;ospathexistsresult_dir:nbsp;nbsp;nbsp;nbsp;shutilrmtreeresult_dirosmkdirresult_dirfornbsp;image_filenbsp;innbsp;sortedimage_files:nbsp;nbsp;nbsp;nbsp;结果,nbsp;image_framednbsp;=nbsp;single_pic_procimage_filenbsp;39;/39;/39;39;txt39;w39; 34;/output_images_with_boxesnbsp;imagenbsp;=nbsp;cvimreadstrnprandomchoicelistoutput_diriterdir,1[0]imagenbsp;=nbsp;cvimreadf34;size_reshapenbsp;=nbsp;intimageshape[1],intimageshape[0]imagenbsp;=nbsp;cvresizeimage,nbsp;size_reshapecvimshow34;nbsp;imagecvwaitKey0cvdestroyAllWindows下面的左图是原始PDF幻灯片右图显示转录后的输出文本非常准确。
这是文本识别的输出
文件名nbsp;=nbsp;f34;withnbsp;Openfilename,nbsp;34;nbsp;asnbsp;Text:nbsp;nbsp;nbsp;Fornbsp;Linenbsp;Innb;Innb;Innb;Innb;Sp;TextReadlines33:nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;使用上述方法,您最终会得到一个非常强大的工具,用于转录各种文档,从检测和识别手写笔记到检测和识别照片中的随机文本。使用自己的OCR工具来处理一些文本内容比依赖外部软件转录文档要好得多。
原文链接
本文对基于深度学习的和深度学习框架的这类题作详细解,希望对大家有所帮助。
No Comment