基于深度学习的,深度学习框架

关于一些基于深度学习的和深度学习框架的热门话题,下面就让小编为大家一一讲解吧!


选自《走向数据科学》

作者卢卡斯苏亚雷斯

机器之心编译

对于许多人来说,将PDF转换为可编辑文本是必不可少的,但没有简单的方法。在本文介绍的项目中,K1Digital的高级机器学习工程师LucasSoares尝试使用OCR自动转录PDF幻灯片,转录效果还不错。

传统讲座通常附带一组PDF幻灯片。此类讲座的笔记通常需要从PDF中进行大量复制和粘贴。

最近,K1Digital的高级机器学习工程师LucasSoares正在寻求通过使用OCR自动转录PDF幻灯片来直接操作Markdown文件中的内容来自动化此过程。这避免了手动复制和粘贴PDF。这就是内容。

左边是项目作者卢卡斯苏亚雷斯。

项目地址

为什么不尝试使用传统的PDF到文本转换工具?

卢卡斯苏亚雷斯(LucasSoares)发现,传统工具往往会产生更多题,并且需要更长时间才能解决。他尝试使用传统的Python包,但遇到了很多题,因此他决定尝试使用对象检测和OCR来解决题。

基本过程可以分为以下步骤

将PDF转换为图像。

检测并识别图像中的文本。

查看示例输出。

使用基于深度学习的OCR将PDF转录为文本

将PDF转换为图像

Soares使用的PDF幻灯片来自DavidSilver的强化学习。使用“pdf2image”包将每张幻灯片转换为png图像格式。

PDF幻灯片示例。

地址

代码将如下所示

fromnbsp;pdf2imagenbsp;importnbsp;convert_from_pathfromnbsp;pdf2imageExceptionsnbsp;importnbsp;nbsp;PDFInfoNotInstalledError,nbsp;PDFPageCountError,nbsp;PDFSyntaxErrorpdf_pathnbsp;=nbsp;34;imagesnbsp;=nbsp;convert_from_pathpdf_pathfornbsp;i,nbsp;imagenbsp;innbsp;enumerateimages:nbsp;nbsp;nbsp;处理后,所有PDF幻灯片将转换为PNG格式的图像。

检测和识别图像中的文本

为了检测和识别PNG图像中的文本,Soares使用ocrpytorch库中的文本检测器。按照说明下载模型并将其保存到您的检查点文件夹中。

ocrpytorch库地址

代码将如下所示

39;RGB39;/input_images/39;/output_images_with_boxes/nbsp;Ifnbsp;thenbsp;outputnbsp;foldernbsp;existsnbsp;wenbsp;willnbsp;removenbsp;itnbsp;andnbsp;redonbsp;itifnbsp;ospathexistsresult_dir:nbsp;nbsp;nbsp;nbsp;shutilrmtreeresult_dirosmkdirresult_dirfornbsp;image_filenbsp;innbsp;sortedimage_files:nbsp;nbsp;nbsp;nbsp;结果,nbsp;image_framednbsp;=nbsp;single_pic_procimage_filenbsp;39;/39;/39;39;txt39;w39; 34;/output_images_with_boxesnbsp;imagenbsp;=nbsp;cvimreadstrnprandomchoicelistoutput_diriterdir,1[0]imagenbsp;=nbsp;cvimreadf34;size_reshapenbsp;=nbsp;intimageshape[1],intimageshape[0]imagenbsp;=nbsp;cvresizeimage,nbsp;size_reshapecvimshow34;nbsp;imagecvwaitKey0cvdestroyAllWindows下面的左图是原始PDF幻灯片右图显示转录后的输出文本非常准确。

这是文本识别的输出

文件名nbsp;=nbsp;f34;withnbsp;Openfilename,nbsp;34;nbsp;asnbsp;Text:nbsp;nbsp;nbsp;Fornbsp;Linenbsp;Innb;Innb;Innb;Innb;Sp;TextReadlines33:nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;使用上述方法,您最终会得到一个非常强大的工具,用于转录各种文档,从检测和识别手写笔记到检测和识别照片中的随机文本。使用自己的OCR工具来处理一些文本内容比依赖外部软件转录文档要好得多。

原文链接


本文对基于深度学习的和深度学习框架的这类题作详细解,希望对大家有所帮助。

除非特别注明,本站所有文字均为原创文章,作者:admin

No Comment

留言

电子邮件地址不会被公开。 必填项已用*标注

感谢你的留言。。。