基于深度学习的,深度学习框架-云视觉饰品网

基于深度学习的,深度学习框架

admin • 2025年06月09日 03:50:04 • 发表评论

关于一些基于深度学习的和深度学习框架的热门话题，下面就让小编为大家一一讲解吧！

选自《走向数据科学》

作者卢卡斯苏亚雷斯

机器之心编译

对于许多人来说，将PDF转换为可编辑文本是必不可少的，但没有简单的方法。在本文介绍的项目中，K1Digital的高级机器学习工程师LucasSoares尝试使用OCR自动转录PDF幻灯片，转录效果还不错。

传统讲座通常附带一组PDF幻灯片。此类讲座的笔记通常需要从PDF中进行大量复制和粘贴。

最近，K1Digital的高级机器学习工程师LucasSoares正在寻求通过使用OCR自动转录PDF幻灯片来直接操作Markdown文件中的内容来自动化此过程。这避免了手动复制和粘贴PDF。这就是内容。

左边是项目作者卢卡斯苏亚雷斯。

项目地址

为什么不尝试使用传统的PDF到文本转换工具？

卢卡斯苏亚雷斯(LucasSoares)发现，传统工具往往会产生更多题，并且需要更长时间才能解决。他尝试使用传统的Python包，但遇到了很多题，因此他决定尝试使用对象检测和OCR来解决题。

基本过程可以分为以下步骤

将PDF转换为图像。

检测并识别图像中的文本。

查看示例输出。

使用基于深度学习的OCR将PDF转录为文本

将PDF转换为图像

Soares使用的PDF幻灯片来自DavidSilver的强化学习。使用“pdf2image”包将每张幻灯片转换为png图像格式。

PDF幻灯片示例。

地址

代码将如下所示

fromnbsp;pdf2imagenbsp;importnbsp;convert_from_pathfromnbsp;pdf2imageExceptionsnbsp;importnbsp;nbsp;PDFInfoNotInstalledError,nbsp;PDFPageCountError,nbsp;PDFSyntaxErrorpdf_pathnbsp;=nbsp;34;imagesnbsp;=nbsp;convert_from_pathpdf_pathfornbsp;i,nbsp;imagenbsp;innbsp;enumerateimages:nbsp;nbsp;nbsp;处理后，所有PDF幻灯片将转换为PNG格式的图像。

检测和识别图像中的文本

为了检测和识别PNG图像中的文本，Soares使用ocrpytorch库中的文本检测器。按照说明下载模型并将其保存到您的检查点文件夹中。

ocrpytorch库地址

代码将如下所示

39;RGB39;/input_images/39;/output_images_with_boxes/nbsp;Ifnbsp;thenbsp;outputnbsp;foldernbsp;existsnbsp;wenbsp;willnbsp;removenbsp;itnbsp;andnbsp;redonbsp;itifnbsp;ospathexistsresult_dir:nbsp;nbsp;nbsp;nbsp;shutilrmtreeresult_dirosmkdirresult_dirfornbsp;image_filenbsp;innbsp;sortedimage_files:nbsp;nbsp;nbsp;nbsp;结果，nbsp;image_framednbsp;=nbsp;single_pic_procimage_filenbsp;39;/39;/39;39;txt39;w39; 34;/output_images_with_boxesnbsp;imagenbsp;=nbsp;cvimreadstrnprandomchoicelistoutput_diriterdir，1[0]imagenbsp;=nbsp;cvimreadf34;size_reshapenbsp;=nbsp;intimageshape[1],intimageshape[0]imagenbsp;=nbsp;cvresizeimage,nbsp;size_reshapecvimshow34;nbsp;imagecvwaitKey0cvdestroyAllWindows下面的左图是原始PDF幻灯片右图显示转录后的输出文本非常准确。

这是文本识别的输出

文件名nbsp;=nbsp;f34;withnbsp;Openfilename,nbsp;34;nbsp;asnbsp;Text:nbsp;nbsp;nbsp;Fornbsp;Linenbsp;Innb;Innb;Innb;Innb;Sp;TextReadlines33:nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;nbsp;使用上述方法，您最终会得到一个非常强大的工具，用于转录各种文档，从检测和识别手写笔记到检测和识别照片中的随机文本。使用自己的OCR工具来处理一些文本内容比依赖外部软件转录文档要好得多。

原文链接

本文对基于深度学习的和深度学习框架的这类题作详细解，希望对大家有所帮助。

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于深度学习的,深度学习框架

No Comment

留言

留言 取消回复

留言