深度学习之基于Pytorch OCR识别文本检测系统(实时和图片)-索炜达.猿创

最近更新：2023年5月9日

深度学习之基于Pytorch OCR识别文本检测系统(实时和图片)

554。

2022-11-22 小编已收录已售0次关注554次

600积分优惠信息:一口价

演示地址 QQ咨询

代码亲测无错

付费远程配置

付费代码讲解

付费文档代写

特别声明：该项目代码运行正常，已经通过测试，可以正常使用！原创产品提供以上服务，如有需求，联系客服QQ:189013997！索炜达.猿创http://www.2zcode.com 如何获得积分

编号：A458
大小：65M
环境：Python3.8.5、OpenCV、Pytorch、PyCharm2020
简介：CRNN+CTC文本识别网络构建
首先CNN提取图像卷积特征
然后LSTM进一步提取图像卷积特征中的序列特征

一般情况下对一张图像中的文字进行识别需要以下步骤：

定位文稿中的图片，表格，文字区域，区分文字段落（版面分析）
进行文本行识别（识别）
使用NLP相关算法对文字识别结果进行矫正（后处理）
整个CRNN网络可以分为三个部分：

假设输入图像大小为，注意提及图像都是形式。

Convlutional Layers
这里的卷积层就是一个普通的CNN网络，用于提取输入图像的Convolutional feature maps，即将大小为的图像转换为大小的卷积特征矩阵，网络细节请参考本文给出的实现代码。

Recurrent Layers
这里的循环网络层是一个深层双向LSTM网络，在卷积特征的基础上继续提取文字序列特征。
在CRNN中显然使用了第二种stack形深层双向结构。
由于CNN输出的Feature map是大小，所以对于RNN最大时间长度（即有25个时间输入）。

Transcription Layers
将RNN输出做softmax后，为字符输出。
对于Recurrent Layers，如果使用常见的Softmax cross-entropy loss，则每一列输出都需要对应一个字符元素。那么训练时候每张样本图片都需要标记出每个字符在图片中的位置，再通过CNN感受野对齐到Feature map的每一列获取该列输出对应的Label才能进行训练，如图9。
在实际情况中，标记这种对齐样本非常困难（除了标记字符，还要标记每个字符的位置），工作量非常大。另外，由于每张样本的字符数量不同，字体样式不同，字体大小不同，导致每列输出并不一定能与每个字符一一对应。