本文讲述基于python的一些模块进行图片内容的提取
、图片内容的翻译
。本文主要进行记录一些在实践中的构想以及遇到的问题,并且记录上一些实现的代码,因为技术含量实在是不怎么高的,不过若是自己玩玩,参加那种水比赛也许能获得个不错的名次,或者是应付个学生报告什么的…
由于时间关系,本文多数只是起到一个构想记录的效用。
基于OCR的图片内容提取
在python使用到的模块是pytesseract
,关于简要的下载介绍什么的可见:Python–文字识别–Tesseract。
运行代码:
|
|
在此记录一下在使用过程中的出现的问题:
问题一:
|
|
我使用了其中的前面的几个答案的方案,结果出现了下面的错误…
问题二:
|
|
但是依旧得不到解决。
解决方案:
使用命令行:
|
|
找到了它的位置(没想到Mac自带的一个?):
|
|
然后虽然在替换了地址之后可以正常运行代码了(即tesseract_cmd = “/usr/local/bin/tesseract”
),就会变得很麻烦,因为自带的根本难以进行扩展。
将下载好的加入环境变量替换掉原装的:
|
|
写入:
|
|
立即生效:
|
|
之后再使用命令行which tesseract
,就会发现变了位置,更改tesseract_cmd = “/usr/local/Cellar/tesseract/4.0.0/bin/tesseract”
,之后程序就能成功运行并且可以得到以后的更多的扩展使用了,比如语言包的选择。
在线提取图片文字小工具
提取这一块的具体过程就不多说了,简单记录一下结合其他技术可以实现的想法:
可结合
Pyqt5
的GUI界面化开发,输入图片的目录地址,下方即出现提取的内容。在以上的基础上结合爬虫实现翻译。
可参考我以前写的文章:python3爬虫与GUI-基于有道词典的词典小工具
这样一来这个小工具就能出来了。这里就这样吧,因为时间关系加上实现的过程不是很难,所以就不多说了。
- 关于提取的精确度可移步参考更强大的工具:deep_ocr
结合OpenCV实时翻译
这里主要是我在参考了:用OpenCV和Python识别二维码和条形码这篇文章之后结合本身的需求出现的启发。
这是我经过修改之后的代码(添加并且修改了几行代码):
|
|
性能得到了一点的优化,少写了点代码。效果没变化。
关于实现实时翻译的效果,这里可结合上面的有道爬虫与OpenCV来完成。基本上进行一些修改就行了,实现的过程不算太难。多参考官方文档以及他人的做法即能实现。
大概的代码样本:
|
|
可参考:
最后
记录一下在下载tesseract之后的提示,有一天可能会用到:
|
|