最近在学习python3网络爬虫,看的是这位学长的博客。
因为刚刚开始接触,想通过实战来一步步学习,所以先记录下我的学习心得,然后再记录下自己实战的成果以及相关的代码程序。
- 先声明,以下是学习心得,代码原搬,链接在上。
##开始爬取的图片的下载代码的演示
|
|
运行看看:
- 可参考:chardet模块简单认识
得到了图片的目录信息以及相关的信息之后,就好办了。
为什么这么说?实际上我们爬取图片时仅仅需要图片的目录地址就可以利用一两行python爬虫代码下载下来了,代码利用urllib.requests模块中的urlretrieve() 函数就能轻而易举的办到。代码在下,也可以查看相关的文档来学习。
|
|
可以自己试试。
因为我们是为了爬取多张图片…所以可以分析一下每一页URL的不同或者是相似点。看图1,2发现了有索引_2出现,那再点击下一页会有_3…
每一页有不同的照片,因为是一个专题…那么照片地址也不一样了(如图3,4)。
图1
图2
- 图3
- 图4
可以轻而易举的发现问题的所在了,接下来直接贴上完整的下载代码,不懂的朋友应当找相关的文档来自己查看,多写多实战!
完整代码
- 代码编译步骤:查看信息到分析整合最后是代码实现。
|
|
运行,查看效果:
在本工程目录夹可查收…
最后总结
代码还可以完善,比如可创建一个目录专门便于我们查收…
总之,还需要多多学习。
修改添加目录程序
|
|