前言
最近对python爬虫很感兴趣,就花了一些时间来学习,学习了近一周的时间,终于在看了一些其他博客的大神写的教程之后,学会了利用beautifulsoup的方法爬取了一些网站的小说。在此分享我学习的成果。
- 关于详细的python3爬虫的学习教程以及参考:学习教程
- 本文参考并且学习了:这篇文章
- 在以下的文中主要介绍爬小说的技巧。
爬取的过程
素材
技巧分析
在编写代码前应先在浏览器中(推荐Chrome,我用的Safari)查看在网页抓包中的相关的内容信息,一般查看其中的:
charset
(即其中的编码类型,在后面的程序中需要)在文章开始阶段的前的那一小段html编码
如下图所示的(等下将要用到):
charset
所示:
一般在最前头可以看到。
主要的一小段html
(即为div
的标签,后面为相应的属性值,即一个html
中有多个标签,每一个标签用不同的属性值来进行标记以表示不同的标签,从而在一个页面中可以有多个不同的内容展示出来)所示:
如上在文章的前边的那一小段的html代码。
代码
- 可先用相关的代码查看相关的网页字符属于那种编码类型
|
|
具体的学习可以参考这篇文章。
- 开始编写爬取相关内容的代码。将其中的URL地址以及相关的charset所属字符在以下的代码中修改一下均可达到在下方效果的显示
|
|
详细可参考:这篇文章
结果查看
- 关于在第一段的实战效果:
- 关于在第二段的实战效果:
最后
在网页中爬取的小说内容都是可以直接下载至本地的,具体的可以参考以上的那个学习教程。
可学习的参考网站: