关于在学习python爬虫时的学习记录

最近学习python3爬虫,看的是这位博主的博客,不得不说,是真的厉害,通俗易懂^ _ ^

我要学习的还有很多…从基本的python知识,我就被难倒了…

哎,记录下我的盲点…

花了近一个钟头测试出来的结果。

  • 在爬取相关的html时,text ≠ text[0]

后者是正确的。我一直以为不加的效果也是一样的结果,在我理解看来就是从头开始的,即从0到尾的所有相关的内容,实际上我的理解与相关的python基础不谋而和,可能是爬虫就需要如此的?我就默认好了…

  • python中的方法后面的()是不可省去的

在我学过一些其他的语言,在方法后面可不加括号,如Scala,曾经我在其他的python编程中是行得通的…但是在处理爬虫的代码时就报错了,我也默认了…

  • class括号中的object是可有可无的

这无疑是python的基本知识…

  • 关于在python中类似C中的printf函数的使用

基本上是与C中的用法一致的,但是在爬虫中需要将爬取的内容输出,就需要%%来表示了…参考了这篇文章,其中的有句这样解释道:用进行转义一样,这里用%作为格式标记的标识,也有一个%本身应该如何输出的问题。如果要在”格式标记字符串“中输出%本身,可以用%%来表示。

在用文件的iorequests模块的结合(x.content()),可达到与urlretrieve函数同样的效果(只需输入URL地址即可)。

总结:还需要更多的学习。

---------------本文终---------------