学习python3网络爬虫的总结

  • 有时在爬取的过程中很慢,以至于没有什么反应,第一应当先检查网络连接的情况,网络带宽突然变得很慢亦是一个问题,遇到了好几次,以为程序出了问题,不想却是网络带宽问题…
  • 在爬取动态网页中,学会利用抓包进行解决,分析每一个点以及对可以达到目的的每一点进行抓包分析,挖掘其中的信息。另外,在爬取网页信息中,有一些反爬虫的或者是必须加入一些参数代理才可得到需要的信息等,俊需要一个点一个步骤的去分析。
  • 在爬取网页的过程中,编写代码时,检查代码的函数方法的准确性,少一个‘s’与多一个‘s’,都是让人头疼的问题。

  • 在编写代码的过程中,追求最好的解决方案,习惯于用面向对象来编写代码,便于以后的学习。

  • 编写爬虫代码,要让其像是一个浏览器一般的去爬取数据,所以代理之类的应当要严谨使用。

  • 分析html信息,善于用正则表达式解决一些代码与文字的混合信息。

  • 对URL的分析到位亦然很重要。

  • 学会快速判断是否为动态网页。

  • python 编程缩进很重要!!!!

---------------本文终---------------