这个是在北京实习期的公司要求做的一个小的项目,简单在此做个主要内容的解析以及相关主要代码的分享。
简要解析
首先以爬取新闻内容以及来源等主要信息为例。
- 爬取的来源链接:https://voice.hupu.com/china/1
其中的题目以及时间和来源以及可以在静态页面上进行抓取,直接利用Python的相关库进行清洗提取即可。另外在主页面可以抓取到每一条新闻的内容页面,内容页面即包括了文字及图片,这些均可直接提取。
另外为了获取新闻的浏览量,我们选择了进入新闻相应的论坛进行了爬取,如下可知:
关于这个浏览量是实时变化的,所以需要额外解析。
可得实时变化的链接为:https://msa.hupu.com/thread_hit?tid=35418557&_=1589521335428
tid
即为每个文章URL上的的ID。
代码部分
主要贴上用Scrapy写的解析部分的代码:
|
|
其他的感觉也没什么好说的…