用python3爬取新加坡联合早报新闻小视频

位于新加坡的联合早报是我几乎每天都会看的新闻网址,标题清晰明了,思路严谨踏实,是个好的新闻网站,值得推荐。不过却是被墙了…

今天看了这一篇文章:女记者提问冗长 人民大会堂部长通道出现“飙戏”一幕

非常有意思,想收藏其中的视频,于是想到了用python爬取好了。

这个新闻网站明显是一个动态网站啊,两种方式:

  • 第一种:通过抓包,如下可得知相关的video信息

  • 第二种:网站自带的连接

如下操作,点击视频中share,可发现资源地址

右上角的share

其中有地址信息。

在获取的地址前加上http:简单测试一下:

是正确的,网站真的很贴心呢~

以刚刚的地址输入爬取下来的代码:

1
2
3
4
5
6
from urllib.request import urlretrieve
if __name__ == '__main__':
print('开始下载...')
urlretrieve(url='http://players.brightcove.net/4802324430001/H1dr7zTWz_default/index.html?videoId=5750255765001.mp4', filename='两会小视频.mp4')
print('下载完成!')

结果:发现可在网上播放的视频下载之后却不能播放…占用的内存才几百kb…这一看就知道地址是错的…


经过上面网址播放的连接,再次进行抓包,打开相关的网页意外发现了mp4格式的连接:


将此链接替换掉上面代码中的URL地址,发现可以了(如下图),完工。

---------------本文终---------------

文章作者:刘俊

最后更新:2019年01月02日 - 14:01

许可协议: 转载请保留原文链接及作者。