关于NBA官网的数据爬取的解析,其中记录了视频源链接(可直接进行下载的链接)以及文字的可爬取解析过程。
爬取视频解析过程
以《Legends profile: Michael Jordan》为例,其中有视频亦有文字。在爬取这些个视频之前我以为又是M3u8格式的,曾经在国内主流视频平台均有见到过这种格式,至今我还没有完全破解该格式爬取的方法…所以心里没底。出乎意料地,在NBA官网上都是.mp4
格式的。爬取解析过程中也是很轻松就爬取到了视频源。
千言万语不过一张图:
即打开对应的
.XHR
格式的进行筛选,即可在其中查找到资源源地址,发现每一个视频都有这么一个文件,里面就可以查找到视频的各种清晰度等信息…整个过程还是很轻松的。其实这种方法可以适用很多网站!
以下为动图操作演示:
拿到视频的源地址之后,可直接用浏览器进行下载即可,当然若是下载的多可用Python写个爬虫程序亦可。
关于文字解析
可先看以下的图解析:
实际上可发现文字部分还是属于一种静态资源的(实际上文字资源都是这么一回事…)关于静态资源的爬取就不多说了,直接启用Python结合一些模块爬取是最快的。
最后
通过结合Chrome浏览器下载下来的视频演示:
就这样了~