关于爬取NBA官网(NBA.com)数据

关于NBA官网的数据爬取的解析,其中记录了视频源链接(可直接进行下载的链接)以及文字的可爬取解析过程。

爬取视频解析过程

《Legends profile: Michael Jordan》为例,其中有视频亦有文字。在爬取这些个视频之前我以为又是M3u8格式的,曾经在国内主流视频平台均有见到过这种格式,至今我还没有完全破解该格式爬取的方法…所以心里没底。出乎意料地,在NBA官网上都是.mp4格式的。爬取解析过程中也是很轻松就爬取到了视频源。

千言万语不过一张图:

即打开对应的.XHR格式的进行筛选,即可在其中查找到资源源地址,发现每一个视频都有这么一个文件,里面就可以查找到视频的各种清晰度等信息…整个过程还是很轻松的。其实这种方法可以适用很多网站!

以下为动图操作演示:

拿到视频的源地址之后,可直接用浏览器进行下载即可,当然若是下载的多可用Python写个爬虫程序亦可。

关于文字解析

可先看以下的图解析:

实际上可发现文字部分还是属于一种静态资源的(实际上文字资源都是这么一回事…)关于静态资源的爬取就不多说了,直接启用Python结合一些模块爬取是最快的。

最后

通过结合Chrome浏览器下载下来的视频演示:

就这样了~

---------------本文终---------------

文章作者:刘俊

最后更新:2019年06月18日 - 11:06

许可协议: 转载请保留原文链接及作者。