The House Belong to Love and Freedom.

关于爬取NBA官网(NBA.com)数据

发表于 2019-06-18 | 分类于爬虫 |

| 字数统计: 417

关于NBA官网的数据爬取的解析，其中记录了视频源链接(可直接进行下载的链接)以及文字的可爬取解析过程。

爬取视频解析过程

以《Legends profile: Michael Jordan》为例，其中有视频亦有文字。在爬取这些个视频之前我以为又是M3u8格式的，曾经在国内主流视频平台均有见到过这种格式，至今我还没有完全破解该格式爬取的方法…所以心里没底。出乎意料地，在NBA官网上都是.mp4格式的。爬取解析过程中也是很轻松就爬取到了视频源。

千言万语不过一张图：

即打开对应的.XHR格式的进行筛选，即可在其中查找到资源源地址，发现每一个视频都有这么一个文件，里面就可以查找到视频的各种清晰度等信息…整个过程还是很轻松的。其实这种方法可以适用很多网站！

以下为动图操作演示：

拿到视频的源地址之后，可直接用浏览器进行下载即可，当然若是下载的多可用Python写个爬虫程序亦可。

关于文字解析

可先看以下的图解析：

实际上可发现文字部分还是属于一种静态资源的(实际上文字资源都是这么一回事…)关于静态资源的爬取就不多说了，直接启用Python结合一些模块爬取是最快的。

最后

通过结合Chrome浏览器下载下来的视频演示：

就这样了～

---------------本文终---------------

文章作者:刘俊

最后更新:2019年06月18日 - 11:06

许可协议: 转载请保留原文链接及作者。

分享到：收藏夹复制网址邮件微信 QQ空间腾讯微博豆瓣一键分享更多