您的当前位置:首页正文

python爬虫|批量爬取某站视频评论数据

2024-11-10 来源:个人技术集锦

引言:最近一段时间ChatGPT成为热点,B站上也有许多相关视频,本文以此为例,对使用Python爬取某站视频评论做简要分享,以下是笔者的分析思路,欢迎探讨。

step1:查看视频网页源代码,判断能否直接静态获取。

可以从上图看出,视频评论不是静态存储于源代码中的。

step2:从network(网络)中查找评论所在url。

 通过以上方法可以发现评论所在url,即为标头处的url,将其复制后在新标签页打开:

另外,还可以发现,往下拖动时评论慢慢加载出来,可知评论是动态加载的,我们用同样的方法获取第2条url,从而对比进行分析,此处目的是通过程序实现自动批量爬取。 

第1条url:https://api.bilibili.com/x/v2/reply/main?csrf=c55eefb1d6d5bc75e89083be585bb291&mode=3&next=1&oid=653520954&plat=1&type=1

第2条url:https://api.bilibili.com/x/v2/reply/main?csrf=c55eefb1d6d5bc75e89083be585bb291&mode=3&next=2&oid=653520954&plat=1&type=1

对比发现在url的next参数不一样,由此可以通过此来批量爬取。

step3:以json形式解析获取所需数据,关键代码:

li = resq['data']['replies']
for i in li:
    print(i['content']['message'])
    print('\n\n\n')

最终获取得到该视频评论数据:

需要说明的是以上链接只获取对视频的直接评论数据,而对于评论的评论是获取不到的,这些存储在另外的url中,可以通过类似方法获取得到。

总结:以上未对数据进行规整保存,因为本文目的是探讨如何获取B站视频评论数据,以上做出了简要的探讨分析,欢迎探讨。 

显示全文