基于java实现bilibili视频爬虫_java抓取bilibili哔哩哔哩网站

作者：二进制舞者2 | 2024-02-04 20:38:24

踩

java抓取bilibili哔哩哔哩网站

实验概述

【实验项目名称】

Implementing a Bilibili video webcrawler
1

【实验目的】

Understand HTTP requests, responses, and redirections.
Use apache-httpclient to make up requests and decompose responses.
Use jsoup to traverse between and inside HTML tags.
Know SQL grouping and sorting.
Use Maven to manage project dependencies.

【实验环境（使用的软件）】

Fiddler，IntelliJ IDEA

实验内容

1.爬取网页信息

打开Fiddler,并打开www.bilibili.com，点击任一版块，爬取信息

找到视频列表所对应的的包，是一个json文件，找到他的Headers,用于模拟连接。

之后可以看到这个json对应的内容，包括视频的av号，标题，作者，所属版块号，版块名称，硬币数，收藏数等，弄清楚这个json对象的格式，用于使用java HttpClient 模拟访问时解析json对象。

2.java爬取网页信息

新建项目homework_5，使用maven导入Apache的HttpClient包，建立项目依赖。

根据助教的教程，使用HttpClient模拟浏览器发送get请求，根据之前获取到的Headers建立模拟请求。网页响应后可以使用HttpEntity得到一串字符串，这个字符串中包含我们需要解析的json对象。

在这里我当时没有找到解析json的JSONObject方法，所以这里我使用了Google的Gson包。这个包虽然可以解析json，但只能解析标准格式的json对象，并且需要一个实体类来映射解析结果，而我们获取到的不是标准的json对象，在这里我使用了切割字符串的方法，将从网页上爬取到的字符串切割成一个个json对象，之后使用Gson进行映射解析。