import requests; import pandas as pd
from flask import request
from bs4 import BeautifulSoup
url = 'https://piaofang.maoyan.com/rankings/year'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/116.0.0.0 Safari/537.36 Edg/116.0.1938.62'}
response= requests1.get(url,headers=headers)
response.status_code

（2）解析网页和获取信息


soup = BeautifulSoup(response.text, 'html.parser')
soup=soup.find('div', id='ranks-list')
movie_list = []
 
for ul_tag in soup.find_all('ul', class_='row'):
    movie_info = {}
    li_tags = ul_tag.find_all('li')
    movie_info['序号'] = li_tags[0].text
    movie_info['标题'] = li_tags[1].find('p', class_='first-line').text
    movie_info['上映日期'] = li_tags[1].find('p', class_='second-line').text
    movie_info['票房(亿)'] = f'{(float(li_tags[2].text)/10000):.2f}'
    movie_info['平均票价'] = li_tags[3].text
    movie_info['平均人次'] = li_tags[4].text
    movie_list.append(movie_info1)
    movie_list
    movies=pd.DataFrame(movie_list)
movies.head(10)

（3）部分数据爬取结果展示

	序号	标题	上映日期	票房(亿)	平均票价
0	1	长津湖	2021-09-30 上映	57.75	46.383896	22
1	2	战狼2	2017-07-27 上映	56.95	35.594273	37
2	3	你好，李焕英	2021-02-12 上映	54.13	44.756565	24
3	4	哪吒之魔童降世	2019-07-26 上映	50.36	35.692467	23
4	5	流浪地球	2019-02-05 上映	46.87	44.59698	29
5	6	满江红	2023-01-22 上映	45.44	49.512146	24
6	7	唐人街探案3	2021-02-12 上映	45.24	47.60257	29
7	8	复仇者联盟4：终局之战	2019-04-24 上映	42.50	48.958096	23
8	9	长津湖之水门桥	2022-02-01 上映	40.67	49.286682	19
9	10	流浪地球2	2023-01-22 上映	40.29	50.792316	21

（4）数据清洗

数据清洗（Data Cleaning）是数据分析过程中至关重要的一步，其目的是确保数据的准确性、完整性和一致性。为了方便后续的数据分析，对爬取的数据进行清洗。


movies=movies.set_index('序号').loc[:'250',:]  
movies['上映日期']=pd.to_datetime(movies['上映日期'].str.replace('上映',''))
movies[['票房(亿)','平均票价','平均人次']]=movies.loc[:,['票房(亿)','平均票价','平均人次']].astype(float)
movies['年份']=movies['上映日期'].dt.year  ;   movies['月份']=movies['上映日期'].dt.month
movies.head(5)

清洗后数据部分展示：

序号	标题	上映日期	票房(亿)	平均票价	平均人次	年份	月份
1	长津湖	2021-09-30	57.75	46.383896	22.0	2021	9
2	战狼2	2017-07-27	56.95	35.594273	37.0	2017	7
3	你好，李焕英	2021-02-12	54.13	44.756565	24.0	2021	2
4	哪吒之魔童降世	2019-07-26	50.36	35.692467	23.0	2019	7
5	流浪地球	2019-02-05	46.87	44.596980	29.0	2019

二、数据分析

（1）绘制排行榜前10的柱状图


import seaborn as sns
import matplotlib.pyplot as plt
plt.rcParams ['font.sans-serif'] ='SimHei'               #显示中文
plt.rcParams ['axes.unicode_minus']=False  
top_movies = movies.nlargest(10, '票房(亿)')
plt.figure(figsize=(7, 4),dpi=128)
ax = sns.barplot(x='票房(亿)', y='标题', data=top_movies, orient='h',alpha=0.5)
 
for p in ax.patches:
    ax.annotate(f'{p.get_width():.2f}', (p.get_width(), p.get_y() + p.get_height() / 2.),
                va='center', fontsize=8, color='gray', xytext=(5, 0),
                textcoords='offset points')
 
plt.title('票房前10的电影')
plt.xlabel('票房数量（亿）')
plt.ylabel('电影名称')
plt.tight_layout()
plt.savefig("squares.png",
            bbox_inches ="tight",
            pad_inches = 1,
            transparent = True,
            facecolor ="w",
            edgecolor ='w',
            dpi=300,
            orientation ='landscape')

输出结果：

（2）对平均票价和平均人次进行分析


plt.figure(figsize=(7, 6),dpi=128)
plt.subplot(2, 2, 1)
sns.scatterplot(y='平均票价', x='年份', data=movies,c=movies['年份'],cmap='plasma')
plt.title('平均票价点图')
plt.ylabel('平均票价')
#plt.xticks([])
 
plt.subplot(2, 2, 2)
sns.boxplot(y='平均票价', data=movies)
plt.title('平均票价箱线图')
plt.xlabel('平均票价')
 
plt.subplot(2, 2, 3)
sns.scatterplot(y='平均人次', x='年份', data=movies,c=movies['年份'],cmap='plasma')
plt.title('平均人次点图')
plt.ylabel('平均人次')
 
plt.subplot(2, 2, 4)
sns.boxplot(y='平均人次', data=movies)
plt.title('平均人次箱线图')
plt.xlabel('平均人次')
plt.tight_layout()
plt.savefig("squares1.png",
            bbox_inches ="tight",
            pad_inches = 1,
            transparent = True,
            facecolor ="w",
            edgecolor ='w',
            dpi=300,
            orientation ='landscape')

输出结果：

（3）绘制词云图


import numpy as np
def randomcolor():
    colorArr = ['1','2','3','4','5','6','7','8','9','A','B','C','D','E','F']
    color ="#"+''.join([np.random.choice(colorArr) for i in range(6)])
    return color
[randomcolor() for i in range(3)]
from wordcloud import WordCloud
from matplotlib import colors
from imageio.v2 import imread 
mask = imread('底板.png')  
word_freq = dict(zip(movies['标题'], movies['票房(亿)']))
color_list=[randomcolor() for i in range(20)]
 
wordcloud = WordCloud(width=500, height=500, background_color='white',font_path='simhei.ttf',
                      max_words=250, max_font_size=250,random_state=42,mask = mask,
                          colormap=colors.ListedColormap(color_list)).generate_from_frequencies(word_freq)
 
plt.figure(figsize=(10, 5),dpi=300)
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.savefig("squares1.png",
            bbox_inches ="tight",
            pad_inches = 1,
            transparent = True,
            facecolor ="w",
            edgecolor ='w',
            dpi=300,
            orientation ='landscape')

输出结果：

更多优质内容持续发布中，请移步主页查看。

若有问题可邮箱联系：1736732074@qq.com

博主的WeChat:TCB1736732074

点赞+关注,下次不迷路！

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/371910

中国电影票房排行数据爬取及分析可视化_爬取中国电影票房保存csv并可视化

一、爬取中国电影票房排行数据

（1） 传入网页和请求头

（2）解析网页和获取信息

（3）部分数据爬取结果展示

（4）数据清洗

二、数据分析

（1）绘制排行榜前10的柱状图

（2） 对平均票价和平均人次进行分析

（3） 绘制词云图

（1）传入网页和请求头

（2）对平均票价和平均人次进行分析

（3）绘制词云图