当前位置:   article > 正文

用Python扒出B站那些“惊为天人”的阿婆主!

b站播放量两位数

戳蓝字“CSDN云计算”关注我们哦!

作者 | 徐麟

责编 | 阿秃

前言

近期B站的跨年晚会因其独特的创意席卷各大视频网站,给公司带来了极大的正面影响,股价也同时大涨,想必大家都在后悔没有早点买B站的股票:

然而今天我们要讨论的不是B站的跨年晚会,而是B站的核心资源:“惊为天人”的阿婆主们,文章的灵感来自于知乎热榜上的一个问题:

数据获取

上面的问题一共获得了859个回答,本文的数据也正来源于此,由于很多回答都会将带有阿婆主ID的链接在回答中体现,如下图所示:

我们可以将问题中出现的阿婆主空间id进行了爬取,但考虑到并不是所有回答都会带有这样的ID,于是将一些加粗的字体进行了提取,从中获得一些阿婆主的名称,作为数据的补充:

上面的这个回答就是一个典型的案例,其中提到了之前非常火的获得库克生日祝福的小学生,提取数据的一些代码如下:

  1. # 开始爬取数据
  2. driver = webdriver.Chrome()
  3. driver.maximize_window()
  4. url = 'https://www.zhihu.com/question/291506148'
  5. js='window.open("'+url+'")'
  6. driver.execute_script(js)
  7. for i in range(1000):
  8.      time.sleep(1)
  9.      js="var q=document.documentElement.scrollTop=10000000"  
  10.      driver.execute_script(js)
  11.      print(i)
  12. # 整理数据
  13. all_html = [k.get_property('innerHTML') for k in driver.find_elements_by_class_name('AnswerItem')]
  14. all_text = ''.join(all_html)
  15. pat = '/space.bilibili.com/\d+'
  16. spaces = list(set([k for k in re.findall(pat,all_text)]))

现在获取到了要这些“惊为天人”的阿婆主们的ID,下一步要做的就是需要爬取他们B站的个人空间,获得更多详细的信息:

上面就是B站知名科学家手工耿的个人空间,从中我们可以获取手工耿的粉丝数,视频主要类型(一直以为应该是科技,没想到居然是生活,B站节操可以的)以及所有视频平均的播放量、弹幕数、评论数,作为后续进行排名的依据,部分代码如下:

  1. upstat = pd.DataFrame(columns=['name','fans','face','main_type','total_video',
  2.                                'total_play', 'total_comment'])
  3. for i in range(len(spaces)):
  4.     try:
  5.         time.sleep(1)
  6.         space_id = str(spaces[i].replace('/space.bilibili.com/',''))
  7.         url= 'https://api.bilibili.com/x/web-interface/card?mid={}&jsonp=jsonp&article=true'.format(space_id)
  8.         html = requests.get(url=url, cookies=cookie, headers=header).content
  9.         data = json.loads(html.decode('utf-8'))['data']
  10.         this_name = data['card']['name']
  11.         this_fans = data['card']['fans']
  12.         this_face = data['card']['face']
  13.         this_video = int(data['archive_count'])
  14.         total_page = int((this_video-1)/30)+1
  15.         video_list=[]
  16.         for j in range(total_page):
  17.             url = 'https://api.bilibili.com/x/space/arc/search?mid={}&ps=30&tid=0&pn={}&keyword=&order=click&jsonp=jsonp'.format(space_id,str(j+1))
  18.             html = requests.get(url=url, cookies=cookie, headers=header).content
  19.             data = json.loads(html.decode('utf-8'))
  20.             if j == 0 :
  21.                  type_list = data['data']['list']['tlist']
  22.             this_list = data['data']['list']['vlist']
  23.             video_list = video_list + [ this_list [k] for k in range(len(this_list))]
  24.         type_list = list(type_list.values())
  25.         type_list = {type_list[k]['name']:int(type_list[k]['count']) for k in range(len(type_list))}
  26.         this_type = max(type_list,key=type_list.get)
  27.         this_play = sum([video_list[k]['play'] for k in range(len(video_list)) if video_list[k]['play'] != '--'])
  28.         this_comment = sum([video_list[k]['comment'] for k in range(len(video_list)) if video_list[k]['comment'] != '--'])
  29.         upstat = upstat.append({'name':this_name,
  30.                                'fans':this_fans,
  31.                                'face':this_face,
  32.                                'main_type':this_type,
  33.                                'total_video':this_video,
  34.                                'total_play':this_play,
  35.                                'total_comment':this_comment},
  36.                               ignore_index=True)
  37.         print('success:'+str(i))
  38.     except:
  39.         print('fail:'+str(j))
  40.         continue

最终我们就获得了B站200多位“惊为天人”的阿婆主们的信息,概览数据如下:

总体概览

获得了这些数据之后,我们首先看一下这些“惊为天人”阿婆主们发布的视频主要类型分布:

由于B站生活的分类中包罗万象,手工耿和李子柒都被划归到了生活类,想想都玄幻,因此这一类型的视频是分组多的,另外科技和数码类的占比也是非常多的,印证了B站是个优秀的学习网站的结论。

除此之外的视频可统称为娱乐类,包括了游戏、影视这些,之后会将视频类型按照科技、生活、娱乐进行大的划分,寻找各个类别最为“惊为天人”的阿婆主。

在开始进行正式的排名前,首先用Python将这些阿婆主的头像进行拼接,获得下面的图片,看看一眼望去有多少是你非常熟悉的阿婆主:

这部分代码如下:

  1. i = 0 
  2. for i in range(upstat.shape[0]):
  3.     loc = 'D:/爬虫/惊为天人/'+upstat['name'][i]+'.jpg'
  4.  # request.urlretrieve(upstat['face'][i],loc)
  5.     img = mpimg.imread(loc)[:,:,0:3]
  6.     img = cv2.resize(img, (500,500),interpolation=cv2.INTER_CUBIC)
  7.     if i % 20 == 0:
  8.         row_img=img
  9.     elif i == 19:
  10.         row_img=np.hstack((row_img,img))
  11.         all_img = row_img
  12.     elif i % 20 == 19:
  13.         row_img=np.hstack((row_img,img))
  14.         all_img = np.vstack((all_img,row_img))
  15.     else:
  16.         row_img=np.hstack((row_img,img))
  17.     i = i+1    
  18. plt.axis('off')
  19. plt.margins(0,0)
  20. plt.imshow(all_img)
  21. plt.savefig('头像.png',dpi=1000)

综合排名

下面要做的事情就比较大胆,要斗胆为这些阿婆主们进行排名,综合考虑他们的粉丝数,视频平均弹幕数、播放量、评论数,获得一个综合的指数,特此声明:本排名仅供娱乐,如要深究,AWSL

首先看一下进入TOP10的阿婆主们:

小编近期刚刚被安利的巫师财经榜上有名,建议大家去看一下,真的是将复杂的金融知识说得很接地气,华农兄弟和敬汉卿两大知名阿婆主也榜上有名,下面再来看下TOP11-20的榜单:

徐大sao,李子柒和手工耿在榜单中同时出现,未来有机会,希望有人能策划一次他们三人之间的合作,流程都想好了,手工耿为李子柒提供后现代的工具,李子柒利用手工耿的神器制作世界上最辣的辣椒,之后由徐大Sao一口吃掉,手工耿最后再用自己的脑瓜崩为徐大Sao缓解辣椒带来的不适感

分类排名

进行完综合排名之后,下面将所有阿婆主按照科技、生活、娱乐进行综合排名,分别活得各个分类的TOP10:

有了分类排名后,大家就可以按照自己的喜好按需索取,相信看完之后,脑洞会语法变大,一段时间后可以去尝试自己在B站发布视频,成为B站粉丝达到两位数的知名(才怪)阿婆主。

  1. 写在最后
  2. 希望通过本文,大家能够找到自己喜欢的阿婆主,为自己2020新的一年带来不一样的精彩。
  3. 福利
  4. 扫描添加小编微信,备注“姓名+公司职位”,加入【云计算学习交流群】,和志同道合的朋友们共同打卡学习!推荐阅读:消息称苹果斥资2亿美元收购Xnor.ai;华为2000万英镑投资,加速发展HMS手机生态系统;国产SSD将迎来爆发……
  5. 如何打造“智能助理”?阿里对话开发平台这样做
  6. 浪潮十年:“云计算”中崛起,“智慧计算”中爆发
  7. 掌握 8 种语言、被阿里点赞,这名德国程序员简直开挂了!
  8. 为什么 k8s 在阿里能成功?| 问底中国 IT 技术演进170个新项目,579个活跃代码仓库,Facebook开源年度回顾
  9. 真香,朕在看了!
声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号