赞
踩
具体猫眼数据(电影详情数据、演员详情数据)参考这篇博客:如何爬取猫眼全部信息(电影信息、演员信息)
ubuntu环境下mitmproxy的安装配置详见:ubuntu环境下使用mitmproxy代理服务器
根据以上的连接,可以成功配置mitmproxy。
接下来,我们就要使用mitmproxy来拦截修改请求。由于猫眼使用的是对webdriver标示进行检测,所以我们可以拦截修改这个标示。拦截配置代码如下,按代码所示,如果拦截成功,会输出100个*的提示
- def response(flow):
- if 'webdriver' in flow.response.text:
- print('*' * 100)
- print('find web_driver key')
- flow.response.text = flow.response.text.replace("webdriver", "fuck_that_1")
- if 'Webdriver' in flow.response.text:
- print('*' * 100)
- print('find web_driver key')
- flow.response.text = flow.response.text.replace("Webdriver", "fuck_that_2")
- if 'WEBDRIVER' in flow.response.text:
- print('*' * 100)
- print('find web_driver key')
- flow.response.text = flow.response.text.replace("WEBDRIVER", "fuck_that_3")
mitmdump -s proxys.py
此时mitmproxy会按照proxys中规定的配置拦截修改wendriver。注意!!!运行该拦截默认端口为8080。所以为了减少mitmproxy的工作量,我关闭了电脑的手动代理配置,即电脑按照正常的方式上网,正常的流量不让他们经过mitmproxy,而是在运行爬虫的时候让爬虫代码走这个8080端口代理。详见如下:
- from selenium import webdriver
- from selenium.webdriver import ChromeOptions
- from lxml import etree
- import requests
- import html
- import re
-
- option = webdriver.ChromeOptions()
- PROXY = "127.0.0.1:8080"
- option.add_argument('--proxy-server=%s'%PROXY)
- option.add_experimental_option('excludeSwitches', ['enable-automation'])
- #打开浏览器
- brower = webdriver.Chrome(options = option)
- #让浏览器对指定url发起访问
- brower.get('https://maoyan.com/films/1190122')
-
- #获取浏览器当前打开页面的页面源码数据(可见即可得)
- page_text = brower.page_source
- #print(page_text)
- if "验证中心" in page_text:
- print("美团验证")
- else:
- tree = etree.HTML(page_text)
- score = tree.xpath('//div[@class="movie-index-content score normal-score"]/span[1]/span[1]/text()')[0]
- ASCll = str(score)
- utfs = str(ASCll.encode('unicode_escape')).replace("b","").replace("'","").replace("\\\\u",";&#x").split('.')
- unicode = utfs[0][1:]+";."+utfs[1][1:]+";"
- print(unicode)

接下来,我们运行如上代码,proxys.py代码运行终端部分结果如下,可见拦截修改成功。
上面爬取猫眼电影详情信息的代码如下,如下信息为评分,直接爬去由于编码的缘故出现乱码,我将其进行unicode编码,以便之后进行字体解密。
具体猫眼数据(电影详情数据、演员详情数据)参考这篇博客:如何爬取猫眼全部信息(电影信息、演员信息)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。