当前位置:   article > 正文

python学习笔记(一)数据处理_aprioir安装

aprioir安装

一、基础
1.注释:#/'''   '''
2.标识符:首字符是字母和下划线
3.数据类型:数、字符串、
  列表【list】(元素支持修改)、abc=['my','you']
  元祖【tuple】(元素不支持修改)、cde=('my','you')
  集合【set】(并交差)、&|!
  字典【dictionary】(键:值){key1:value1,key2:value2}
4.运算符
5.缩进 建议tab
6.补充:calc(windows自带计算器),idle(python自带ide)
7.注意::爬去下我文件路径//(\文件目录)需要与网页路径一致//;http(https可能不行)
8.json:JSON的全称是”JavaScript Object Notation”,意思是JavaScript对象表示法,
       它是一种基于文本,独立于语言的轻量级数据交换格式。XML也是一种数据交换格式,因为XML虽然可以作为跨平台的数据交换格式,
       但是在JS(JavaScript的简写)中处理XML非常不方便,同时XML标记比数据多,增加了交换产生的流量,而JSON没有附加的任何标记,
       在JS中可作为对象处理,所以我们更倾向于选择JSON来交换数据.
二.控制流
1.if
2.while
3.for
4.中断break/continue
三、语法结构
1.作用域:局部/全局 global i(将i声明为全局)
2.函数:def a():
3.模块:import/from...  import...
4.文件:fp=open('f1','r')fp.close()
5.异常处理:try:
            except Exception as er:
               print(er)
四、爬虫基础
1.定义:定向采集和不定向采集。
2.正则表达式/xpath表达式:
  (1)原子:
       1.普通字符  2.非打印字符eg:\n
       3.通用字符匹配 \w (匹配任意字母数字下划线)\W(!\w) \s (匹配空白字符)
       4.原子表[] 定义一组平等的原子eg:[dsh]或d或s或h,只能是一位
  (2)元字符
       1.  .可以匹配任意字符
       2.  ^匹配字符串开始的位置 ; $匹配字符串结束的位置 
       3.  *匹配0、1、多次前面的原子; ?匹配0或1  ;+  匹配1或多次
       4.  t{n}前面的原子t出现n次; t{n,m}前面的原子t出现n--m次
       5.  |  或者 ; ()提取
  (3)模式修正符
       1.  I 忽略大小写 ;M多行匹配 ;L 
       U  据unicode解析字符 ;S 点也能匹配换行符
  (4)贪婪模式p.*y和懒惰模式p.*?y
  (5)函数
       1.re.match()--从头开始,头不匹配则错
       2.re.search()--只能出现一个结果
       3.re.compile(子串).findall(母串)全局匹配函数--输出多个结果
       4.re.sub函数---替换

五、爬虫实战——企查查
注意:爬去下我文件路径//(\文件目录)需要与网页路径一致//;http(https可能不行)
1.urllib库
  (1)urllib基础
       1.urlretrieve() //将网页直接爬取下来放在本地
         urlcleanup()  //将1.产生的缓存清理
         info()    //当前网页环境的一些信息
         getcode()  //获取当前网页的状态码 200正常,403禁止访问
         geturl()   //获取当前网页网址
  (2)超时设置
       timeout=n
       
  (3)自动模拟http请求
       1.get   从服务器请求
       2.post  请求访问服务器 (抓包技术fiddler) 
  (4)异常处理
       1.状态码  200请求正常 40X请求失败 50X错误服务器
       2.URLError(父类):连不上服务器;远程url不存在;本地没有网络;触发子类HTTPError
         HTTPError(子类)(有状态码及原因)
  (5)浏览器伪装技术
       通用代码:
        headers=('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:56.0) Gecko/20100101 Firefox/56.0')  #User agent
opener=urllib.request.build_opener()#添加对应的报头信息
opener.addheaders=[headers]
urllib.request.install_opener(opener)#设opener为全局
  (6)新闻爬虫实战
       图片爬虫实战
       
【重要】(7)代理服务器(防屏蔽)
       西刺免费IP代理

六、抓包分析

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/349006?site
推荐阅读
相关标签
  

闽ICP备14008679号