从前慢现在也慢

这个屌丝很懒，什么也没留下！

热门标签

热门文章

当前位置: article > 正文

python学习笔记（一）数据处理_aprioir安装

作者：从前慢现在也慢 | 2024-04-01 13:15:30

赞

踩

aprioir安装

一、基础
1.注释：#/''' '''
2.标识符：首字符是字母和下划线
3.数据类型：数、字符串、
列表【list】（元素支持修改）、abc=['my','you']
元祖【tuple】（元素不支持修改）、cde=('my','you')
集合【set】（并交差）、&|！
字典【dictionary】(键：值){key1:value1,key2:value2}
4.运算符
5.缩进建议tab
6.补充：calc(windows自带计算器)，idle（python自带ide）
7.注意：:爬去下我文件路径//（\文件目录）需要与网页路径一致//；http（https可能不行）
8.json:JSON的全称是”JavaScript Object Notation”，意思是JavaScript对象表示法，
它是一种基于文本，独立于语言的轻量级数据交换格式。XML也是一种数据交换格式，因为XML虽然可以作为跨平台的数据交换格式，
但是在JS(JavaScript的简写)中处理XML非常不方便，同时XML标记比数据多，增加了交换产生的流量，而JSON没有附加的任何标记，
在JS中可作为对象处理，所以我们更倾向于选择JSON来交换数据.
二.控制流
1.if
2.while
3.for
4.中断break/continue
三、语法结构
1.作用域：局部/全局 global i（将i声明为全局）
2.函数：def a（）：
3.模块：import/from... import...
4.文件：fp=open（'f1','r'）fp.close()
5.异常处理：try：
except Exception as er:
print(er)
四、爬虫基础
1.定义：定向采集和不定向采集。
2.正则表达式/xpath表达式：
（1）原子：
1.普通字符 2.非打印字符eg：\n
3.通用字符匹配 \w (匹配任意字母数字下划线)\W（!\w） \s (匹配空白字符)
4.原子表[] 定义一组平等的原子eg:[dsh]或d或s或h，只能是一位
（2）元字符
1. .可以匹配任意字符
2. ^匹配字符串开始的位置； $匹配字符串结束的位置
3. 匹配0、1、多次前面的原子；？匹配0或1 ；+ 匹配1或多次
4. t｛n｝前面的原子t出现n次； t｛n，m｝前面的原子t出现n--m次
5. | 或者；（）提取
（3）模式修正符
1. I 忽略大小写；M多行匹配；L
U 据unicode解析字符；S 点也能匹配换行符
（4）贪婪模式p.y和懒惰模式p.*?y
（5）函数
1.re.match()--从头开始，头不匹配则错
2.re.search()--只能出现一个结果
3.re.compile(子串).findall(母串)全局匹配函数--输出多个结果
4.re.sub函数---替换

五、爬虫实战——企查查
注意:爬去下我文件路径//（\文件目录）需要与网页路径一致//；http（https可能不行）
1.urllib库
（1）urllib基础
1.urlretrieve() //将网页直接爬取下来放在本地
urlcleanup() //将1.产生的缓存清理
info() //当前网页环境的一些信息
getcode() //获取当前网页的状态码 200正常，403禁止访问
geturl() //获取当前网页网址
（2）超时设置
timeout=n

（3）自动模拟http请求
1.get 从服务器请求
2.post 请求访问服务器（抓包技术fiddler）
（4）异常处理
1.状态码 200请求正常 40X请求失败 50X错误服务器
2.URLError（父类）：连不上服务器；远程url不存在；本地没有网络；触发子类HTTPError
HTTPError（子类）（有状态码及原因）
（5）浏览器伪装技术
通用代码：
headers=('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:56.0) Gecko/20100101 Firefox/56.0') #User agent
opener=urllib.request.build_opener()#添加对应的报头信息
opener.addheaders=[headers]
urllib.request.install_opener(opener)#设opener为全局
（6）新闻爬虫实战
图片爬虫实战

【重要】（7）代理服务器（防屏蔽）
西刺免费IP代理

六、抓包分析

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/349006?site

推荐阅读

相关标签

Copyright © 2003-2013 www.wpsshop.cn 版权所有，并保留所有权利。

闽ICP备14008679号