赞
踩
1.解析html字符串:使用lxml.etree.HTML进行解析,示例代码如下: htmlElement = etree.HTML(text) print (etree.tostring(htmlElement,encoding='utf-8').decode('utf-8')) 2.解析html文件:使用lxml.etree.parse进行解析,示例代码如下: htmlElement = etree.parse('tencent.html') print (etree.tostring(htmlElement,encoding = 'utf-8').decode('utf-8')) 这个函数默认使用的是xml解释器,所以碰到一些不规范的html代码的时候就会有解析错误,此时需要自己创建html解释器: parser = etree.HTMLParser(encoding = 'utf-8') #parser为自己创建的解释器 htmlElement = etree.parse("aaa.txt",parser = parser)
aaa.html
- <!DOCTYPE html>
- <html lang="en">
- <head>
- <meta charset="UTF-8">
- <title>Title</title>
- </head>
- <body>
- <ol>
- <li>将元组 (1,2,3) 和集合 {4,5,6} 合并成一个列表。</li>
- <li>在列表 [1,2,3,4,5,6] 首尾分别添加整型元素 7 和 0。</li>
- <li>反转列表 [0,1,2,3,4,5,6,7] 。</li>
- <li>反转列表 [0,1,2,3,4,5,6,7] 后给出中元素 5 的索引号。</li>
- <li>分别统计列表 [True,False,0,1,2] 中 True,False,0,1,2的元素个数,发现了什么?</li>
- <li>从列表 [True,1,0,‘x’,None,‘x’,False,2,True] 中删除元素‘x’。</li>
- <li>从列表 [True,1,0,‘x’,None,‘x’,False,2,True] 中删除索引号为4的元素。</li>
- <li>删除列表中索引号为奇数(或偶数)的元素。</li>
- <li>清空列表中的所有元素。</li>
- <li>对列表 [3,0,8,5,7] 分别做升序和降序排列。</li>
- <li>将列表 [3,0,8,5,7] 中大于 5 元素置为1,其余元素置为0。</li>
- <li>遍历列表 [‘x’,‘y’,‘z’],打印每一个元素及其对应的索引号。</li>
- <li>将列表 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 拆分为奇数组和偶数组两个列表。</li>
- <li>分别根据每一行的首元素和尾元素大小对二维列表 [[6, 5], [3, 7], [2, 8]] 排序。</li>
- <li>从列表 [1,4,7,2,5,8] 索引为3的位置开始,依次插入列表 [‘x’,‘y’,‘z’] 的所有元素。</li>
- <li>快速生成由 [5,50) 区间内的整数组成的列表。</li>
- <li>若 a = [1,2,3],令 b = a,执行 b[0] = 9, a[0]亦被改变。为何?如何避免?</li>
- <li>将列表 [‘x’,‘y’,‘z’] 和 [1,2,3] 转成 [(‘x’,1),(‘y’,2),(‘z’,3)] 的形式。</li>
- <li>以列表形式返回字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中所有的键。</li>
- <li>以列表形式返回字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中所有的值。</li>
- <li>以列表形式返回字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中所有键值对组成的元组。</li>
- <li>向字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中追加 ‘David’:19 键值对,更新Cecil的值为17。</li>
- <li>删除字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中的Beth键后,清空该字典。</li>
- <li>判断 David 和 Alice 是否在字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中。</li>
- <li>遍历字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21},打印键值对。</li>
- <li>若 a = dict(),令 b = a,执行 b.update({‘x’:1}), a亦被改变。为何?如何避免?</li>
- <li>以列表 [‘A’,‘B’,‘C’,‘D’,‘E’,‘F’,‘G’,‘H’] 中的每一个元素为键,默认值都是0,创建一个字典。</li>
- <li>将二维结构 [[‘a’,1],[‘b’,2]] 和 ((‘x’,3),(‘y’,4)) 转成字典。</li>
- <li>将元组 (1,2) 和 (3,4) 合并成一个元组。</li>
- <li>将空间坐标元组 (1,2,3) 的三个元素解包对应到变量 x,y,z。</li>
- <li>返回元组 (‘Alice’,‘Beth’,‘Cecil’) 中 ‘Cecil’ 元素的索引号。</li>
- <li>返回元组 (2,5,3,2,4) 中元素 2 的个数。</li>
- <li>判断 ‘Cecil’ 是否在元组 (‘Alice’,‘Beth’,‘Cecil’) 中。</li>
- <li>返回在元组 (2,5,3,7) 索引号为2的位置插入元素 9 之后的新元组。</li>
- <li>创建一个空集合,增加 {‘x’,‘y’,‘z’} 三个元素。</li>
- <li>删除集合 {‘x’,‘y’,‘z’} 中的 ‘z’ 元素,增j加元素 ‘w’,然后清空整个集合。</li>
- <li>返回集合 {‘A’,‘D’,‘B’} 中未出现在集合 {‘D’,‘E’,‘C’} 中的元素(差集)。</li>
- <li>返回两个集合 {‘A’,‘D’,‘B’} 和 {‘D’,‘E’,‘C’} 的并集。</li>
- <li>返回两个集合 {‘A’,‘D’,‘B’} 和 {‘D’,‘E’,‘C’} 的交集。</li>
- <li>返回两个集合 {‘A’,‘D’,‘B’} 和 {‘D’,‘E’,‘C’} 未重复的元素的集合。</li>
- <li>判断两个集合 {‘A’,‘D’,‘B’} 和 {‘D’,‘E’,‘C’} 是否有重复元素。</li>
- <li>判断集合 {‘A’,‘C’} 是否是集合 {‘D’,‘C’,‘E’,‘A’} 的子集。</li>
- <li>去除数组 [1,2,5,2,3,4,5,‘x’,4,‘x’] 中的重复元素。</li>
- <li>返回字符串 ‘abCdEfg’ 的全部大写、全部小写和大下写互换形式。</li>
- <li>判断字符串 ‘abCdEfg’ 是否首字母大写,字母是否全部小写,字母是否全部大写。</li>
- <li>返回字符串 ‘this is python’ 首字母大写以及字符串内每个单词首字母大写形式。</li>
- <li>判断字符串 ‘this is python’ 是否以 ‘this’ 开头,又是否以 ‘python’ 结尾。</li>
- <li>返回字符串 ‘this is python’ 中 ‘is’ 的出现次数。</li>
- <li>返回字符串 ‘this is python’ 中 ‘is’ 首次出现和最后一次出现的位置。</li>
- <li>将字符串 ‘this is python’ 切片成3个单词。</li>
- <li>返回字符串 ‘blog.csdn.net/xufive/article/details/102946961’ 按路径分隔符切片的结果。</li>
- <li>将字符串 ‘2.72, 5, 7, 3.14’ 以半角逗号切片后,再将各个元素转成浮点型或整形。</li>
- <li>判断字符串 ‘adS12K56’ 是否完全为字母数字,是否全为数字,是否全为字母,是否全为ASCII码。</li>
- <li>将字符串 ‘there is python’ 中的 ‘is’ 替换为 ‘are’。</li>
- <li>清除字符串 ‘\t python \n’ 左侧、右侧,以及左右两侧的空白字符。</li>
- <li>将三个全英文字符串(比如,‘ok’, ‘hello’, ‘thank you’)分行打印,实现左对齐、右对齐和居中对齐效果。</li>
- <li>将三个字符串(比如,‘Hello, 我是David’, ‘OK, 好’, ‘很高兴认识你’)分行打印,实现左对齐、右对齐和居中效果。</li>
- <li>将三个字符串 ‘15’, ‘127’, ‘65535’ 左侧补0成同样长度。</li>
- <li>提取 url 字符串 ‘https://blog.csdn.net/xufive’ 中的协议名。</li>
- <li>将列表 [‘a’,‘b’,‘c’] 中各个元素用’|'连接成一个字符串。</li>
- <li>将字符串 ‘abc’ 相邻的两个字母之间加上半角逗号,生成新的字符串。</li>
- <li>从键盘输入手机号码,输出形如 ‘Mobile: 186 6677 7788’ 的字符串。</li>
- <li>从键盘输入年月日时分秒,输出形如 ‘2019-05-01 12:00:00’ 的字符串。</li>
- <li>给定两个浮点数 3.1415926 和 2.7182818,格式化输出字符串 ‘pi = 3.1416, e = 2.7183’。</li>
- <li>将 0.00774592 和 356800000 格式化输出为科学计数法字符串。</li>
- <li>将十进制整数 240 格式化为八进制和十六进制的字符串。</li>
- <li>将十进制整数 240 转为二进制、八进制、十六进制的字符串。</li>
- <li>将字符串 ‘10100’ 按照二进制、八进制、十进制、十六进制转为整数。</li>
- <li>求二进制整数1010、八进制整数65、十进制整数52、十六进制整数b4的和。</li>
- <li>将列表 [0,1,2,3.14,‘x’,None,’’,list(),{5}] 中各个元素转为布尔型。</li>
- <li>返回字符 ‘a’ 和 ‘A’ 的ASCII编码值。</li>
- <li>返回ASCII编码值为 57 和 122 的字符。</li>
- <li>将二维列表 [[0.468,0.975,0.446],[0.718,0.826,0.359]] 写成名为 csv_data 的 csv 格式的文件,并尝试用 excel 打开它。</li>
- <li>从 csv_data.csv 文件中读出二维列表。</li>
- <li>向 csv_data.csv 文件追加二维列表 [[1.468,1.975,1.446],[1.718,1.826,1.359]],然后读出所有数据。</li>
- <li>交换变量 x 和 y 的值。</li>
- <li>判断给定的参数 x 是否是整形。</li>
- <li>判断给定的参数 x 是否为列表或元组。</li>
- <li>判断 ‘https://blog.csdn.net’ 是否以 ‘http://’ 或 ‘https://’ 开头。若是,则返回 ‘http’ 或 ‘https’;否则,返回None。</li>
- <li>判断 ‘https://blog.csdn.net’ 是否以 ‘.com’ 或 ‘.net’ 结束。若是,则返回 ‘com’ 或 ‘net’;否则,返回None。</li>
- <li>将列表 [3,‘a’,5.2,4,{},9,[]] 中 大于3的整数或浮点数置为1,其余置为0。</li>
- <li>a,b 是两个数字,返回其中较小者或最大者。</li>
- <li>找到列表 [8,5,2,4,3,6,5,5,1,4,5] 中出现最频繁的数字以及出现的次数。</li>
- <li>将二维列表 [[1], [‘a’,‘b’], [2.3, 4.5, 6.7]] 转为 一维列表。</li>
- <li>将等长的键列表和值列表转为字典。</li>
- <li>使用链状比较操作符重写逻辑表达式 a > 10 and a < 20。</li>
- <li>写一个函数,以0.1秒的间隔不换行打印30次由函数参数传入的字符,实现类似打字机的效果。</li>
- <li>数字列表求和。</li>
- <li>返回数字列表中的最大值和最小值。</li>
- <li>计算 5 的 3.5 方和 3 的立方根。</li>
- <li>对 3.1415926 四舍五入,保留小数点后5位。</li>
- <li>判断两个对象是在内存中是否是同一个。</li>
- <li>返回给定对象的属性和方法。</li>
- <li>计算字符串表达式 ‘(2+3)*5’ 的值。</li>
- <li>实现字符串 ‘x={“name”:“David”, “age”:18}’ 包含的代码功能。</li>
- <li>使用 map 函数求列表 [2,3,4,5] 中每个元素的立方根。</li>
- <li>使用 sys.stdin.readline() 写一个和 input() 函数功能完全相同的函数。</li>
- <li>使用二维列表描述9x9围棋局面,'w’表示白色棋子,‘b’表示黑色棋子,’-'表示无子,打印成下图左所示的文本棋盘。</li>
- <li>对于9x9围棋盘,用a-i标识各行,用1-9标识各列,设计函数go(),输入位置和颜色,即输出文本棋盘,模拟围棋对弈的过程。</li>
- <li>下图中是国际跳棋的初始局面,10x10的棋盘上只有50个深色格子可以落子,'w’表示白色棋子,‘b’表示黑色棋子,’-'表示无子,字符串 phase = ‘b’*20 + ‘-’*10 + ‘w’*20 表示下图中的局面,请将 phase 打印成下图右所示的样子。</li>
- </ol>
- </body>
- </html>

- from lxml import etree
- parser = etree.HTMLParser(encoding = 'utf-8') #parser为自己创建的解释器
- html = etree.parse("aaa.html",parser = parser)
- # html = etree.parse("aaa.html")
- lis = html.xpath("//li")
- with open("lianxi.txt","a",encoding="utf-8") as f:
- for i,j in enumerate(lis):
- print(j.text)
- f.write(str(i+1)+'.'+j.text)
- f.write("\n")
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。