当前位置:   article > 正文

lxml解析html简单使用

lxml解析html
1.解析html字符串:使用lxml.etree.HTML进行解析,示例代码如下:

htmlElement  = etree.HTML(text)
print (etree.tostring(htmlElement,encoding='utf-8').decode('utf-8'))

2.解析html文件:使用lxml.etree.parse进行解析,示例代码如下:

htmlElement = etree.parse('tencent.html')
print (etree.tostring(htmlElement,encoding = 'utf-8').decode('utf-8'))

这个函数默认使用的是xml解释器,所以碰到一些不规范的html代码的时候就会有解析错误,此时需要自己创建html解释器:

parser = etree.HTMLParser(encoding = 'utf-8') #parser为自己创建的解释器
htmlElement = etree.parse("aaa.txt",parser = parser)

aaa.html

  1. <!DOCTYPE html>
  2. <html lang="en">
  3. <head>
  4. <meta charset="UTF-8">
  5. <title>Title</title>
  6. </head>
  7. <body>
  8. <ol>
  9. <li>将元组 (1,2,3) 和集合 {4,5,6} 合并成一个列表。</li>
  10. <li>在列表 [1,2,3,4,5,6] 首尾分别添加整型元素 7 和 0。</li>
  11. <li>反转列表 [0,1,2,3,4,5,6,7] 。</li>
  12. <li>反转列表 [0,1,2,3,4,5,6,7] 后给出中元素 5 的索引号。</li>
  13. <li>分别统计列表 [True,False,0,1,2] 中 True,False,0,1,2的元素个数,发现了什么?</li>
  14. <li>从列表 [True,1,0,‘x’,None,‘x’,False,2,True] 中删除元素‘x’。</li>
  15. <li>从列表 [True,1,0,‘x’,None,‘x’,False,2,True] 中删除索引号为4的元素。</li>
  16. <li>删除列表中索引号为奇数(或偶数)的元素。</li>
  17. <li>清空列表中的所有元素。</li>
  18. <li>对列表 [3,0,8,5,7] 分别做升序和降序排列。</li>
  19. <li>将列表 [3,0,8,5,7] 中大于 5 元素置为1,其余元素置为0。</li>
  20. <li>遍历列表 [‘x’,‘y’,‘z’],打印每一个元素及其对应的索引号。</li>
  21. <li>将列表 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 拆分为奇数组和偶数组两个列表。</li>
  22. <li>分别根据每一行的首元素和尾元素大小对二维列表 [[6, 5], [3, 7], [2, 8]] 排序。</li>
  23. <li>从列表 [1,4,7,2,5,8] 索引为3的位置开始,依次插入列表 [‘x’,‘y’,‘z’] 的所有元素。</li>
  24. <li>快速生成由 [5,50) 区间内的整数组成的列表。</li>
  25. <li>若 a = [1,2,3],令 b = a,执行 b[0] = 9, a[0]亦被改变。为何?如何避免?</li>
  26. <li>将列表 [‘x’,‘y’,‘z’] 和 [1,2,3] 转成 [(‘x’,1),(‘y’,2),(‘z’,3)] 的形式。</li>
  27. <li>以列表形式返回字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中所有的键。</li>
  28. <li>以列表形式返回字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中所有的值。</li>
  29. <li>以列表形式返回字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中所有键值对组成的元组。</li>
  30. <li>向字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中追加 ‘David’:19 键值对,更新Cecil的值为17。</li>
  31. <li>删除字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中的Beth键后,清空该字典。</li>
  32. <li>判断 David 和 Alice 是否在字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21} 中。</li>
  33. <li>遍历字典 {‘Alice’: 20, ‘Beth’: 18, ‘Cecil’: 21},打印键值对。</li>
  34. <li>若 a = dict(),令 b = a,执行 b.update({‘x’:1}), a亦被改变。为何?如何避免?</li>
  35. <li>以列表 [‘A’,‘B’,‘C’,‘D’,‘E’,‘F’,‘G’,‘H’] 中的每一个元素为键,默认值都是0,创建一个字典。</li>
  36. <li>将二维结构 [[‘a’,1],[‘b’,2]] 和 ((‘x’,3),(‘y’,4)) 转成字典。</li>
  37. <li>将元组 (1,2) 和 (3,4) 合并成一个元组。</li>
  38. <li>将空间坐标元组 (1,2,3) 的三个元素解包对应到变量 x,y,z。</li>
  39. <li>返回元组 (‘Alice’,‘Beth’,‘Cecil’) 中 ‘Cecil’ 元素的索引号。</li>
  40. <li>返回元组 (2,5,3,2,4) 中元素 2 的个数。</li>
  41. <li>判断 ‘Cecil’ 是否在元组 (‘Alice’,‘Beth’,‘Cecil’) 中。</li>
  42. <li>返回在元组 (2,5,3,7) 索引号为2的位置插入元素 9 之后的新元组。</li>
  43. <li>创建一个空集合,增加 {‘x’,‘y’,‘z’} 三个元素。</li>
  44. <li>删除集合 {‘x’,‘y’,‘z’} 中的 ‘z’ 元素,增j加元素 ‘w’,然后清空整个集合。</li>
  45. <li>返回集合 {‘A’,‘D’,‘B’} 中未出现在集合 {‘D’,‘E’,‘C’} 中的元素(差集)。</li>
  46. <li>返回两个集合 {‘A’,‘D’,‘B’} 和 {‘D’,‘E’,‘C’} 的并集。</li>
  47. <li>返回两个集合 {‘A’,‘D’,‘B’} 和 {‘D’,‘E’,‘C’} 的交集。</li>
  48. <li>返回两个集合 {‘A’,‘D’,‘B’} 和 {‘D’,‘E’,‘C’} 未重复的元素的集合。</li>
  49. <li>判断两个集合 {‘A’,‘D’,‘B’} 和 {‘D’,‘E’,‘C’} 是否有重复元素。</li>
  50. <li>判断集合 {‘A’,‘C’} 是否是集合 {‘D’,‘C’,‘E’,‘A’} 的子集。</li>
  51. <li>去除数组 [1,2,5,2,3,4,5,‘x’,4,‘x’] 中的重复元素。</li>
  52. <li>返回字符串 ‘abCdEfg’ 的全部大写、全部小写和大下写互换形式。</li>
  53. <li>判断字符串 ‘abCdEfg’ 是否首字母大写,字母是否全部小写,字母是否全部大写。</li>
  54. <li>返回字符串 ‘this is python’ 首字母大写以及字符串内每个单词首字母大写形式。</li>
  55. <li>判断字符串 ‘this is python’ 是否以 ‘this’ 开头,又是否以 ‘python’ 结尾。</li>
  56. <li>返回字符串 ‘this is python’ 中 ‘is’ 的出现次数。</li>
  57. <li>返回字符串 ‘this is python’ 中 ‘is’ 首次出现和最后一次出现的位置。</li>
  58. <li>将字符串 ‘this is python’ 切片成3个单词。</li>
  59. <li>返回字符串 ‘blog.csdn.net/xufive/article/details/102946961’ 按路径分隔符切片的结果。</li>
  60. <li>将字符串 ‘2.72, 5, 7, 3.14’ 以半角逗号切片后,再将各个元素转成浮点型或整形。</li>
  61. <li>判断字符串 ‘adS12K56’ 是否完全为字母数字,是否全为数字,是否全为字母,是否全为ASCII码。</li>
  62. <li>将字符串 ‘there is python’ 中的 ‘is’ 替换为 ‘are’。</li>
  63. <li>清除字符串 ‘\t python \n’ 左侧、右侧,以及左右两侧的空白字符。</li>
  64. <li>将三个全英文字符串(比如,‘ok’, ‘hello’, ‘thank you’)分行打印,实现左对齐、右对齐和居中对齐效果。</li>
  65. <li>将三个字符串(比如,‘Hello, 我是David’, ‘OK, 好’, ‘很高兴认识你’)分行打印,实现左对齐、右对齐和居中效果。</li>
  66. <li>将三个字符串 ‘15’, ‘127’, ‘65535’ 左侧补0成同样长度。</li>
  67. <li>提取 url 字符串 ‘https://blog.csdn.net/xufive’ 中的协议名。</li>
  68. <li>将列表 [‘a’,‘b’,‘c’] 中各个元素用’|'连接成一个字符串。</li>
  69. <li>将字符串 ‘abc’ 相邻的两个字母之间加上半角逗号,生成新的字符串。</li>
  70. <li>从键盘输入手机号码,输出形如 ‘Mobile: 186 6677 7788’ 的字符串。</li>
  71. <li>从键盘输入年月日时分秒,输出形如 ‘2019-05-01 12:00:00’ 的字符串。</li>
  72. <li>给定两个浮点数 3.1415926 和 2.7182818,格式化输出字符串 ‘pi = 3.1416, e = 2.7183’。</li>
  73. <li>将 0.00774592 和 356800000 格式化输出为科学计数法字符串。</li>
  74. <li>将十进制整数 240 格式化为八进制和十六进制的字符串。</li>
  75. <li>将十进制整数 240 转为二进制、八进制、十六进制的字符串。</li>
  76. <li>将字符串 ‘10100’ 按照二进制、八进制、十进制、十六进制转为整数。</li>
  77. <li>求二进制整数1010、八进制整数65、十进制整数52、十六进制整数b4的和。</li>
  78. <li>将列表 [0,1,2,3.14,‘x’,None,’’,list(),{5}] 中各个元素转为布尔型。</li>
  79. <li>返回字符 ‘a’ 和 ‘A’ 的ASCII编码值。</li>
  80. <li>返回ASCII编码值为 57 和 122 的字符。</li>
  81. <li>将二维列表 [[0.468,0.975,0.446],[0.718,0.826,0.359]] 写成名为 csv_data 的 csv 格式的文件,并尝试用 excel 打开它。</li>
  82. <li>从 csv_data.csv 文件中读出二维列表。</li>
  83. <li>向 csv_data.csv 文件追加二维列表 [[1.468,1.975,1.446],[1.718,1.826,1.359]],然后读出所有数据。</li>
  84. <li>交换变量 x 和 y 的值。</li>
  85. <li>判断给定的参数 x 是否是整形。</li>
  86. <li>判断给定的参数 x 是否为列表或元组。</li>
  87. <li>判断 ‘https://blog.csdn.net’ 是否以 ‘http://’ 或 ‘https://’ 开头。若是,则返回 ‘http’ 或 ‘https’;否则,返回None。</li>
  88. <li>判断 ‘https://blog.csdn.net’ 是否以 ‘.com’ 或 ‘.net’ 结束。若是,则返回 ‘com’ 或 ‘net’;否则,返回None。</li>
  89. <li>将列表 [3,‘a’,5.2,4,{},9,[]] 中 大于3的整数或浮点数置为1,其余置为0。</li>
  90. <li>a,b 是两个数字,返回其中较小者或最大者。</li>
  91. <li>找到列表 [8,5,2,4,3,6,5,5,1,4,5] 中出现最频繁的数字以及出现的次数。</li>
  92. <li>将二维列表 [[1], [‘a’,‘b’], [2.3, 4.5, 6.7]] 转为 一维列表。</li>
  93. <li>将等长的键列表和值列表转为字典。</li>
  94. <li>使用链状比较操作符重写逻辑表达式 a &gt; 10 and a &lt; 20。</li>
  95. <li>写一个函数,以0.1秒的间隔不换行打印30次由函数参数传入的字符,实现类似打字机的效果。</li>
  96. <li>数字列表求和。</li>
  97. <li>返回数字列表中的最大值和最小值。</li>
  98. <li>计算 5 的 3.5 方和 3 的立方根。</li>
  99. <li>对 3.1415926 四舍五入,保留小数点后5位。</li>
  100. <li>判断两个对象是在内存中是否是同一个。</li>
  101. <li>返回给定对象的属性和方法。</li>
  102. <li>计算字符串表达式 ‘(2+3)*5’ 的值。</li>
  103. <li>实现字符串 ‘x={“name”:“David”, “age”:18}’ 包含的代码功能。</li>
  104. <li>使用 map 函数求列表 [2,3,4,5] 中每个元素的立方根。</li>
  105. <li>使用 sys.stdin.readline() 写一个和 input() 函数功能完全相同的函数。</li>
  106. <li>使用二维列表描述9x9围棋局面,'w’表示白色棋子,‘b’表示黑色棋子,’-'表示无子,打印成下图左所示的文本棋盘。</li>
  107. <li>对于9x9围棋盘,用a-i标识各行,用1-9标识各列,设计函数go(),输入位置和颜色,即输出文本棋盘,模拟围棋对弈的过程。</li>
  108. <li>下图中是国际跳棋的初始局面,10x10的棋盘上只有50个深色格子可以落子,'w’表示白色棋子,‘b’表示黑色棋子,’-'表示无子,字符串 phase = ‘b’*20 + ‘-’*10 + ‘w’*20 表示下图中的局面,请将 phase 打印成下图右所示的样子。</li>
  109. </ol>
  110. </body>
  111. </html>
  1. from lxml import etree
  2. parser = etree.HTMLParser(encoding = 'utf-8') #parser为自己创建的解释器
  3. html = etree.parse("aaa.html",parser = parser)
  4. # html = etree.parse("aaa.html")
  5. lis = html.xpath("//li")
  6. with open("lianxi.txt","a",encoding="utf-8") as f:
  7. for i,j in enumerate(lis):
  8. print(j.text)
  9. f.write(str(i+1)+'.'+j.text)
  10. f.write("\n")

 

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/一键难忘520/article/detail/1006226
推荐阅读