当前位置:   article > 正文

Java爬虫入门详解(Selenium)_java selenium

java selenium

目录

一、Selenium简介

二、Selenium组成

三、Selenium特点

四、案例演示

1.下载驱动包

2.创建项目并导入依赖

3.基础配置

4.案例演示

1.元素选择方式

2.在文本框中输入内容

3.获取单个元素

4.获取多个元素

五、爬取JD商品信息

1.初始化设置

2.获取京东网站首页查询按钮并完成点击事件(进入页面自动查询)

3.设置滚动条移动到最下面

4.获取商品

六、爬取图片


一、Selenium简介

     Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中,就像真正的用户在
 操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。
 适用于自动化测试,js动态爬虫(破解反爬虫)等领域。

Selenium的核心Selenium Core基于JsUnit,
完全由JavaScript编写,因此可以用于任何支持JavaScript的浏览器上。
selenium可以模拟真实浏览器,自动化测试工具,支持多种浏览器,

二、Selenium组成

  • Selenium IDE:嵌入到Firefox浏览器中的一个插件,实现简单的浏览器操作录制与回放功能,主要用于快速创建BUG及重现脚本,可转化为多种语言
  • Selenium RC: 核心组件,支持多种不同语言编写自动化测试脚本,通过其服务器作为代理服务器去访问应用,达到测试的目的
  • Selenium WebDriver(重点):一个浏览器自动化框架,它接受命令并将它们发送到浏览器。它是通过特定于浏览器的驱动程序实现的。它直接与浏览器通信并对其进行控制。Selenium WebDriver支持各种编程语言,如Java、C# 、PHP、Python、Perl、Ruby
  • Selenium grid:测试辅助工具,用于做分布式测试,可以并行执行多个测试任务,提升测试效率。

三、Selenium特点

  1. 开源、免费
  2. 多浏览器支持:FireFox、Chrome、IE、Opera、Edge;
  3. 多平台支持:Linux、Windows、MAC;
  4. 多语言支持:Java、Python、Ruby、C#、JavaScript、C++;
  5. 对Web页面有良好的支持;
  6. 简单(API 简单)、灵活(用开发语言驱动);
  7. 支持分布式测试用例执行。

四、案例演示

1.下载驱动包

谷歌下载地址:http://chromedriver.storage.googleapis.com/index.html

如果在下载地址中找不到与自己浏览器完全匹配的版本,可以用相近的版本

2.创建项目并导入依赖

  1. <dependency>
  2.    <groupId>org.seleniumhq.selenium</groupId>
  3.    <artifactId>selenium-java</artifactId>
  4.    <version>3.141.59</version>
  5. </dependency>

3.基础配置

  1. //设置驱动
  2. System.setProperty("webdriver.chrome.driver","C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe");
  3. //创建驱动
  4. WebDriver driver=new ChromeDriver();
  5. //与将要爬取的网站建立连接
  6. driver.get("https://www.baidu.com/");

4.案例演示

1.元素选择方式

Class:

  1. List<WebElement> elements = driver.findElements(By.className("hotsearch-item"));
  2. for (WebElement element : elements) {
  3. System.out.println(element.getText());
  4. }

 ID:

  1. WebElement kw = driver.findElement(By.id("kw"));
  2. System.out.println(kw.getAttribute("name"));

 

name:

  1. WebElement tn = driver.findElement(By.name("tn"));
  2. System.out.println(tn.getAttribute("value"));

 

 tag:

  1. List<WebElement> input = driver.findElements(By.tagName("input"));
  2. for(WebElement webElement:input){
  3. String value = webElement.getAttribute("value");
  4. System.out.println(value);
  5. }

link:

  1. List<WebElement> elements = driver.findElements(By.linkText("地图"));
  2. for (WebElement element : elements){
  3. System.out.println(element.getText());
  4. }

 

Partial link选择(a标签文本内容模糊匹配):

  1. List<WebElement> elements = driver.findElements(By.partialLinkText("中国"));
  2. for (WebElement element : elements){
  3. System.out.println(element.getText());
  4. }

 

css选择器:

  1. List<WebElement> elements = driver.findElements(By.cssSelector("#hotsearch-content-wrapper > li:nth-child(even)"));
  2. for (WebElement element : elements){
  3. System.out.println(element.getText());

 

 xpath选择:

  1. WebElement element = driver.findElement(By.xpath("//*[@id=\"kw\"]"));
  2. System.out.println(element.getAttribute("class"));

 

2.在文本框中输入内容

  1. WebElement kw = driver.findElement(By.id("kw"));
  2. kw.sendKeys("java");
  3. WebElement button=driver.findElement(By.id("su"));
  4. button.click();

3.获取单个元素

  1. WebElement element = driver.findElement(By.name("ie"));
  2. System.out.println(element.getAttribute("value"));

 

4.获取多个元素

  1. List<WebElement> elements = driver.findElements(By.partialLinkText("大"));
  2. for (WebElement element : elements){
  3. System.out.println(element.getText());
  4. }

 

五、爬取JD商品信息

1.初始化设置

  1. public static void main(String[] args) {
  2. //将驱动加载到Java的JVM虚拟机中
  3. System.setProperty("webdriver.chrome.driver","C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe");
  4. //初始化驱动
  5. WebDriver driver = new ChromeDriver();
  6. //设置爬取网站
  7. driver.get("https://www.jd.com/");
  8. }

2.获取京东网站首页查询按钮并完成点击事件(进入页面自动查询)

  1. //获取京东网站首页查询条件输入框
  2. WebElement key = driver.findElement(By.id("key"));
  3. key.sendKeys("人妻");
  4. //获取京东网站首页查询按钮并完成点击事件
  5. WebElement button = driver.findElement(By.cssSelector("button.button"));
  6. button.click();

3.设置滚动条移动到最下面

  1. //滚动前先睡眠一会
  2. sleep(3);
  3. //设置滚动条移动到最下面
  4. ((JavascriptExecutor) driver).executeScript("window.scrollTo(0,document.body.scrollHeight)");
  5. sleep(2);

4.获取商品

  1. *[@id="J_goodsList"]/ul/li[3]
  2. //获取查询页面中的所有商品
  3. List<WebElement> elements = driver.findElements(By.xpath("//*[@id=\"J_goodsList\"]/ul/li"));
  4. for (WebElement element : elements) {
  5. String price = element.findElement(By.className("p-price")).getText();
  6. String name = element.findElement(By.className("p-name")).getText();
  7. System.out.println("【"+price+"】-"+name);
  8. }

5.完整代码

  1. package com.zhq.selenium;
  2. import org.openqa.selenium.By;
  3. import org.openqa.selenium.JavascriptExecutor;
  4. import org.openqa.selenium.WebDriver;
  5. import org.openqa.selenium.WebElement;
  6. import org.openqa.selenium.chrome.ChromeDriver;
  7. import org.openqa.selenium.chrome.ChromeOptions;
  8. import java.util.List;
  9. public class Demo2 {
  10. public static void main(String[] args) {
  11. //将驱动加载到Java的JVM虚拟机中
  12. System.setProperty("webdriver.chrome.driver","C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe");
  13. /************************** 方式一:不打开浏览器 **************************/
  14. //定义浏览器参数
  15. //ChromeOptions chromeOptions = new ChromeOptions();
  16. //设置不打开浏览器
  17. //chromeOptions.addArguments("--headless");
  18. //初始化驱动
  19. //WebDriver driver = new ChromeDriver(chromeOptions);
  20. /************************** 方式二:打开浏览器 **************************/
  21. //初始化驱动
  22. WebDriver driver = new ChromeDriver();
  23. //设置爬取网站
  24. driver.get("https://www.jd.com/");
  25. //获取京东网站首页查询条件输入框
  26. WebElement key = driver.findElement(By.id("key"));
  27. key.sendKeys("人妻");
  28. //获取京东网站首页查询按钮并完成点击事件
  29. WebElement button = driver.findElement(By.cssSelector("button.button"));
  30. button.click();
  31. //滚动前先睡眠一会
  32. sleep(3);
  33. //设置滚动条移动到最下面
  34. ((JavascriptExecutor) driver).executeScript("window.scrollTo(0,document.body.scrollHeight)");
  35. sleep(2);
  36. *[@id="J_goodsList"]/ul/li[3]
  37. //获取查询页面中的所有商品
  38. List<WebElement> elements = driver.findElements(By.xpath("//*[@id=\"J_goodsList\"]/ul/li"));
  39. for (WebElement element : elements) {
  40. String price = element.findElement(By.className("p-price")).getText();
  41. String name = element.findElement(By.className("p-name")).getText();
  42. System.out.println("【"+price+"】-"+name);
  43. }
  44. }
  45. public static void sleep(int num){
  46. try{
  47. Thread.sleep(num * 1000L);
  48. }catch (InterruptedException e){
  49. e.printStackTrace();
  50. }
  51. }
  52. }

六、爬取图片

某些网站会有反爬虫技术可能访问不到 

  1. package com.zhq.selenium;
  2. import org.openqa.selenium.By;
  3. import org.openqa.selenium.JavascriptExecutor;
  4. import org.openqa.selenium.WebDriver;
  5. import org.openqa.selenium.WebElement;
  6. import org.openqa.selenium.chrome.ChromeDriver;
  7. import sun.net.www.protocol.http.HttpURLConnection;
  8. import java.io.*;
  9. import java.net.URL;
  10. import java.net.URLConnection;
  11. import java.util.ArrayList;
  12. import java.util.List;
  13. import java.util.UUID;
  14. public class Demo3 {
  15. //定义Driver驱动
  16. public static WebDriver driver=null;
  17. //定义List集合,用于存储爬取数据中的图片路径
  18. public static List<String> imgs=new ArrayList<>();
  19. static{
  20. //将驱动加载到Java的JVM虚拟机中
  21. System.setProperty("webdriver.chrome.driver","C:\\Users\\Administrator\\AppData\\Local\\Google\\Chrome\\Application\\chromedriver.exe");
  22. //初始化驱动
  23. driver = new ChromeDriver();
  24. }
  25. public static void sleep(int num){
  26. try {
  27. Thread.sleep(num*1000L);
  28. } catch (InterruptedException e) {
  29. e.printStackTrace();
  30. }
  31. }
  32. public static void getImgs(){
  33. //设置爬取网站
  34. driver.get("http://www.gaoimg.com/");
  35. sleep(3);
  36. //设置滚动条移动到最下面
  37. ((JavascriptExecutor) driver).executeScript("window.scrollTo(0,document.body.scrollHeight)");
  38. sleep(2);
  39. //定义爬取的节点
  40. ///html/body/div[8]/ul/li[2]/a/img
  41. *[@id="inspiration__content-item-3"]/div/a/div[3]/img
  42. *[@id="inspiration__content-item-0"]/div[2]/a[1]/div[3]/img
  43. //#inspiration__content-item-0 > div.inspiration__content-item-list > a > div.s-c__ct > img
  44. List<WebElement> elements = driver.findElements(By.cssSelector("body > div.tuijiantupian > div.flex-images > div > a > img"));
  45. //循环遍历所有img元素节点
  46. for (WebElement element : elements) {
  47. String src = element.getAttribute("src");
  48. if(null!=src)
  49. imgs.add(src);
  50. }
  51. }
  52. public static void saveImg(){
  53. try{
  54. String path="D:\\images\\";
  55. URL url=null;
  56. for (String img : imgs) {
  57. url=new URL(img);
  58. InputStream is=new DataInputStream(url.openStream());
  59. String fileName=path+ UUID.randomUUID().toString().replace("-","")+".jpg";
  60. OutputStream out=new FileOutputStream(new File(fileName));
  61. byte[] bytes=new byte[1024];
  62. int len=0;
  63. while((len=is.read(bytes))!=-1){
  64. out.write(bytes,0,len);
  65. }
  66. is.close();
  67. out.close();
  68. }
  69. }catch (Exception e){
  70. e.printStackTrace();
  71. }
  72. }
  73. public static void main(String[] args) {
  74. try {
  75. //爬取图片路径
  76. getImgs();
  77. //循环打印图片路径
  78. for (String img : imgs) {
  79. System.out.println(img);
  80. }
  81. //保存图片
  82. saveImg();
  83. } catch (Exception e) {
  84. e.printStackTrace();
  85. } finally {
  86. //一定要记得下载完图片之后释放资源
  87. if(null!=driver)
  88. driver.quit();
  89. }
  90. }
  91. }

博主水平有限,难免有错。欢迎评论交流

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小丑西瓜9/article/detail/89669
推荐阅读
相关标签
  

闽ICP备14008679号