当前位置:   article > 正文

备注:爬取百度搜索结果数据_获取百度搜索某词条结果数csdn

获取百度搜索某词条结果数csdn

使用chrome的driver爬取数据:

  1. from selenium import webdriver 
  2. from selenium.webdriver.common.by import By 
  3. from selenium.webdriver.common. keys import Keys 
  4. from selenium. webdriver.support import expected_conditions as EC
  5. from selenium. webdriver.support.wait import WebDriverWait 
  6. from selenium.webdriver.common.action_chains import ActionChains
  7. from urllib import request
  8. import requests
  9. from lxml import etree
  10. import pandas as pd
  11. browser = webdriver.Chrome() 
  12. filepath = 'C:/data.csv'
  13. data = pd.read_csv(filepath)
  14. nrows = len(data)
  15. path_data = []
  16. find_data = data['keyword'].values.tolist()
  17. for i in range(0,nrows):
  18.     browser.get('https://www.baidu.com'
  19.     query =find_data[i]
  20.     input = browser.find_element_by_id ('kw'
  21.     input.send_keys(query) 
  22.     ActionChains(browser).send_keys(Keys.ENTER).perform()
  23.     #input.send_keys(Keys.ENTER) 
  24.     wait = WebDriverWait(browser, 10
  25.     wait.until(EC.presence_of_element_located((By.ID,'content_left'))) 
  26.     #print(browser.current_url) 
  27.     #print(browser.get_cookies()) 
  28.     #print(browser.page_source)   
  29.     source_html = browser.page_source
  30.     html_object=etree.HTML(source_html)
  31.     path_data = html_object.xpath('//div[@id="tsn_inner"]/div[2]/span[1]/text()')
  32.     data['hot_num'][i] = str(path_data)
  33. data.to_excel('C:/百度20230228.xlsx',sheet_name='Sheet1',index=False)

备注:文章就是之前爬取方式的一个变种,增加了chromedriver的下载,使用selenium貌似需要成功安装后才能使用这个方式。

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号