赞
踩
网络爬虫(Web Crawler)是一种自动化程序,用于在互联网上获取和提取数据。它们可以遍历互联网上的网页、收集数据,并进行处理和分析。网络爬虫也被称为网络蜘蛛、网络机器人等。
网络爬虫的工作原理主要是通过模拟浏览器的行为,向目标网站发出HTTP请求,获取网页内容,然后使用解析库(如Beautiful Soup、Scrapy等)解析网页,提取其中的结构化数据。这个过程需要注意的是,不同的网站可能会有不同的反爬机制,需要根据具体情况进行处理。
import requests from bs4 import BeautifulSoup # 设置请求头,模拟浏览器请求 headers = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} # 豆瓣电影页面URL url = 'https://movie.douban.com/top250' # 发起请求并获取页面内容 response = requests.get(url, headers=headers) html_content = response.text # 使用Beautiful Soup解析页面内容 soup = BeautifulSoup(html_content, 'html.parser') # 获取所有电影的标题、评分、链接等信息 movies = [] for movie in soup.find_all('div', class_='item'): movie_title = movie.find('span', class_='title').text.strip() movie_rating = movie.find('span', class_='rating_num').text.strip() movie_url = movie.a['href'] movies.append({'title': movie_title, 'rating': movie_rating, 'url': movie_url}) # 输出结果 print('豆瓣电影Top250:') for i, movie in enumerate(movies): print(f'排名:{i+1} 标题:{movie["title"]} 评分:{movie["rating"]} 链接:{movie["url"]}')
这个示例中,我们首先设置了请求头,模拟浏览器发起请求。然后使用requests库获取豆瓣电影页面的内容,并使用Beautiful Soup解析页面内容,提取出电影的标题、评分、链接等信息。最后输出结果。
需要注意的是,爬虫的速度不能过快,避免对目标网站造成影响或被封IP。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。