百度图片的爬取（python）_爬取图片加content

作者：木道寻08 | 2024-07-09 02:15:11

踩

爬取图片加content

一，构建框架

1，导入项目所需要的库


# 导入需要的库
import os
import re
import requests

2，获取网站源码


# 获取网站源码
def get_html(url, header, params):
    response = requests.get(url, headers=header, params=params)
    # 源码的编码方式
    response.encoding = "utf_8"
    # 利用循环判断网页能否打开
    if response.status_code ==200:
        return response.text
    else:
        print("网址源码获取错误")

3，解析提取图片的源址


# 解析提取图片的源地址
def parse_pic_url(html):
    result = re.findall('thumbURL": "(.*?)"', html, re.S)
    return result

4，获取图片二进制源码


# 获取图片二进制源码
def get_pic_content(url):
    response = requests.get(url)
    return response.content

5，创建文件夹对图片保存


# 定义一个文件夹保存
def create_fold(fold_name):
    # 加异常处理
    try:
        os.mkdir(fold_name)
    except:
        print("文件夹已存在")
'运行

6，保存图片


# 保存图片
def save_pic(fold_name, content, pic_name):
    with open(fold_name + "/" + str(pic_name) + ".jpg", "wb") as f:
        f.write(content)
        f.close

7，定义main函数对调用get_html函数


#定义main函数调用get_html函数
def main():
    #输入文件夹名字
    fold_name = input("请输入图片名:")
    #输入你要抓取的数量
    page_num = input("请输入你要抓取的页数:")
    #调用函数，创建文件夹
    create_fold(fold_name)
    #定义图片名字
    pic_name = 0
    #构建循环.控制页面
    for i in range(int(page_num)):
        url = 
        headers = {}
        params = {}
        
        html = get_html(url, headers, params)
        result = parse_pic_url(html)
        # 使用for循环遍历列表
        for item in result:
            # 调用函数，获取二进制源码
            pic_content = get_pic_content(item)
            save_pic(fold_name, pic_content, pic_name)
            pic_name += 1
            print("正在保存第" + str(pic_name))
 
    # 执行main函数
    if __name__ == '__main__':
        main()