Langchain 对pdf,word,txt等不同文件的加载解析_langchain pdf

作者：代码探险家 | 2024-08-14 15:16:30

踩

langchain pdf

项目中遇到各种数据资源想要加载近langchain构建本地知识ai系统，怎么加载对应的文件格式呢，一起研究下

引入Langchain


from langchain.document_loaders import UnstructuredWordDocumentLoader,PyPDFium2Loader,DirectoryLoader,PyPDFLoader,TextLoader
import os

pdf文件加载


def load_pdf(directory_path):
    data = []
    for filename in os.listdir(directory_path):
        if filename.endswith(".pdf"):
            print(filename)
            # print the file name
            loader = PyPDFium2Loader(f'{directory_path}/{filename}')
            print(loader)
            data.append(loader.load())
    return data

word文档加载如，doc或者docx格式


def load_word(directory_path):
    data = []
    for filename in os.listdir(directory_path):
        # check if the file is a doc or docx file
        # 检查所有doc以及docx后缀的文件
        if filename.endswith(".doc") or filename.endswith(".docx"):
            # langchain自带功能，加载word文档
            loader = UnstructuredWordDocumentLoader(f'{directory_path}/{filename}')
            data.append(loader.load())
 
    return data

txt加载


def load_txt(directory_path):
    data = []
    for filename in os.listdir(directory_path):
        if filename.endswith(".txt"):
            print(filename)
            loader = TextLoader(f'{directory_path}/{filename}')
            print(loader)
            data.append(loader.load())
 
    return data

上述中常见的文档格式基本上都可以加载进去了，主要就是不同格式对应不同的加载方式，如果想简单也可以直接加载目录


def load_docs(directory):
    loader = DirectoryLoader(directory)
    documents = loader.load()
    return documents

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/代码探险家/article/detail/979894