当前位置:   article > 正文

Langchain 对pdf,word,txt等不同文件的加载解析_langchain pdf

langchain pdf

项目中遇到各种数据资源想要加载近langchain构建本地知识ai系统,怎么加载对应的文件格式呢,一起研究下

引入Langchain

  1. from langchain.document_loaders import UnstructuredWordDocumentLoader,PyPDFium2Loader,DirectoryLoader,PyPDFLoader,TextLoader
  2. import os

pdf文件加载

  1. def load_pdf(directory_path):
  2. data = []
  3. for filename in os.listdir(directory_path):
  4. if filename.endswith(".pdf"):
  5. print(filename)
  6. # print the file name
  7. loader = PyPDFium2Loader(f'{directory_path}/{filename}')
  8. print(loader)
  9. data.append(loader.load())
  10. return data

word文档加载如,doc或者docx格式

  1. def load_word(directory_path):
  2. data = []
  3. for filename in os.listdir(directory_path):
  4. # check if the file is a doc or docx file
  5. # 检查所有doc以及docx后缀的文件
  6. if filename.endswith(".doc") or filename.endswith(".docx"):
  7. # langchain自带功能,加载word文档
  8. loader = UnstructuredWordDocumentLoader(f'{directory_path}/{filename}')
  9. data.append(loader.load())
  10. return data

txt加载

  1. def load_txt(directory_path):
  2. data = []
  3. for filename in os.listdir(directory_path):
  4. if filename.endswith(".txt"):
  5. print(filename)
  6. loader = TextLoader(f'{directory_path}/{filename}')
  7. print(loader)
  8. data.append(loader.load())
  9. return data

上述中常见的文档格式基本上都可以加载进去了,主要就是不同格式对应不同的加载方式,如果想简单也可以直接加载目录

  1. def load_docs(directory):
  2. loader = DirectoryLoader(directory)
  3. documents = loader.load()
  4. return documents
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/代码探险家/article/detail/979894
推荐阅读
相关标签
  

闽ICP备14008679号