Py之llama-parse：llama-parse(高效解析和表示文件)的简介、安装和使用方法、案例应用之详细攻略_llamaparse

作者：小舞很执着 | 2024-07-11 00:44:32

踩

llamaparse

Py之llama-parse：llama-parse(高效解析和表示文件)的简介、安装和使用方法、案例应用之详细攻略

第二步，安装LlamaIndex、LlamaParse

LLM之RAG之LlaMAIndex：llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略

第三步，解析第一个 PDF 文件

第四步，将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器：

llama-parse的案例应用

llama-parse的简介

2024年4月15日正式发布，LlamaParse 是由 LlamaIndex 创建的一个 API，用于高效解析和表示文件，以便使用 LlamaIndex 框架进行高效检索和上下文增强。

LlamaParse 可以直接与 LlamaIndex 集成。免费计划每天最多处理 1000 页。付费计划每周免费处理 7000 页，超过部分每页收费 0.3 美分。

llama-parse的安装和使用方法

1、安装


pip install -i https://mirrors.aliyun.com/pypi/simple llama-parse
 
pip install -i https://mirrors.aliyun.com/pypi/simple -qU llama-parse

# -q：这个参数表示安静模式（quiet），它会减少输出的信息，只显示错误信息。
-U：这个参数表示升级模式（upgrade），它会升级指定的软件包到最新版本。

2、使用方法

第一步，获取API 密钥

首先，登录并从 LlamaCloud 获取一个 API 密钥。

第二步，安装LlamaIndex、LlamaParse

然后，确保你安装了最新版本的 LlamaIndex。
注意：如果你是从 v0.9.X 升级，我们建议你遵循我们的迁移指南，并且先卸载之前的版本。


pip uninstall llama-index  # 如果从 v0.9.x 或更早版本升级，请运行此命令
pip install -U llama-index --upgrade --no-cache-dir --force-reinstall
 
最后，安装 LlamaParse 包：
pip install llama-parse

LLM之RAG之LlaMAIndex：llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略

LLM之RAG之LlaMAIndex：llama-index(一块轻快构建索引来查询本地文档的数据框架神器)的简介、安装、使用方法之详细攻略_llamaindex原理-CSDN博客

第三步，解析第一个 PDF 文件

现在你可以运行以下代码来解析你的第一个 PDF 文件：


 
现在你可以运行以下代码来解析你的第一个 PDF 文件：
import nest_asyncio
nest_asyncio.apply()
from llama_parse import LlamaParse
 
parser = LlamaParse(
    api_key="llx-...",  # 也可以在环境变量中设置为 LLAMA_CLOUD_API_KEY
    result_type="markdown",  # 可以选择 "markdown" 或 "text"
    num_workers=4,  # 如果传递多个文件，则在 `num_workers` 个 API 调用中拆分
    verbose=True,
    language="en",  # 可以选择定义语言，默认=en
)
 
# 同步解析单个文件
documents = parser.load_data("./my_file.pdf")
# 同步解析多个文件
documents = parser.load_data(["./my_file1.pdf", "./my_file2.pdf"])
# 异步解析单个文件
documents = await parser.aload_data("./my_file.pdf")
# 异步解析多个文件
documents = await parser.aload_data(["./my_file1.pdf", "./my_file2.pdf"])
与 SimpleDirectoryReader 一起使用

第四步，将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器：


第四步，将解析器集成为 SimpleDirectoryReader 中的默认 PDF 加载器：
import nest_asyncio
nest_asyncio.apply()
 
from llama_parse import LlamaParse
from llama_index.core import SimpleDirectoryReader
 
parser = LlamaParse(
    api_key="llx-...",  # 也可以在环境变量中设置为 LLAMA_CLOUD_API_KEY
    result_type="markdown",  # 可以选择 "markdown" 或 "text"
    verbose=True,
)
 
file_extractor = {".pdf": parser}
documents = SimpleDirectoryReader(
    "./data", file_extractor=file_extractor
).load_data()
SimpleDirectoryReader 的完整文档可以在 LlamaIndex 文档中找到。

llama-parse的案例应用

持续更新中……

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小舞很执着/article/detail/808233?site