当前位置:   article > 正文

AIGC: 关于ChatGPT中token和tiktoken工具_tiktoken是openai开发的开源的快速token切分器

tiktoken是openai开发的开源的快速token切分器

什么是token

  • token是GPT处理文本的基本的单位
  • token本身可以是一个字,可以是一个词语,或特定语言中的一个字符
  • token负责将输入的文本数据转换为GPT可以处理的数据格式
  • GPT不同模型的计费就是根据token来的

token 的拆分

  • 这里有一个 tiktoken 工具
    • 是 open ai 开源的一个快速分词的工具
    • 可以将我们输入的文本的字符串去进行拆分, 拆分成token的列表
      • 我们通过对 Prompt 进行拆分,计算出token的数量
      • 不同的模型对于token是有限制的,可以判断 Prompt 是不是比较长, 导致GPT对应的模型没有办法处理
      • 我们也可以通过 token 的数量去进行费用的计算
        • 我们开发了一个自助的聊天工具,向用户进行开放
        • 对用户而言,我们可以通过计算token的数量来计算费用
        • 因为openAI它的API的调用的费用也是通过token去进行计算的
      • 举一个例子
        • 比如我们要做一个聊天机器人,对于聊天机器人,是需要我们的历史的一些聊天的信息
        • 需要去判断历史信息,也就是追加上下文的信息,是不是能够被GPT进行处理
        • 这个时候, 可能就会涉及到对于token的一个计算,我们需要将上下文的信息去计算它的token
        • 看是不是超过了我们想要去设置的阈值,这是token拆分实际的一个使用

如何拆分 token

  • openai 通过不同
本文内容由网友自发贡献,转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/344500
推荐阅读
相关标签
  

闽ICP备14008679号