自Aichat-web 专业版0.11.4 开始,所有非openai模型计费均采用cl100k_base编码计费。
TikToken支持的三种编码(cl100k_base、p50k_base和r50k_base)主要用于不同的OpenAI模型,它们的区别主要在于模型的应用和编码的规则。
cl100k_base:这种编码被用于gpt-4、gpt-3.5-turbo、text-embedding-ada-002、text-embedding-3-small和text-embedding-3-large等模型。
p50k_base :这种编码被用于Codex模型、text-davinci-002和text-davinci-003等模型。
r50k_base(或gpt2):这种编码被用于GPT-3模型,如davinci等。r50k_base和p50k_base在非代码应用中,它们通常会给出相同的tokens。
如果好奇Tiktoken到底是如何编码的,可以访问https://platform.openai.com/tokenizer。