autosnippet
Version:
Extract code patterns into a knowledge base for AI coding assistants
27 lines (26 loc) • 984 B
TypeScript
/**
* token-utils — 统一 Token 估算工具
*
* 项目内所有 token 估算统一使用此模块,避免各处使用不同的字符/token 比率。
*
* 算法:CJK 字符按 ~2 chars/token,ASCII 字符按 ~4 chars/token。
* 这与主流 tokenizer (tiktoken / SentencePiece) 的行为一致:
* - GPT-4 tokenizer: 英文 ~4 chars/token, 中文 ~1.5 chars/token
* - Gemini (SentencePiece): 类似比率
* - 本实现取保守值, 宁多不少
*
* @module shared/token-utils
*/
/**
* 估算文本的 token 数量
*
* @param text 待估算的文本
* @returns 估算 token 数(向上取整)
*/
export declare function estimateTokens(text: string): number;
/**
* 快速估算 — 纯 ASCII 场景下的快速路径(不区分 CJK,统一按 3.5 chars/token)
*
* 适用于已知只含英文 / 混合语言但无需精确的场景(如 ContextWindow 内部压缩阈值)。
*/
export declare function estimateTokensFast(text: string): number;