llmtrim

Version:

A library for trimming tokens in encoding and decoding in LLM applications.

70 lines (69 loc) • 3.22 kB

text/typescript

export const NEGATION_WORDS: Record<string, string[]> = { english: [ 'no', 'nor', 'not', 'don', 'dont', 'ain', 'aren', 'arent', 'couldn', 'couldnt', 'didn', 'didnt', 'doesn', 'doesnt', 'hadn', 'hadnt', 'hasn', 'hasnt', 'haven', 'havent', 'isn', 'isnt', 'mightn', 'mightnt', 'mustn', 'mustnt', 'needn', 'neednt', 'shan', 'shant', 'shouldn', 'shouldnt', 'wasn', 'wasnt', 'weren', 'werent', 'won', 'wont', 'wouldn', 'wouldnt', 'never', 'none', 'nobody', 'nothing', 'nowhere' ], french: [ 'non', 'ne', 'pas', 'n', 'ni', 'aucun', 'jamais', 'rien', 'personne', 'nul', 'nulle part', 'guère', 'sans' ], german: [ 'kein', 'keine', 'keiner', 'keines', 'keinem', 'keinen', 'nicht', 'nichts', 'niemals', 'nie', 'ohne', 'weder', 'niemand', 'nirgendwo' ], spanish: [ 'no', 'nada', 'ningún', 'ninguna', 'ninguno', 'nunca', 'jamás', 'nadie', 'tampoco', 'sin' ], italian: [ 'no', 'niente', 'nessuno', 'mai', 'non', 'nulla', 'neanche', 'nemmeno', 'senza' ], portuguese: [ 'não', 'nada', 'nenhum', 'nenhuma', 'nunca', 'jamais', 'ninguém', 'tampouco', 'sem' ], russian: [ 'нет', 'не', 'ничего', 'никто', 'никогда', 'нигде', 'никакой', 'никакая', 'никакое', 'никакие', 'без' ], chinese: [ '不', '没有', '无', '非', '未', '没人', '没有人', '一点也不', '绝不', '从不', '从来没有', '毫无', '没有什么' ], japanese: [ 'いいえ', 'ない', '何も', '誰も', '決して', '全く', '一切', 'どこも', 'ありえない', '未だに', '無い' ], korean: [ '아니요', '없다', '아니다', '무', '결코', '안', '전혀', '누구도', '아무도', '절대', '없어요', '없습니다' ], arabic: [ 'لا', 'ليس', 'لا شيء', 'لا أحد', 'أبدا', 'مستحيل', 'بدون', 'ما', 'لم', 'لن', 'غير', 'أياً', 'قط' ], hindi: [ 'नहीं', 'न', 'कुछ नहीं', 'कोई नहीं', 'कभी नहीं', 'ना', 'बिलकुल नहीं', 'कहीं नहीं', 'निजात', 'अभी नहीं' ], turkish: [ 'hayır', 'değil', 'hiçbir', 'hiçbir şey', 'kimse', 'asla', 'yok', 'olmaz', 'hiç', 'hiç kimse', 'sakın', 'olmayan' ], dutch: [ 'nee', 'niet', 'niets', 'nooit', 'geen', 'nergens', 'niemand', 'zonder', 'noch' ], polish: [ 'nie', 'nic', 'nikt', 'nigdy', 'żaden', 'żadna', 'żadne', 'bez', 'wcale', 'nigdzie', 'nikt nie' ] }; export const ARTICLES_PREPOSITIONS: Record<string, string[]> = { english: ['the', 'a', 'an', 'in', 'on', 'at', 'for', 'to', 'of'], french: ['le', 'la', 'les', 'un', 'une', 'des', 'dans', 'sur', 'à', 'pour'], german: ['der', 'die', 'das', 'ein', 'eine', 'den', 'dem', 'des'], spanish: ['el', 'la', 'los', 'las', 'un', 'una'], italian: ['il', 'la', 'lo', 'i', 'gli'], portuguese: ['o', 'a', 'os', 'as'], russian: ['в', 'на'], chinese: ['的'], japanese: ['の'], korean: ['의'], arabic: ['ال'], hindi: ['का'], turkish: ['bir'], dutch: ['de', 'het'], polish: ['w'] }; export const PUNCTUATION = ['.', ',', "'", '"', '!', '?', ';', ':', '-', '…', '—'];