UNPKG

stopword

Version:

A module for node.js and the browser that takes in text and returns text that is stripped of stopwords. Has pre-defined stopword lists for 62 languages and also takes lists with custom stopwords as input.

352 lines (350 loc) 3.85 kB
// Copyright (c) 2017 Peter Graham, contributors. Released under the Apache-2.0 license. const ces = [ 'a', 'aby', 'ahoj', 'aj', 'ale', 'anebo', 'ani', 'ano', 'asi', 'aspoň', 'atd', 'atp', 'ačkoli', '', 'bez', 'beze', 'blízko', 'bohužel', 'brzo', 'bude', 'budem', 'budeme', 'budete', 'budeš', 'budou', 'budu', 'by', 'byl', 'byla', 'byli', 'bylo', 'byly', 'bys', 'být', 'během', 'chce', 'chceme', 'chcete', 'chceš', 'chci', 'chtít', 'chtějí', 'chut\'', 'chuti', 'co', 'což', 'cz', 'daleko', 'další', 'den', 'deset', 'devatenáct', 'devět', 'dnes', 'do', 'dobrý', 'docela', 'dva', 'dvacet', 'dvanáct', 'dvě', 'dál', 'dále', 'děkovat', 'děkujeme', 'děkuji', 'ho', 'hodně', 'i', 'jak', 'jakmile', 'jako', 'jakož', 'jde', 'je', 'jeden', 'jedenáct', 'jedna', 'jedno', 'jednou', 'jedou', 'jeho', 'jehož', 'jej', 'jejich', 'její', 'jelikož', 'jemu', 'jen', 'jenom', 'jestli', 'jestliže', 'ještě', 'jež', 'ji', 'jich', 'jimi', 'jinak', 'jiné', 'již', 'jsem', 'jseš', 'jsi', 'jsme', 'jsou', 'jste', '', '', 'jím', 'jíž', 'k', 'kam', 'kde', 'kdo', 'kdy', 'když', 'ke', 'kolik', 'kromě', 'kterou', 'která', 'které', 'který', 'kteří', 'kvůli', 'mají', 'mezi', 'mi', 'mne', 'mnou', 'mně', 'moc', 'mohl', 'mohou', 'moje', 'moji', 'možná', 'musí', 'my', '', 'málo', 'mám', 'máme', 'máte', 'máš', '', '', 'mít', '', 'můj', 'může', 'na', 'nad', 'nade', 'napište', 'naproti', 'načež', 'naše', 'naši', 'ne', 'nebo', 'nebyl', 'nebyla', 'nebyli', 'nebyly', 'nedělají', 'nedělá', 'nedělám', 'neděláme', 'neděláte', 'neděláš', 'neg', 'nejsi', 'nejsou', 'nemají', 'nemáme', 'nemáte', 'neměl', 'není', 'nestačí', 'nevadí', 'než', 'nic', 'nich', 'nimi', 'nové', 'nový', 'nula', 'nám', 'námi', 'nás', 'náš', 'ním', '', 'něco', 'nějak', 'někde', 'někdo', 'němu', 'němuž', 'o', 'od', 'ode', 'on', 'ona', 'oni', 'ono', 'ony', 'osm', 'osmnáct', 'pak', 'patnáct', 'po', 'pod', 'podle', 'pokud', 'potom', 'pouze', 'pozdě', 'pořád', 'pravé', 'pro', 'prostě', 'prosím', 'proti', 'proto', 'protože', 'proč', 'první', 'pta', 'pět', 'před', 'přes', 'přese', 'při', 'přičemž', 're', 'rovně', 's', 'se', 'sedm', 'sedmnáct', 'si', 'skoro', 'smí', 'smějí', 'snad', 'spolu', 'sta', 'sto', 'strana', 'sté', 'své', 'svých', 'svým', 'svými', 'ta', 'tady', 'tak', 'takhle', 'taky', 'také', 'takže', 'tam', 'tamhle', 'tamhleto', 'tamto', 'tato', 'tebe', 'tebou', 'ted\'', 'tedy', 'ten', 'tento', 'teto', 'ti', 'tipy', 'tisíc', 'tisíce', 'to', 'tobě', 'tohle', 'toho', 'tohoto', 'tom', 'tomto', 'tomu', 'tomuto', 'toto', 'trošku', 'tu', 'tuto', 'tvoje', 'tvá', 'tvé', 'tvůj', 'ty', 'tyto', 'téma', 'tím', 'tímto', '', 'těm', 'těmu', 'třeba', 'tři', 'ináct', 'u', 'určitě', '', 'v', 'vaše', 'vaši', 've', 'vedle', 'večer', 'vlastně', 'vy', 'vám', 'vámi', 'vás', 'váš', 'více', 'však', 'všechno', 'všichni', 'vůbec', 'vždy', 'z', 'za', 'zatímco', 'zač', 'zda', 'zde', 'ze', 'zprávy', 'zpět', 'čau', 'či', 'článku', 'články', 'čtrnáct', 'čtyři', 'šest', 'šestnáct', 'že' ] export { ces }