UNPKG

stopword

Version:

A module for node.js and the browser that takes in text and returns text that is stripped of stopwords. Has pre-defined stopword lists for 62 languages and also takes lists with custom stopwords as input.

1,232 lines (1,225 loc) 14.9 kB
/* The MIT License (MIT) Copyright (c) 2016 Gene Diaz Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the 'Software'), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions: The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software. THE SOFTWARE IS PROVIDED 'AS IS', WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. Source: https://github.com/stopwords-iso/stopwords-da */ const bre = [ '\'blam', '\'d', '\'m', '\'r', '\'ta', '\'vat', '\'z', '\'zo', 'a', 'a:', 'aba', 'abalamour', 'abaoe', 'ac\'hane', 'ac\'hanoc\'h', 'ac\'hanomp', 'ac\'hanon', 'ac\'hanout', 'adal', 'adalek', 'adarre', 'ae', 'aec\'h', 'aed', 'aemp', 'aen', 'aent', 'aes', 'afe', 'afec\'h', 'afed', 'afemp', 'afen', 'afent', 'afes', 'ag', 'ah', 'aimp', 'aint', 'aio', 'aiou', 'aje', 'ajec\'h', 'ajed', 'ajemp', 'ajen', 'ajent', 'ajes', 'al', 'alato', 'alies', 'aliesañ', 'alkent', 'all', 'allas', 'allo', 'allô', 'am', 'amañ', 'amzer', 'an', 'anezhañ', 'anezhe', 'anezhi', 'anezho', 'anvet', 'aon', 'aotren', 'ar', 'arall', 'araok', 'araoki', 'araozañ', 'araozo', 'araozoc\'h', 'araozomp', 'araozon', 'araozor', 'araozout', 'arbenn', 'arre', 'atalek', 'atav', 'az', 'azalek', 'azirazañ', 'azirazi', 'azirazo', 'azirazoc\'h', 'azirazomp', 'azirazon', 'azirazor', 'azirazout', 'b:', 'ba', 'ba\'l', 'ba\'n', 'ba\'r', 'bad', 'bah', 'bal', 'ban', 'bar', 'bastañ', 'befe', 'bell', 'benaos', 'benn', 'bennag', 'bennak', 'bennozh', 'bep', 'bepred', 'berr', 'berzh', 'bet', 'betek', 'betra', 'bev', 'bevet', 'bez', 'bezañ', 'beze', 'bezent', 'bezet', 'bezh', 'bezit', 'bezomp', 'bihan', 'bije', 'biou', 'biskoazh', 'blam', 'bo', 'boa', 'bominapl', 'boudoudom', 'bouez', 'boull', 'boum', 'bout', 'bras', 'brasañ', 'brav', 'bravo', 'bremañ', 'bres', 'brokenn', 'bronn', 'brrr', 'brutal', 'buhezek', 'c\'h:', 'c\'haout', 'c\'he', 'c\'hem', 'c\'herz', 'c\'heñver', 'c\'hichen', 'c\'hiz', 'c\'hoazh', 'c\'horre', 'c\'houde', 'c\'houst', 'c\'hreiz', 'c\'hwec\'h', 'c\'hwec\'hvet', 'c\'hwezek', 'c\'hwi', 'ch:', 'chaous', 'chik', 'chit', 'chom', 'chut', 'd\'', 'd\'al', 'd\'an', 'd\'ar', 'd\'az', 'd\'e', 'd\'he', 'd\'ho', 'd\'hol', 'd\'hon', 'd\'hor', 'd\'o', 'd\'ober', 'd\'ul', 'd\'un', 'd\'ur', 'd:', 'da', 'dak', 'daka', 'dal', 'dalbezh', 'dalc\'hmat', 'dalit', 'damdost', 'damheñvel', 'damm', 'dan', 'danvez', 'dao', 'daol', 'daonet', 'daou', 'daoust', 'daouzek', 'daouzekvet', 'darn', 'dastrewiñ', 'dav', 'davedoc\'h', 'davedomp', 'davedon', 'davedor', 'davedout', 'davet', 'davetañ', 'davete', 'daveti', 'daveto', 'defe', 'dehou', 'dek', 'dekvet', 'den', 'deoc\'h', 'deomp', 'deor', 'derc\'hel', 'deus', 'dez', 'deze', 'dezhañ', 'dezhe', 'dezhi', 'dezho', 'di', 'diabarzh', 'diagent', 'diar', 'diaraok', 'diavaez', 'dibaoe', 'dibaot', 'dibar', 'dic\'halañ', 'didiac\'h', 'dienn', 'difer', 'diganeoc\'h', 'diganeomp', 'diganeor', 'diganimp', 'diganin', 'diganit', 'digant', 'digantañ', 'digante', 'diganti', 'diganto', 'digemmesk', 'diget', 'digor', 'digoret', 'dija', 'dije', 'dimp', 'din', 'dinaou', 'dindan', 'dindanañ', 'dindani', 'dindano', 'dindanoc\'h', 'dindanomp', 'dindanon', 'dindanor', 'dindanout', 'dioutañ', 'dioute', 'diouti', 'diouto', 'diouzh', 'diouzhin', 'diouzhit', 'diouzhoc\'h', 'diouzhomp', 'diouzhor', 'dirak', 'dirazañ', 'dirazi', 'dirazo', 'dirazoc\'h', 'dirazomp', 'dirazon', 'dirazor', 'dirazout', 'disheñvel', 'dispar', 'distank', 'dister', 'disterañ', 'disterig', 'distro', 'dit', 'divaez', 'diwar', 'diwezhat', 'diwezhañ', 'do', 'doa', 'doare', 'dont', 'dost', 'doue', 'douetus', 'douez', 'doug', 'draou', 'draoñ', 'dre', 'drede', 'dreist', 'dreistañ', 'dreisti', 'dreisto', 'dreistoc\'h', 'dreistomp', 'dreiston', 'dreistor', 'dreistout', 'drek', 'dreñv', 'dring', 'dro', 'du', 'e', 'e:', 'eas', 'ebet', 'ec\'h', 'edo', 'edoc\'h', 'edod', 'edomp', 'edon', 'edont', 'edos', 'eer', 'eeun', 'efed', 'egedoc\'h', 'egedomp', 'egedon', 'egedor', 'egedout', 'eget', 'egetañ', 'egete', 'egeti', 'egeto', 'eh', 'eil', 'eilvet', 'eizh', 'eizhvet', 'ejoc\'h', 'ejod', 'ejomp', 'ejont', 'ejout', 'el', 'em', 'emaint', 'emaoc\'h', 'emaomp', 'emaon', 'emaout', 'emañ', 'eme', 'emeur', 'emezañ', 'emezi', 'emezo', 'emezoc\'h', 'emezomp', 'emezon', 'emezout', 'emporzhiañ', 'en', 'end', 'endan', 'endra', 'enep', 'ennañ', 'enni', 'enno', 'ennoc\'h', 'ennomp', 'ennon', 'ennor', 'ennout', 'enta', 'eo', 'eomp', 'eont', 'eor', 'eot', 'er', 'erbet', 'erfin', 'esa', 'esae', 'espar', 'estlamm', 'estrañj', 'eta', 'etre', 'etreoc\'h', 'etrezo', 'etrezoc\'h', 'etrezomp', 'etrezor', 'euh', 'eur', 'eus', 'evel', 'evelato', 'eveldoc\'h', 'eveldomp', 'eveldon', 'eveldor', 'eveldout', 'evelkent', 'eveltañ', 'evelte', 'evelti', 'evelto', 'evidoc\'h', 'evidomp', 'evidon', 'evidor', 'evidout', 'evit', 'evitañ', 'evite', 'eviti', 'evito', 'ez', '', 'f:', 'fac\'h', 'fall', 'fed', 'feiz', 'fenn', 'fezh', 'fin', 'finsalvet', 'foei', 'fouilhezañ', 'g:', 'gallout', 'ganeoc\'h', 'ganeomp', 'ganin', 'ganit', 'gant', 'gantañ', 'ganti', 'ganto', 'gaout', 'gast', 'gein', 'gellout', 'genndost', 'gentañ', 'ger', 'gerz', 'get', 'geñver', 'gichen', 'gin', 'giz', 'glan', 'gloev', 'goll', 'gorre', 'goude', 'gouez', 'gouezit', 'gouezomp', 'goulz', 'gounnar', 'gour', 'goust', 'gouze', 'gouzout', 'gra', 'grak', 'grec\'h', 'greiz', 'grenn', 'greomp', 'grit', 'groñs', 'gutez', 'gwall', 'gwashoc\'h', 'gwazh', 'gwech', 'gwechall', 'gwechoù', 'gwell', 'gwezh', 'gwezhall', 'gwezharall', 'gwezhoù', 'gwig', 'gwirionez', 'gwitibunan', 'gêr', 'h:', 'ha', 'hag', 'han', 'hanter', 'hanterc\'hantad', 'hanterkantved', 'harz', 'hañ', 'hañval', 'he', 'hebioù', 'hec\'h', 'hei', 'hein', 'hem', 'hemañ', 'hen', 'hend', 'henhont', 'henn', 'hennezh', 'hent', 'hep', 'hervez', 'hervezañ', 'hervezi', 'hervezo', 'hervezoc\'h', 'hervezomp', 'hervezon', 'hervezor', 'hervezout', 'heul', 'heuliañ', 'hevelep', 'heverk', 'heñvel', 'heñvelat', 'heñvelañ', 'heñveliñ', 'heñveloc\'h', 'heñvelout', 'hi', 'hilh', 'hini', 'hirie', 'hirio', 'hiziv', 'hiziviken', 'ho', 'hoaliñ', 'hoc\'h', 'hogen', 'hogos', 'hogozik', 'hol', 'holl', 'holà', 'homañ', 'hon', 'honhont', 'honnezh', 'hont', 'hop', 'hopala', 'hor', 'hou', 'houp', 'hudu', 'hue', 'hui', 'hum', 'hurrah', 'i', 'i:', 'in', 'int', 'is', 'ispisial', 'isurzhiet', 'it', 'ivez', 'izelañ', 'j:', 'just', 'k:', 'kae', 'kaer', 'kalon', 'kalz', 'kant', 'kaout', 'kar', 'kazi', 'keid', 'kein', 'keit', 'kel', 'kellies', 'keloù', 'kement', 'ken', 'kenkent', 'kenkoulz', 'kenment', 'kent', 'kentañ', 'kentizh', 'kentoc\'h', 'kentre', 'ker', 'kerkent', 'kerz', 'kerzh', 'ket', 'keta', 'keñver', 'keñverel', 'keñverius', 'kichen', 'kichenik', 'kit', 'kiz', 'klak', 'klek', 'klik', 'komprenet', 'komz', 'kont', 'korf', 'korre', 'koulskoude', 'koulz', 'koust', 'krak', 'krampouezh', 'krec\'h', 'kreiz', 'kuit', 'kwir', 'l:', 'la', 'laez', 'laoskel', 'laouen', 'lavar', 'lavaret', 'lavarout', 'lec\'h', 'lein', 'leizh', 'lerc\'h', 'leun', 'leuskel', 'lew', 'lies', 'liesañ', 'lod', 'lusk', 'lâr', 'lârout', 'm:', 'ma', 'ma\'z', 'mac\'h', 'mac\'hat', 'mac\'hañ', 'mac\'hoc\'h', 'mad', 'maez', 'maksimal', 'mann', 'mar', 'mard', 'marg', 'marzh', 'mat', 'mañ', 'me', 'memes', 'memestra', 'merkapl', 'mersi', 'mes', 'mesk', 'met', 'meur', 'mil', 'minimal', 'moan', 'moaniaat', 'mod', 'mont', 'mout', 'mui', 'muiañ', 'muioc\'h', 'n', 'n\'', 'n:', 'na', 'nag', 'naontek', 'naturel', 'nav', 'navet', 'ne', 'nebeudig', 'nebeut', 'nebeutañ', 'nebeutoc\'h', 'neketa', 'nemedoc\'h', 'nemedomp', 'nemedon', 'nemedor', 'nemedout', 'nemet', 'nemetañ', 'nemete', 'nemeti', 'nemeto', 'nemeur', 'neoac\'h', 'nepell', 'nerzh', 'nes', 'neseser', 'netra', 'neubeudoù', 'neuhe', 'neuze', 'nevez', 'newazh', 'nez', 'ni', 'nikun', 'niverus', 'nul', 'o', 'o:', 'oa', 'oac\'h', 'oad', 'oamp', 'oan', 'oant', 'oar', 'oas', 'ober', 'oc\'h', 'oc\'ho', 'oc\'hola', 'oc\'hpenn', 'oh', 'ohe', 'ollé', 'olole', 'olé', 'omp', 'on', 'ordin', 'ordinal', 'ouejoc\'h', 'ouejod', 'ouejomp', 'ouejont', 'ouejout', 'ouek', 'ouezas', 'ouezi', 'ouezimp', 'ouezin', 'ouezint', 'ouezis', 'ouezo', 'ouezoc\'h', 'ouezor', 'ouf', 'oufe', 'oufec\'h', 'oufed', 'oufemp', 'oufen', 'oufent', 'oufes', 'ouie', 'ouiec\'h', 'ouied', 'ouiemp', 'ouien', 'ouient', 'ouies', 'ouije', 'ouijec\'h', 'ouijed', 'ouijemp', 'ouijen', 'ouijent', 'ouijes', 'out', 'outañ', 'outi', 'outo', 'ouzer', 'ouzh', 'ouzhin', 'ouzhit', 'ouzhoc\'h', 'ouzhomp', 'ouzhor', 'ouzhpenn', 'ouzhpennik', 'ouzoc\'h', 'ouzomp', 'ouzon', 'ouzont', 'ouzout', 'p\'', 'p:', 'pa', 'pad', 'padal', 'paf', 'pan', 'panevedeoc\'h', 'panevedo', 'panevedomp', 'panevedon', 'panevedout', 'panevet', 'panevetañ', 'paneveti', 'pas', 'paseet', 'pe', 'peadra', 'peder', 'pedervet', 'pedervetvet', 'pefe', 'pegeit', 'pegement', 'pegen', 'pegiz', 'pegoulz', 'pehini', 'pelec\'h', 'pell', 'pemod', 'pemp', 'pempved', 'pemzek', 'penaos', 'penn', 'peogwir', 'peotramant', 'pep', 'perak', 'perc\'hennañ', 'pergen', 'permetiñ', 'peseurt', 'pet', 'petiaoul', 'petoare', 'petra', 'peur', 'peurgetket', 'peurheñvel', 'peurliesañ', 'peurvuiañ', 'peus', 'peustost', 'peuz', 'pevar', 'pevare', 'pevarevet', 'pevarzek', 'pez', 'peze', 'pezh', 'pff', 'pfft', 'pfut', 'picher', 'pif', 'pife', 'pign', 'pije', 'pikol', 'pitiaoul', 'piv', 'plaouf', 'plok', 'plouf', 'po', 'poa', 'poelladus', 'pof', 'pok', 'posupl', 'pouah', 'pourc\'henn', 'prest', 'prestik', 'prim', 'prin', 'provostapl', 'pst', 'pu', 'pur', 'r:', 'ra', 'rae', 'raec\'h', 'raed', 'raemp', 'raen', 'raent', 'raes', 'rafe', 'rafec\'h', 'rafed', 'rafemp', 'rafen', 'rafent', 'rafes', 'rag', 'raimp', 'raint', 'raio', 'raje', 'rajec\'h', 'rajed', 'rajemp', 'rajen', 'rajent', 'rajes', 'rak', 'ral', 'ran', 'rankout', 'raok', 'razh', 're', 'reas', 'reer', 'regennoù', 'reiñ', 'rejoc\'h', 'rejod', 'rejomp', 'rejont', 'rejout', 'rener', 'rentañ', 'reoc\'h', 'reomp', 'reont', 'reor', 'reot', 'resis', 'ret', 'reve', 'rez', 'ri', 'rik', 'rin', 'ris', 'rit', 'rouez', 's:', 'sac\'h', 'sant', 'sav', 'sañset', 'se', 'sed', 'seitek', 'seizh', 'seizhvet', 'sell', 'sellit', 'ser', 'setu', 'seul', 'seurt', 'siwazh', 'skignañ', 'skoaz', 'skouer', 'sort', 'souden', 'souvitañ', 'soñj', 'speriañ', 'spririñ', 'stad', 'stlabezañ', 'stop', 'stranañ', 'strewiñ', 'strishaat', 'stumm', 'sujed', 'surtoud', 't:', 'ta', 'taer', 'tailh', 'tak', 'tal', 'talvoudegezh', 'tamm', 'tanav', 'taol', 'te', 'techet', 'teir', 'teirvet', 'telt', 'teltenn', 'teus', 'teut', 'teuteu', 'ti', 'tik', 'toa', 'tok', 'tost', 'tostig', 'toud', 'touesk', 'touez', 'toull', 'tra', 'trantenn', 'traoñ', 'trawalc\'h', 'tre', 'trede', 'tregont', 'tremenet', 'tri', 'trivet', 'triwec\'h', 'trizek', 'tro', 'trugarez', 'trumm', 'tsoin', 'tsouin', 'tu', 'tud', 'u:', 'ugent', 'uhel', 'uhelañ', 'ul', 'un', 'unan', 'unanez', 'unanig', 'unnek', 'unnekvet', 'ur', 'urzh', 'us', 'v:', 'va', 'vale', 'van', 'vare', 'vat', 'vefe', 'vefec\'h', 'vefed', 'vefemp', 'vefen', 'vefent', 'vefes', 'vesk', 'vete', 'vez', 'vezan', 'vezañ', 'veze', 'vezec\'h', 'vezed', 'vezemp', 'vezen', 'vezent', 'vezer', 'vezes', 'vezez', 'vezit', 'vezomp', 'vezont', 'vi', 'vihan', 'vihanañ', 'vije', 'vijec\'h', 'vijed', 'vijemp', 'vijen', 'vijent', 'vijes', 'viken', 'vimp', 'vin', 'vint', 'vior', 'viot', 'virviken', 'viskoazh', 'vlan', 'vlaou', 'vo', 'vod', 'voe', 'voec\'h', 'voed', 'voemp', 'voen', 'voent', 'voes', 'vont', 'vostapl', 'vrac\'h', 'vrasañ', 'vremañ', 'w:', 'walc\'h', 'war', 'warnañ', 'warni', 'warno', 'warnoc\'h', 'warnomp', 'warnon', 'warnor', 'warnout', 'wazh', 'wech', 'wechoù', 'well', 'y:', 'you', 'youadenn', 'youc\'hadenn', 'youc\'hou', 'z:', 'za', 'zan', 'zaw', 'zeu', 'zi', 'ziar', 'zigarez', 'ziget', 'zindan', 'zioc\'h', 'ziouzh', 'zirak', 'zivout', 'ziwar', 'ziwezhañ', 'zo', 'zoken', 'zokenoc\'h', 'zouesk', 'zouez', 'zro', 'zu'] export { bre }