novel-segment
Version:
Chinese word segmentation 簡繁中文分词模块 以網路小說為樣本
73 lines (72 loc) • 2.52 kB
JavaScript
;
Object.defineProperty(exports, "__esModule", { value: true });
exports.useDefaultDicts = useDefaultDicts;
exports.useDefaultSynonymDict = useDefaultSynonymDict;
exports.useDefaultBlacklistDict = useDefaultBlacklistDict;
function useDefaultDicts(segment, options = {}) {
if (!options.nodict) {
// 字典文件
segment
//.loadDict('jieba') <=== bad file
.loadDict('char')
// 盘古词典
.loadDict('pangu/phrases')
.loadDict('pangu/phrases2')
.loadDict('phrases/*')
.loadDict('dict')
.loadDict('dict2')
.loadDict('dict3')
.loadDict('dict4')
.loadDict('pangu/dict005')
.loadDict('pangu/dict006')
//.loadDict('synonym/后')
//.loadDict('synonym/參')
//.loadDict('synonym/发')
.loadDict('dict_synonym/*')
//.loadDict('pangu/wildcard', 'WILDCARD', true) // 通配符
.loadStopwordDict('stopword') // 停止符
.loadDict('lazy/dict_synonym')
/*
.loadDict('names/area')
.loadDict('names/job')
.loadDict('names/food')
.loadDict('names/other')
.loadDict('names/jp')
.loadDict('names/zh')
.loadDict('names/en')
.loadDict('names/name')
*/
.loadDict('names/*')
.loadDict('lazy/*')
.loadDict('pangu/num')
.loadDict('lazy/badword')
.loadDict('pangu/wildcard', 'WILDCARD', true);
useDefaultSynonymDict(segment, options);
useDefaultBlacklistDict(segment, options);
segment.doBlacklist();
}
return segment;
}
function useDefaultSynonymDict(segment, options = {}) {
if (!options.nodict) {
segment
.loadSynonymDict('synonym') // 同义词
.loadSynonymDict('zht.synonym', false);
if (options.nodeNovelMode) {
segment
.loadSynonymDict('badword.synonym', false)
.loadSynonymDict('zht.common.synonym', false);
}
}
return segment;
}
function useDefaultBlacklistDict(segment, options = {}) {
if (!options.nodict) {
segment
.loadBlacklistDict('blacklist')
.loadBlacklistOptimizerDict('blacklist.name')
.loadBlacklistSynonymDict('blacklist.synonym');
}
return segment;
}
//# sourceMappingURL=dict.js.map