| Modifier and Type | Method and Description |
|---|---|
static Segment |
HanLP.newSegment()
创建一个分词器
这是一个工厂方法 与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器 |
static Segment |
HanLP.newSegment(String algorithm)
创建一个分词器,
这是一个工厂方法
|
| Modifier and Type | Method and Description |
|---|---|
Segment |
IDependencyParser.getSegment()
获取Parser使用的分词器
|
Segment |
AbstractDependencyParser.getSegment() |
| Modifier and Type | Method and Description |
|---|---|
IDependencyParser |
IDependencyParser.setSegment(Segment segment)
设置Parser使用的分词器
|
IDependencyParser |
AbstractDependencyParser.setSegment(Segment segment) |
| Constructor and Description |
|---|
AbstractDependencyParser(Segment segment) |
| Constructor and Description |
|---|
NeuralNetworkDependencyParser(Segment segment) |
| Constructor and Description |
|---|
KBeamArcEagerDependencyParser(Segment segment,
KBeamArcEagerParser parser) |
| Modifier and Type | Field and Description |
|---|---|
protected Segment |
ClusterAnalyzer.segment |
| Constructor and Description |
|---|
TermFrequencyCounter(Segment segment,
boolean filterStopWord)
构造
|
TfIdfCounter(Segment defaultSegment) |
TfIdfCounter(Segment defaultSegment,
boolean filterStopWord) |
| Modifier and Type | Method and Description |
|---|---|
Segment |
DocVectorModel.getSegment() |
| Modifier and Type | Method and Description |
|---|---|
void |
DocVectorModel.setSegment(Segment segment) |
| Constructor and Description |
|---|
DocVectorModel(WordVectorModel wordVectorModel,
Segment segment,
boolean filter) |
| Modifier and Type | Class and Description |
|---|---|
class |
CRFLexicalAnalyzer
CRF词法分析器(中文分词、词性标注和命名实体识别)
|
| Modifier and Type | Class and Description |
|---|---|
class |
HMMLexicalAnalyzer
基于隐马尔可夫模型的词法分析器
|
| Modifier and Type | Method and Description |
|---|---|
Segment |
HMMSegmenter.toSegment()
获取兼容旧的Segment接口
|
| Modifier and Type | Class and Description |
|---|---|
class |
PerceptronLexicalAnalyzer
感知机词法分析器,支持简繁全半角和大小写
|
| Modifier and Type | Class and Description |
|---|---|
class |
CharacterBasedSegment
基于“由字构词”方法分词器基类
|
class |
DictionaryBasedSegment
基于词典的机械分词器基类
|
class |
SegmentPipeline |
class |
WordBasedSegment
基于词语NGram模型的分词器基类
|
| Modifier and Type | Method and Description |
|---|---|
Segment |
Segment.enableAllNamedEntityRecognize(boolean enable)
是否启用所有的命名实体识别
|
Segment |
Segment.enableCustomDictionary(boolean enable)
是否启用用户词典
|
Segment |
DictionaryBasedSegment.enableCustomDictionary(boolean enable) |
Segment |
Segment.enableCustomDictionary(DynamicCustomDictionary customDictionary)
启用新的用户词典
|
Segment |
Segment.enableCustomDictionaryForcing(boolean enable)
是否尽可能强制使用用户词典(使用户词典的优先级尽可能高)
警告:具体实现由各子类决定,可能会破坏分词器的统计特性(例如,如果用户词典 含有“和服”,则“商品和服务”的分词结果可能会被用户词典的高优先级影响)。 |
Segment |
Segment.enableIndexMode(boolean enable)
设为索引模式
|
Segment |
Segment.enableIndexMode(int minimalLength)
索引模式下的最小切分颗粒度(设为1可以最小切分为单字)
|
Segment |
Segment.enableJapaneseNameRecognize(boolean enable)
是否启用日本人名识别
|
Segment |
Segment.enableMultithreading(boolean enable)
开启多线程
|
Segment |
Segment.enableMultithreading(int threadNumber)
开启多线程
|
Segment |
Segment.enableNameRecognize(boolean enable)
开启人名识别
|
Segment |
Segment.enableNumberQuantifierRecognize(boolean enable)
是否启用数词和数量词识别
即[二, 十, 一] => [二十一],[十, 九, 元] => [十九元] |
Segment |
Segment.enableOffset(boolean enable)
是否启用偏移量计算(开启后Term.offset才会被计算)
|
Segment |
Segment.enableOrganizationRecognize(boolean enable)
开启机构名识别
|
Segment |
Segment.enablePartOfSpeechTagging(boolean enable)
开启词性标注
|
Segment |
DictionaryBasedSegment.enablePartOfSpeechTagging(boolean enable)
开启数词和英文识别(与标准意义上的词性标注不同,只是借用这个配置方法,不是真的开启了词性标注。
一般用词典分词的用户不太可能是NLP专业人士,对词性准确率要求不高,所以干脆不为词典分词实现词性标注。)
|
Segment |
Segment.enablePlaceRecognize(boolean enable)
开启地名识别
|
Segment |
Segment.enableTranslatedNameRecognize(boolean enable)
是否启用音译人名识别
|
| Constructor and Description |
|---|
SegmentPipeline(Segment delegate) |
| Modifier and Type | Method and Description |
|---|---|
static CWSEvaluator.Result |
CWSEvaluator.evaluate(Segment segment,
String outputPath,
String goldFile,
String dictPath)
标准化评测分词器
|
static CWSEvaluator.Result |
CWSEvaluator.evaluate(Segment segment,
String testFile,
String outputPath,
String goldFile,
String dictPath)
标准化评测分词器
|
| Constructor and Description |
|---|
SegmentWrapper(BufferedReader br,
Segment segment) |
| Modifier and Type | Class and Description |
|---|---|
class |
CRFSegment
Deprecated.
已废弃,请使用
CRFLexicalAnalyzer |
| Modifier and Type | Method and Description |
|---|---|
Segment |
CRFSegment.enableNumberQuantifierRecognize(boolean enable)
Deprecated.
|
| Modifier and Type | Class and Description |
|---|---|
class |
DijkstraSegment
最短路径分词
|
| Modifier and Type | Class and Description |
|---|---|
class |
HMMSegment
基于2阶HMM(A Second-Order Hidden Markov Model, TriGram3阶文法模型)+ BMES序列标注的分词器
|
| Modifier and Type | Class and Description |
|---|---|
class |
NShortSegment
N最短分词器
|
| Modifier and Type | Class and Description |
|---|---|
class |
AhoCorasickDoubleArrayTrieSegment
使用AhoCorasickDoubleArrayTrie实现的最长分词器
需要用户调用setTrie()提供一个AhoCorasickDoubleArrayTrie |
class |
DoubleArrayTrieSegment
使用DoubleArrayTrie实现的最长分词器
|
| Modifier and Type | Method and Description |
|---|---|
Segment |
AhoCorasickDoubleArrayTrieSegment.enableCustomDictionary(boolean enable) |
| Modifier and Type | Class and Description |
|---|---|
class |
ViterbiSegment
Viterbi分词器
也是最短路分词,最短路求解采用Viterbi算法 |
| Modifier and Type | Field and Description |
|---|---|
protected Segment |
KeywordExtractor.defaultSegment
默认分词器
|
| Modifier and Type | Method and Description |
|---|---|
Segment |
KeywordExtractor.getSegment() |
| Modifier and Type | Method and Description |
|---|---|
KeywordExtractor |
KeywordExtractor.setSegment(Segment segment)
设置关键词提取器使用的分词器
|
| Constructor and Description |
|---|
KeywordExtractor(Segment defaultSegment) |
TextRankKeyword(Segment defaultSegment) |
| Modifier and Type | Field and Description |
|---|---|
static Segment |
BasicTokenizer.SEGMENT
预置分词器
|
static Segment |
URLTokenizer.SEGMENT
预置分词器
|
static Segment |
IndexTokenizer.SEGMENT
预置分词器
|
static Segment |
TraditionalChineseTokenizer.SEGMENT
预置分词器
|
static Segment |
SpeedTokenizer.SEGMENT
预置分词器
|
static Segment |
StandardTokenizer.SEGMENT
预置分词器
|
static Segment |
NotionalTokenizer.SEGMENT
预置分词器
|
| Modifier and Type | Class and Description |
|---|---|
class |
AbstractLexicalAnalyzer
词法分析器基类(中文分词、词性标注和命名实体识别)
|
Copyright © 2014–2021 码农场. All rights reserved.