| Package | Description |
|---|---|
| com.hankcs.hanlp.model.crf | |
| com.hankcs.hanlp.model.hmm | |
| com.hankcs.hanlp.model.perceptron |
感知机在线学习算法的线性序列标注模型。基于这套框架实现了一整套分词、词性标注和命名实体识别功能。
理论参考邓知龙 《基于感知器算法的高效中文分词与词性标注系统设计与实现》,
简介:http://www.hankcs.com/nlp/segment/implementation-of-word-segmentation-device-java-based-on-structured-average-perceptron.html
|
| com.hankcs.hanlp.tokenizer |
一些常用的配置好的静态分词器,其中一些具备特殊的预处理功能
可供用户参考以实现自己的预处理逻辑. |
| com.hankcs.hanlp.tokenizer.lexical |
| Modifier and Type | Class and Description |
|---|---|
class |
CRFLexicalAnalyzer
CRF词法分析器(中文分词、词性标注和命名实体识别)
|
| Modifier and Type | Class and Description |
|---|---|
class |
HMMLexicalAnalyzer
基于隐马尔可夫模型的词法分析器
|
| Modifier and Type | Class and Description |
|---|---|
class |
PerceptronLexicalAnalyzer
感知机词法分析器,支持简繁全半角和大小写
|
| Modifier and Type | Field and Description |
|---|---|
static AbstractLexicalAnalyzer |
NLPTokenizer.ANALYZER
预置分词器
|
| Modifier and Type | Method and Description |
|---|---|
AbstractLexicalAnalyzer |
AbstractLexicalAnalyzer.enableRuleBasedSegment(boolean enableRuleBasedSegment)
是否执行规则分词(英文数字标点等的规则预处理)。规则永远是丑陋的,默认关闭。
|
Copyright © 2014–2021 码农场. All rights reserved.