| com.hankcs.hanlp |
|
| com.hankcs.hanlp.algorithm |
|
| com.hankcs.hanlp.algorithm.ahocorasick.interval |
|
| com.hankcs.hanlp.algorithm.ahocorasick.trie |
|
| com.hankcs.hanlp.classification.classifiers |
|
| com.hankcs.hanlp.classification.collections |
|
| com.hankcs.hanlp.classification.corpus |
|
| com.hankcs.hanlp.classification.features |
|
| com.hankcs.hanlp.classification.models |
|
| com.hankcs.hanlp.classification.statistics |
|
| com.hankcs.hanlp.classification.statistics.evaluations |
|
| com.hankcs.hanlp.classification.tokenizers |
|
| com.hankcs.hanlp.classification.utilities |
|
| com.hankcs.hanlp.classification.utilities.io |
|
| com.hankcs.hanlp.collection.AhoCorasick |
|
| com.hankcs.hanlp.collection.dartsclone |
|
| com.hankcs.hanlp.collection.dartsclone.details |
|
| com.hankcs.hanlp.collection.MDAG |
|
| com.hankcs.hanlp.collection.sequence |
|
| com.hankcs.hanlp.collection.set |
|
| com.hankcs.hanlp.collection.trie |
|
| com.hankcs.hanlp.collection.trie.bintrie |
|
| com.hankcs.hanlp.collection.trie.bintrie.util |
|
| com.hankcs.hanlp.collection.trie.datrie |
可变双数组trie树,可以当做Map来用。如果V是int,可以直接用MutableDoubleArrayTrieInteger
|
| com.hankcs.hanlp.corpus.dependency.CoNll |
|
| com.hankcs.hanlp.corpus.dependency.model |
|
| com.hankcs.hanlp.corpus.dictionary |
|
| com.hankcs.hanlp.corpus.dictionary.item |
|
| com.hankcs.hanlp.corpus.document |
|
| com.hankcs.hanlp.corpus.document.sentence |
|
| com.hankcs.hanlp.corpus.document.sentence.word |
|
| com.hankcs.hanlp.corpus.io |
|
| com.hankcs.hanlp.corpus.occurrence |
|
| com.hankcs.hanlp.corpus.synonym |
|
| com.hankcs.hanlp.corpus.tag |
|
| com.hankcs.hanlp.corpus.util |
|
| com.hankcs.hanlp.dependency |
|
| com.hankcs.hanlp.dependency.common |
|
| com.hankcs.hanlp.dependency.nnparser |
|
| com.hankcs.hanlp.dependency.nnparser.action |
|
| com.hankcs.hanlp.dependency.nnparser.option |
|
| com.hankcs.hanlp.dependency.nnparser.util |
|
| com.hankcs.hanlp.dependency.perceptron |
本package是对Yara Parser的包装与优化,主要做了如下几点优化
- 代码重构,提高复用率(由于dynamic oracle需要在训练的过程中逐渐动态地创建特征,
所以无法复用HanLP的感知机框架,这也是为什么选择直接包装该模块而不是重新实现的原因之一。)
- 接口调整,与词法分析器整合
- debug
- 文档注释
Yara Parser的版权与授权信息如下:
© Copyright 2014-2015, Yahoo! Inc.
|
| com.hankcs.hanlp.dependency.perceptron.accessories |
|
| com.hankcs.hanlp.dependency.perceptron.learning |
|
| com.hankcs.hanlp.dependency.perceptron.parser |
|
| com.hankcs.hanlp.dependency.perceptron.structures |
|
| com.hankcs.hanlp.dependency.perceptron.transition.configuration |
|
| com.hankcs.hanlp.dependency.perceptron.transition.features |
|
| com.hankcs.hanlp.dependency.perceptron.transition.parser |
|
| com.hankcs.hanlp.dependency.perceptron.transition.trainer |
|
| com.hankcs.hanlp.dictionary |
|
| com.hankcs.hanlp.dictionary.common |
|
| com.hankcs.hanlp.dictionary.nr |
|
| com.hankcs.hanlp.dictionary.ns |
|
| com.hankcs.hanlp.dictionary.nt |
|
| com.hankcs.hanlp.dictionary.other |
|
| com.hankcs.hanlp.dictionary.py |
|
| com.hankcs.hanlp.dictionary.stopword |
|
| com.hankcs.hanlp.dictionary.ts |
|
| com.hankcs.hanlp.mining |
这个包下面是一些文本挖掘工具(主要是无监督方法)
|
| com.hankcs.hanlp.mining.cluster |
文本聚类模块(k-means和repeated bisection)
参考文献 Steinbach M, Karypis G, Kumar V.
|
| com.hankcs.hanlp.mining.phrase |
|
| com.hankcs.hanlp.mining.word |
|
| com.hankcs.hanlp.mining.word2vec |
Java移植版的word2vec,最大程度上与原版一致。大部分代码来自:https://github.com/kojisekig/word2vec-lucene ,额外做了一些性能优化
|
| com.hankcs.hanlp.model |
|
| com.hankcs.hanlp.model.bigram |
|
| com.hankcs.hanlp.model.crf |
|
| com.hankcs.hanlp.model.crf.crfpp |
这个包下面是由 Zhifa Chen移植的CRF++。
做了一些注释、修改与debug。本来想自己移植的,后来发现已经有移植版,所以就没有浪费时间重复造轮子。
关于理论,请参考 《CRF++代码分析》。
这份代码(含CRF++和darts-java)的许可证是LGPL & Modified BSD,需注明如下版权声明:
|
| com.hankcs.hanlp.model.hmm |
|
| com.hankcs.hanlp.model.maxent |
|
| com.hankcs.hanlp.model.perceptron |
感知机在线学习算法的线性序列标注模型。基于这套框架实现了一整套分词、词性标注和命名实体识别功能。
理论参考邓知龙 《基于感知器算法的高效中文分词与词性标注系统设计与实现》,
简介:http://www.hankcs.com/nlp/segment/implementation-of-word-segmentation-device-java-based-on-structured-average-perceptron.html
|
| com.hankcs.hanlp.model.perceptron.cli |
|
| com.hankcs.hanlp.model.perceptron.common |
|
| com.hankcs.hanlp.model.perceptron.feature |
|
| com.hankcs.hanlp.model.perceptron.instance |
|
| com.hankcs.hanlp.model.perceptron.model |
|
| com.hankcs.hanlp.model.perceptron.tagset |
|
| com.hankcs.hanlp.model.perceptron.utility |
|
| com.hankcs.hanlp.model.trigram |
|
| com.hankcs.hanlp.model.trigram.frequency |
|
| com.hankcs.hanlp.recognition.nr |
|
| com.hankcs.hanlp.recognition.ns |
|
| com.hankcs.hanlp.recognition.nt |
|
| com.hankcs.hanlp.seg |
|
| com.hankcs.hanlp.seg.common |
|
| com.hankcs.hanlp.seg.common.wrapper |
|
| com.hankcs.hanlp.seg.CRF |
|
| com.hankcs.hanlp.seg.Dijkstra |
|
| com.hankcs.hanlp.seg.Dijkstra.Path |
|
| com.hankcs.hanlp.seg.HMM |
|
| com.hankcs.hanlp.seg.NShort |
|
| com.hankcs.hanlp.seg.NShort.Path |
|
| com.hankcs.hanlp.seg.Other |
|
| com.hankcs.hanlp.seg.Viterbi |
|
| com.hankcs.hanlp.seg.Viterbi.Path |
|
| com.hankcs.hanlp.suggest |
|
| com.hankcs.hanlp.suggest.scorer |
|
| com.hankcs.hanlp.suggest.scorer.editdistance |
|
| com.hankcs.hanlp.suggest.scorer.lexeme |
|
| com.hankcs.hanlp.suggest.scorer.pinyin |
|
| com.hankcs.hanlp.summary |
|
| com.hankcs.hanlp.tokenizer |
一些常用的配置好的静态分词器,其中一些具备特殊的预处理功能
可供用户参考以实现自己的预处理逻辑.
|
| com.hankcs.hanlp.tokenizer.lexical |
|
| com.hankcs.hanlp.tokenizer.pipe |
|
| com.hankcs.hanlp.utility |
|