| 程序包 | 说明 |
|---|---|
| com.hankcs.hanlp.mining.word2vec |
Java移植版的word2vec,最大程度上与原版一致。
|
| 限定符和类型 | 方法和说明 |
|---|---|
Word2VecTrainer |
Word2VecTrainer.setDownSamplingRate(float downSampleRate)
设置高频词的下采样频率(高频词频率一旦高于此频率,训练时将被随机忽略),在不使用停用词词典的情况下,停用词就符合高频词的标准
默认 1e-3, 常用取值区间为 (0, 1e-5)
|
Word2VecTrainer |
Word2VecTrainer.setInitialLearningRate(float initialLearningRate)
设置初始学习率
skip-gram 默认 0.025 ,CBOW 默认 0.05
|
Word2VecTrainer |
Word2VecTrainer.setLayerSize(int layerSize)
词向量的维度(等同于神经网络模型隐藏层的大小)
默认 100
|
Word2VecTrainer |
Word2VecTrainer.setMinVocabFrequency(int minFrequency)
最低词频,低于此数值将被过滤掉
默认 5
|
Word2VecTrainer |
Word2VecTrainer.setNumIterations(int iterations)
设置迭代次数
|
Word2VecTrainer |
Word2VecTrainer.setWindowSize(int windowSize)
窗口大小
默认 5
|
Word2VecTrainer |
Word2VecTrainer.type(NeuralNetworkType type)
神经网络类型
|
Word2VecTrainer |
Word2VecTrainer.useHierarchicalSoftmax()
启用 hierarchical softmax
默认关闭
|
Word2VecTrainer |
Word2VecTrainer.useNegativeSamples(int negativeSamples)
负采样样本数
一般在 5 到 10 之间
默认 0
|
Word2VecTrainer |
Word2VecTrainer.useNumThreads(int numThreads)
并行化训练线程数
默认
Runtime.availableProcessors() |
Copyright © 2014–2017 码农场. All rights reserved.