public class Simhash
extends java.lang.Object
Simhash是一种局部敏感hash,用于海量文本去重。
算法实现来自:https://github.com/xlturing/Simhash4J
局部敏感hash定义:假定两个字符串具有一定的相似性,在hash之后,仍然能保持这种相似性,就称之为局部敏感hash。
public Simhash()
public Simhash(int fracCount,
int hammingThresh)
fracCount - 存储段数hammingThresh - 汉明距离的衡量标准public long hash(java.util.Collection<? extends java.lang.CharSequence> segList)
segList - 分词的词列表public boolean equals(java.util.Collection<? extends java.lang.CharSequence> segList)
segList - 文本分词后的结果public void store(java.lang.Long simhash)
simhash - Simhash值Copyright © 2019. All rights reserved.