Package 

Class SimilarityComputer

  • All Implemented Interfaces:
    org.bitlap.geocoding.core.Computer

    
    public class SimilarityComputer
     implements Computer
                        

    Desc: 相似度算法相关逻辑

    • 关于 TF-IDF

    • TC: 词数 Term Count, 某个词在文档中出现的次数

    • TF: 词频 Term Frequency, 某个词在文档中出现的频率. TF = 该词在文档中出现的次数 / 该文档的总词数

    • IDF: 逆文档词频 Inverse Document Frequency. IDF = log( 语料库文档总数 / ( 包含该词的文档数 + 1 ) ). 分母加1是为了防止分母出现0的情况

    • TF-IDF: 词条的特征值, TF-IDF = TF * IDF

    Mail: chk19940609@gmail.com Created by IceMimosa Date: 2017/2/5

    • Nested Class Summary

      Nested Classes 
      Modifier and Type Class Description
    • Field Summary

      Fields 
      Modifier and Type Field Description
    • Enum Constant Summary

      Enum Constants 
      Enum Constant Description
    • Method Summary

      Modifier and Type Method Description
      Document analyze(Address address) 将标准地址转化成文档对象
      • 对text进行分词

      • 对每个部分设置权重

      MatchedResult compute(Address addr1, Address addr2) 计算两个标准地址的相似度
      • 将两个地址形成 Document

      • 为每个Document的Term设置权重

      • 计算两个分词组的余弦相似度, 值为0~1,值越大表示相似度越高,返回值为1则表示完全相同

      • Methods inherited from class java.lang.Object

        clone, equals, finalize, getClass, hashCode, notify, notifyAll, toString, wait, wait, wait
    • Constructor Detail

      • SimilarityComputer

        SimilarityComputer()
    • Method Detail

      • analyze

         Document analyze(Address address)

        将标准地址转化成文档对象

        • 对text进行分词

        • 对每个部分设置权重

      • compute

         MatchedResult compute(Address addr1, Address addr2)

        计算两个标准地址的相似度

        • 将两个地址形成 Document

        • 为每个Document的Term设置权重

        • 计算两个分词组的余弦相似度, 值为0~1,值越大表示相似度越高,返回值为1则表示完全相同