public class HanLP extends Object
| Modifier and Type | Class and Description |
|---|---|
static class |
HanLP.Config
库的全局配置,既可以用代码修改,也可以通过hanlp.properties配置(按照 变量名=值 的形式)
|
| Modifier and Type | Method and Description |
|---|---|
static String |
convertToPinyinFirstCharString(String text,
String separator,
boolean remainNone)
转化为拼音(首字母)
|
static List<Pinyin> |
convertToPinyinList(String text)
转化为拼音
|
static String |
convertToPinyinString(String text,
String separator,
boolean remainNone)
转化为拼音
|
static String |
convertToSimplifiedChinese(String traditionalChineseString)
繁转简
|
static String |
convertToTraditionalChinese(String simplifiedChineseString)
简转繁
|
static List<String> |
extractKeyword(String document,
int size)
提取关键词
|
static List<String> |
extractPhrase(String text,
int size)
提取短语
|
static List<String> |
extractSummary(String document,
int size)
自动摘要
分割目标文档时的默认句子分割符为,,。::“”??!!;;
|
static List<String> |
extractSummary(String document,
int size,
String sentence_separator)
自动摘要
|
static List<WordInfo> |
extractWords(BufferedReader reader,
int size)
提取词语
|
static List<WordInfo> |
extractWords(BufferedReader reader,
int size,
boolean newWordsOnly)
提取词语(新词发现)
|
static List<WordInfo> |
extractWords(BufferedReader reader,
int size,
boolean newWordsOnly,
int max_word_len,
float min_freq,
float min_entropy,
float min_aggregation)
提取词语(新词发现)
|
static List<WordInfo> |
extractWords(String text,
int size)
提取词语
|
static List<WordInfo> |
extractWords(String text,
int size,
boolean newWordsOnly)
提取词语(新词发现)
|
static String |
getSummary(String document,
int max_length)
自动摘要
分割目标文档时的默认句子分割符为,,。::“”??!!;;
|
static String |
getSummary(String document,
int max_length,
String sentence_separator)
自动摘要
|
static String |
hk2s(String hk)
香港繁體到簡體
|
static String |
hk2t(String hk)
香港繁體到繁體
|
static String |
hk2tw(String hk)
香港繁體到臺灣正體
|
static Segment |
newSegment()
创建一个分词器
这是一个工厂方法 与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器 |
static Segment |
newSegment(String algorithm)
创建一个分词器,
这是一个工厂方法
|
static CoNLLSentence |
parseDependency(String sentence)
依存文法分析
|
static String |
s2hk(String s)
簡體到香港繁體
|
static String |
s2t(String s)
|
static String |
s2tw(String s)
簡體到臺灣正體
|
static List<Term> |
segment(String text)
分词
|
static String |
t2hk(String t)
繁體到香港繁體
|
static String |
t2s(String t)
|
static String |
t2tw(String t)
繁體到臺灣正體
|
static String |
tw2hk(String tw)
臺灣正體到香港繁體
|
static String |
tw2s(String tw)
臺灣正體到簡體
|
static String |
tw2t(String tw)
臺灣正體到繁體
|
public static String convertToSimplifiedChinese(String traditionalChineseString)
traditionalChineseString - 繁体中文public static String convertToTraditionalChinese(String simplifiedChineseString)
simplifiedChineseString - 简体中文public static String convertToPinyinString(String text, String separator, boolean remainNone)
text - 文本separator - 分隔符remainNone - 有些字没有拼音(如标点),是否保留它们的拼音(true用none表示,false用原字符表示)public static List<Pinyin> convertToPinyinList(String text)
text - 待解析的文本public static String convertToPinyinFirstCharString(String text, String separator, boolean remainNone)
text - 文本separator - 分隔符remainNone - 有些字没有拼音(如标点),是否保留它们(用none表示)public static Segment newSegment()
public static Segment newSegment(String algorithm)
algorithm - 分词算法,传入算法的中英文名都可以,可选列表:public static CoNLLSentence parseDependency(String sentence)
sentence - 待分析的句子public static List<String> extractPhrase(String text, int size)
text - 文本size - 需要多少个短语public static List<WordInfo> extractWords(String text, int size)
text - 大文本size - 需要提取词语的数量public static List<WordInfo> extractWords(BufferedReader reader, int size) throws IOException
reader - 从reader获取文本size - 需要提取词语的数量IOExceptionpublic static List<WordInfo> extractWords(String text, int size, boolean newWordsOnly)
text - 大文本size - 需要提取词语的数量newWordsOnly - 是否只提取词典中没有的词语public static List<WordInfo> extractWords(BufferedReader reader, int size, boolean newWordsOnly) throws IOException
reader - 从reader获取文本size - 需要提取词语的数量newWordsOnly - 是否只提取词典中没有的词语IOExceptionpublic static List<WordInfo> extractWords(BufferedReader reader, int size, boolean newWordsOnly, int max_word_len, float min_freq, float min_entropy, float min_aggregation) throws IOException
reader - 从reader获取文本size - 需要提取词语的数量newWordsOnly - 是否只提取词典中没有的词语max_word_len - 词语最长长度min_freq - 词语最低频率min_entropy - 词语最低熵min_aggregation - 词语最低互信息IOExceptionpublic static List<String> extractKeyword(String document, int size)
document - 文档内容size - 希望提取几个关键词public static List<String> extractSummary(String document, int size)
document - 目标文档size - 需要的关键句的个数public static String getSummary(String document, int max_length)
document - 目标文档max_length - 需要摘要的长度public static List<String> extractSummary(String document, int size, String sentence_separator)
document - 目标文档size - 需要的关键句的个数sentence_separator - 分割目标文档时的句子分割符,正则格式, 如:[。??!!;;]Copyright © 2014–2021 码农场. All rights reserved.