public class HanLP extends Object
| 限定符和类型 | 类和说明 |
|---|---|
static class |
HanLP.Config
库的全局配置,既可以用代码修改,也可以通过hanlp.properties配置(按照 变量名=值 的形式)
|
| 限定符和类型 | 方法和说明 |
|---|---|
static String |
convertToPinyinFirstCharString(String text,
String separator,
boolean remainNone)
转化为拼音(首字母)
|
static List<Pinyin> |
convertToPinyinList(String text)
转化为拼音
|
static String |
convertToPinyinString(String text,
String separator,
boolean remainNone)
转化为拼音
|
static String |
convertToSimplifiedChinese(String traditionalChineseString)
繁转简
|
static String |
convertToTraditionalChinese(String simplifiedChineseString)
简转繁
|
static List<String> |
extractKeyword(String document,
int size)
提取关键词
|
static List<String> |
extractPhrase(String text,
int size)
提取短语
|
static List<String> |
extractSummary(String document,
int size)
自动摘要
分割目标文档时的默认句子分割符为,,。
|
static List<String> |
extractSummary(String document,
int size,
String sentence_separator)
自动摘要
|
static List<WordInfo> |
extractWords(BufferedReader reader,
int size)
提取词语
|
static List<WordInfo> |
extractWords(BufferedReader reader,
int size,
boolean newWordsOnly)
提取词语(新词发现)
|
static List<WordInfo> |
extractWords(String text,
int size)
提取词语
|
static List<WordInfo> |
extractWords(String text,
int size,
boolean newWordsOnly)
提取词语(新词发现)
|
static String |
getSummary(String document,
int max_length)
自动摘要
分割目标文档时的默认句子分割符为,,。
|
static String |
getSummary(String document,
int max_length,
String sentence_separator)
自动摘要
|
static String |
hk2s(String hk)
香港繁體到簡體
|
static String |
hk2t(String hk)
香港繁體到繁體
|
static String |
hk2tw(String hk)
香港繁體到臺灣正體
|
static Segment |
newSegment()
创建一个分词器
这是一个工厂方法 与直接new一个分词器相比,使用本方法的好处是,以后HanLP升级了,总能用上最合适的分词器 |
static CoNLLSentence |
parseDependency(String sentence)
依存文法分析
|
static String |
s2hk(String s)
簡體到香港繁體
|
static String |
s2t(String s)
|
static String |
s2tw(String s)
簡體到臺灣正體
|
static List<Term> |
segment(String text)
分词
|
static String |
t2hk(String t)
繁體到香港繁體
|
static String |
t2s(String t)
|
static String |
t2tw(String t)
繁體到臺灣正體
|
static String |
tw2hk(String tw)
臺灣正體到香港繁體
|
static String |
tw2s(String tw)
臺灣正體到簡體
|
static String |
tw2t(String tw)
臺灣正體到繁體
|
public static String convertToSimplifiedChinese(String traditionalChineseString)
traditionalChineseString - 繁体中文public static String convertToTraditionalChinese(String simplifiedChineseString)
simplifiedChineseString - 简体中文public static String convertToPinyinString(String text, String separator, boolean remainNone)
text - 文本separator - 分隔符remainNone - 有些字没有拼音(如标点),是否保留它们的拼音(true用none表示,false用原字符表示)public static List<Pinyin> convertToPinyinList(String text)
text - 待解析的文本public static String convertToPinyinFirstCharString(String text, String separator, boolean remainNone)
text - 文本separator - 分隔符remainNone - 有些字没有拼音(如标点),是否保留它们(用none表示)public static Segment newSegment()
public static CoNLLSentence parseDependency(String sentence)
sentence - 待分析的句子public static List<String> extractPhrase(String text, int size)
text - 文本size - 需要多少个短语public static List<WordInfo> extractWords(String text, int size)
text - 大文本size - 需要提取词语的数量public static List<WordInfo> extractWords(BufferedReader reader, int size) throws IOException
reader - 从reader获取文本size - 需要提取词语的数量IOExceptionpublic static List<WordInfo> extractWords(String text, int size, boolean newWordsOnly)
text - 大文本size - 需要提取词语的数量newWordsOnly - 是否只提取词典中没有的词语public static List<WordInfo> extractWords(BufferedReader reader, int size, boolean newWordsOnly) throws IOException
reader - 从reader获取文本size - 需要提取词语的数量newWordsOnly - 是否只提取词典中没有的词语IOExceptionpublic static List<String> extractKeyword(String document, int size)
document - 文档内容size - 希望提取几个关键词public static List<String> extractSummary(String document, int size)
document - 目标文档size - 需要的关键句的个数public static String getSummary(String document, int max_length)
document - 目标文档max_length - 需要摘要的长度public static List<String> extractSummary(String document, int size, String sentence_separator)
document - 目标文档size - 需要的关键句的个数sentence_separator - 分割目标文档时的句子分割符,正则格式, 如:[。??!!;;]Copyright © 2014–2018 码农场. All rights reserved.