public class ContentExtractor extends Object
| 限定符和类型 | 类和说明 |
|---|---|
static interface |
ContentExtractor.Receiver
解析结果接收器
|
| 构造器和说明 |
|---|
ContentExtractor(OFDReader reader)
构造文字抽取器
|
ContentExtractor(OFDReader reader,
ExtractorFilter filter)
构造文字抽取器
|
| 限定符和类型 | 方法和说明 |
|---|---|
List<String> |
extractAll()
获取OFD内的所有文本内容
|
List<TextObject> |
extractAllTextObject()
获取OFD内的所有TextObject
|
List<String> |
getPageContent(int pageNum)
抽取指定页面内的所有文字
|
List<TextObject> |
getPageTextObject(int pageNum)
抽取指定页面内的所有文字Text对象
|
void |
traverse(ContentExtractor.Receiver e)
遍历所有页面
|
public ContentExtractor(OFDReader reader)
reader - OFD解析器public ContentExtractor(OFDReader reader, ExtractorFilter filter)
filter - 文本抽取过滤器reader - OFD解析器public List<String> getPageContent(int pageNum)
pageNum - 页码,从1开始public List<TextObject> getPageTextObject(int pageNum)
pageNum - 页码,从1开始public List<TextObject> extractAllTextObject()
public void traverse(ContentExtractor.Receiver e)
e - 接受Copyright © 2024. All rights reserved.