使用PDFBox解析PDF文件(尤其是表格)
我需要解析一个包含表格数据的PDF文件。我正在使用PDFBox提取文件文本以稍后解析结果(字符串)。问题在于文本提取无法按我期望的方式处理表格数据。例如,我有一个文件,其中包含一个像这样的表(7列:前两列始终有数据,只有一个Complexity列有数据,只有一个Financing列有数据): +----------------------------------------------------------------+ | AIH | Value | Complexity | Financing | | | | Medium | High | Not applicable | MAC/Other | FAE | +----------------------------------------------------------------+ | xyz | 12.43 | 12.34 | | | 12.34 | | +----------------------------------------------------------------+ | abc | 1.56 | | 1.56 | | | 1.56| …