Tag: pdf parsing

寻找有关如何将PDF转换为结构化格式的建议

我想对即将到来的拍卖中列出的一些房产做一些分析。 不幸的是,运营拍卖的城市并没有以结构化格式发布信息,而是提供了700多页的拍卖物业PDF 。 我想知道社区是否有任何关于如何解析所述PDF到结构化格式以插入数据库或创建属性的电子表格的想法。 这是每个页面代表的图像: 这是一个列出一些属性的页面: 我对python和ruby很满意所以我没有任何问题编写解决方案,但因为“列”和那些列中的数据没有必要绑在一起,看起来这可能是一个可疑的命题。 任何想法将不胜感激。