pdf 文件以固定的布局格式呈现信息,这使其成为保持文档完整性的理想文档格式。然而,当您需要分析或操作其中包含的数据时,这种固定布局可能就不太适合。为了方便数据处理,可将 pdf 转换为 excel,以利用其包含的公式、条件格式、数据透视表和图表等丰富功能,从而更加高效地分析、操作和可视化数据。本文将介绍如何使用 spire.pdf for python 在 python 中实现 pdf 转 excel。
安装 spire.pdf for python
本教程需要用到 spire.pdf for python 和 plum-dispatch v1.7.4。可以通过以下 pip 命令将它们轻松安装到 vs code 中。
pip install spire.pdf
如果您不清楚如何安装,请参考此教程: 如何在 vs code 中安装 spire.pdf for python
python 转换 pdf 为 excel
spire.pdf for python 提供的 pdfdocument.savetofile() 方法能将 pdf 文件保存为 excel 格式。在转换前,您可以通过创建 xlsxlinelayoutoptions 类的对象来指定转换选项,然后使用 pdfdocument.convertoptions.setpdftoxlsxoptions() 方法应用转换选项。
xlsxlinelayoutoptions 类的构造函数可传入以下五个参数,这些参数允许你控制如何将 pdf 转换为 excel:
- converttomultiplesheet (bool): 表示是否将多个 pdf 页面渲染到一个 excel 工作表中。
- rotatedtext (bool): 表示是否显示旋转的文本。
- splitcell (bool): 表示一个包含多行文本的 pdf 表格单元格是否会在 excel 中被拆分成多行。
- wraptext (bool): 表示是否对 excel 单元格中的文本进行换行。
- overlaptext (bool): 表示是否显示重叠的文本。
以下是如何使用 spire.pdf for python 将 pdf 文档转换为 excel xlsx 格式并指定转换选项的具体步骤。
- 创建一个 pdfdocument 对象
- 使用 pdfdocument.loadfromfile() 方法加载 pdf 文档。
- 创建一个 xlsxlinelayoutoptions 对象,并将相应的参数传递给 xlsxlinelayoutoptions 类的构造函数,以指定转换选项。
- 使用 pdfdocument.convertoptions.setpdftoxlsxoptions() 方法应用转换选项。
- 使用 pdfdocument.savetofile() 方法将 pdf 文档保存为 excel xlsx 格式。
- python
from spire.pdf.common import *
from spire.pdf import *
# 创建pdfdocument对象
pdf = pdfdocument()
# 加载pdf文档
pdf.loadfromfile("财务表.pdf")
# 创建 xlsxlinelayoutoptions 对象来指定转换选项
# 参数: converttomultiplesheet, rotatedtext, splitcell, wraptext, overlaptext
convertoptions = xlsxlinelayoutoptions(true, true, false, true, false)
# 设置转换选项
pdf.convertoptions.setpdftoxlsxoptions(convertoptions)
# 将pdf文档保存为excel xlsx格式
pdf.savetofile("pdf转excel.xlsx", fileformat.xlsx)
pdf.close()
申请临时 license
如果您希望删除结果文档中的评估消息,或者摆脱功能限制,请该email地址已收到反垃圾邮件插件保护。要显示它您需要在浏览器中启用javascript。获取有效期 30 天的临时许可证。