📊 数据处理

PDF 表格提取

从 PDF 文件中提取表格数据,转换为可编辑的 Excel 或 CSV 格式

★★☆ 中级 10-15 min 2025年1月12日

概述

PDF 中的表格数据无法直接编辑和分析。Claude 可以帮你从 PDF 提取表格,保留结构和格式,转换为 Excel 或 CSV,便于进一步处理。

适用场景

  • 提取报告中的数据表
  • 转换银行对账单
  • 处理财务报表
  • 提取科研论文中的数据表

操作步骤

1

检查 PDF 表格

先了解 PDF 的结构和表格数量。

请分析 ~/documents/report.pdf:

  • 总页数
  • 包含多少个表格
  • 每个表格在第几页
  • 表格的大致内容(表头)
  • PDF 是文本格式还是扫描件
2

提取单个表格

从指定页面提取表格。

请从 report.pdf 第 3 页提取表格:

  • 识别表格边界
  • 提取表头和所有数据行
  • 保持单元格对齐
  • 输出为 CSV:~/documents/table_page3.csv
  • 显示提取的行数和列数
3

批量提取

提取文件中的所有表格。

请提取 report.pdf 中的所有表格:

  • 每个表格保存为单独的 CSV 文件
  • 文件命名:table_page[页码]_[序号].csv
  • 如果表格跨多页,自动合并
  • 生成索引文件列出所有提取的表格及其内容摘要 保存到 ~/documents/extracted_tables/ 目录
4

清理和格式化

优化提取结果的质量。

请清理提取的表格数据:

  • 删除空行和空列
  • 去除页眉页脚信息
  • 修正合并单元格导致的空值
  • 统一数字格式(删除千分位符号)
  • 标准化日期格式 重新保存为 ~/documents/extracted_tables/cleaned/
5

合并为 Excel

将多个表格整理到一个 Excel 文件。

请创建 Excel 文件:~/documents/all_tables.xlsx

  • 每个表格作为一个工作表
  • 工作表命名:表格1、表格2…
  • 添加”目录”工作表,列出所有表格的页码和简介
  • 应用基本格式:表头加粗、冻结首行、自动列宽

扫描版 PDF 需要先 OCR 识别,准确率会降低。复杂表格(大量合并单元格、嵌套表格)可能提取不完整,建议人工检查。

如果 PDF 是文本格式且表格规整,提取准确率很高。如果提取失败,可以尝试不同的 Python 库(pdfplumber、camelot、tabula),它们处理不同格式的 PDF 效果不同。

常见问题

Q: 提取的表格乱了怎么办? A: 可能是 PDF 中表格没有明确边框线,或使用了空格对齐而非真正的表格。可以尝试调整提取参数,或手动指定表格区域坐标。

Q: 如何处理跨页表格? A: 告诉 Claude 这是跨页表格,它会识别连续页面的相同表头,自动合并为一个完整表格。

Q: 可以保留表格的颜色和样式吗? A: 基本提取通常只保留文本内容。如果需要保留样式,可能需要更复杂的 PDF 解析,或考虑截图表格后用 OCR 处理。