📊 数据处理

发票信息批量提取

从PDF或图片发票中批量提取关键信息,生成结构化数据表格

★★☆ 中级 15-20 min 2025年1月12日

概述

手动从大量发票中提取信息录入系统非常繁琐且易出错。Claude 可以帮你批量处理发票文件,提取发票号、金额、日期、供应商等关键信息,生成规整的Excel表格。

适用场景

  • 报销单据整理
  • 财务记账批量录入
  • 采购发票汇总
  • 税务申报数据准备

操作步骤

1

整理发票文件

先组织好待处理的发票文件。

请检查 ~/Documents/Invoices 文件夹:

  • 列出所有 PDF 和图片文件(jpg、png)
  • 统计文件数量
  • 检查文件命名是否规范
  • 识别文件格式和质量
2

提取文本内容

从PDF或图片中提取文字。

请从所有发票文件中提取文本:

  • PDF 文件直接提取文字
  • 图片文件使用 OCR 识别
  • 将每个文件的文本内容保存到 ~/Documents/Invoices/text/ 目录
  • 报告哪些文件提取失败或质量较差
3

解析发票信息

从文本中提取结构化信息。

对每个发票文本,请提取以下字段:

  • 发票号码
  • 开票日期
  • 供应商名称
  • 购买方名称
  • 税号
  • 金额(小写数字)
  • 税额
  • 价税合计
  • 货物或服务名称 使用正则表达式和关键词匹配识别这些字段
4

验证和清洗

检查提取结果的准确性。

请验证提取的数据:

  • 检查日期格式是否正确
  • 验证金额数字是否合理
  • 检查必填字段是否完整
  • 标记可疑或低置信度的记录
  • 对于识别失败的,列出原始文件路径供人工处理
5

生成Excel表格

将提取的信息导出为表格。

请生成 Excel 文件:~/Documents/invoice_data.xlsx 包含以下列:

  • 文件名
  • 发票号
  • 开票日期
  • 供应商
  • 金额
  • 税额
  • 价税合计
  • 状态(已验证/待确认/提取失败)
  • 备注 按日期排序,使用条件格式高亮待确认的行

OCR识别准确率受发票扫描质量影响。建议人工抽查部分结果,特别是金额字段。对于重要的财务数据,务必验证准确性。

如果发票格式统一(如都来自同一平台),可以让 Claude 创建专用的解析模板,提高识别准确率和速度。

常见问题

Q: 手写发票可以识别吗? A: 手写内容识别准确率较低,建议只处理打印发票。如果必须处理手写发票,可以使用更高级的OCR服务或人工录入。

Q: 电子发票和扫描发票有区别吗? A: 电子发票(PDF格式)可以直接提取文字,准确率高。扫描发票需要OCR识别,准确率取决于扫描质量。

Q: 如何处理多页发票? A: Claude 会将多页内容合并处理。如果每页是独立发票,告诉 Claude 按页拆分为单独记录。