📊 数据处理

数据去重与清洗

清除数据集中的重复记录,处理空值和异常值,提升数据质量

★★☆ 中级 15-20 min 2025年1月12日

概述

真实世界的数据常常包含重复、错误、缺失值等问题。Claude 可以帮你识别并清理这些问题,提升数据质量,让后续分析更准确。

适用场景

  • 清理客户数据库中的重复记录
  • 处理表单提交的重复数据
  • 标准化不一致的数据格式
  • 填充或删除缺失值

操作步骤

1

数据质量评估

先分析数据存在哪些问题。

请分析 ~/data/customers.csv 的数据质量:

  • 总记录数和字段数
  • 完全重复的行数
  • 每个字段的缺失值比例
  • 数据格式不一致的字段(如电话、邮箱、日期)
  • 异常值或明显错误的数据 生成数据质量报告
2

删除完全重复

移除所有字段都相同的记录。

请删除 customers.csv 中的完全重复行:

  • 保留第一次出现的记录
  • 统计删除了多少条
  • 保存到 ~/data/customers_dedup.csv
  • 将删除的重复记录保存到单独文件供检查
3

模糊去重

识别内容相似但不完全相同的重复记录。

基于关键字段识别近似重复:

  • 根据”姓名”和”电话”判断是否为同一人
  • 忽略大小写、空格、标点符号差异
  • 将可能重复的记录分组列出
  • 对于每组,建议保留哪条记录(信息最完整的) 让我确认后再删除
4

处理缺失值

根据不同策略处理空值。

对于缺失值,请按以下规则处理:

  • “姓名”字段:删除整行(必填字段)
  • “电话”字段:标记为”未提供”
  • “年龄”字段:填充为中位数
  • “地址”字段:保留空值
  • 生成处理报告,说明每个字段的处理方式和影响行数
5

标准化格式

统一数据格式。

请标准化以下字段格式:

  • 电话号码:统一为 XXX-XXXX-XXXX 格式,删除 +86、括号等
  • 邮箱:转为小写
  • 日期:统一为 YYYY-MM-DD 格式
  • 地址:去除首尾空格,统一省份名称缩写 输出清洗后的数据到 ~/data/customers_cleaned.csv

数据清洗可能导致信息丢失!务必保留原始数据备份。对于模糊去重,建议人工确认后再批量删除。

创建数据清洗日志,记录每步操作和影响的记录数,便于追溯和审计。

常见问题

Q: 如何判断哪些记录是真正的重复? A: 完全相同的记录肯定是重复。对于相似记录,需要根据业务逻辑判断,如同一人的不同填写方式。建议先分组展示,人工确认后再删除。

Q: 删除缺失值会不会丢失太多数据? A: 看缺失比例。如果某字段缺失超过 50%,删除该行会损失大量数据,可以考虑删除该列或填充默认值。

Q: 如何验证清洗结果? A: Claude 可以生成清洗前后的对比报告,包括记录数变化、数据分布变化等,帮你验证清洗是否合理。