📊 データ処理

データ重複削除とクレンジング

重複レコードの削除、null値や異常値の処理によりデータ品質を向上させます

★★☆ 中級 15-20 min 2025年1月12日

概要

実際のデータには、重複、エラー、欠損値などの問題が含まれていることがよくあります。Claudeはこれらの問題を特定してクレンジングし、データ品質を向上させて、後続の分析をより正確にするお手伝いができます。

活用シーン

  • 顧客データベースの重複レコードをクレンジング
  • フォーム送信の重複データを処理
  • 一貫性のないデータ形式を標準化
  • 欠損値を埋めるまたは削除

手順

ステップ1: データ品質評価

まずデータにどのような問題があるか分析します。

~/data/customers.csv のデータ品質を分析してください:
- 総レコード数とフィールド数
- 完全に重複している行数
- 各フィールドの欠損値の割合
- フォーマットが一貫していないフィールド(電話、メール、日付など)
- 異常値または明らかに間違ったデータ
データ品質レポートを生成

ステップ2: 完全な重複の削除

すべてのフィールドが同一のレコードを削除します。

customers.csv から完全に重複している行を削除してください:
- 各レコードの最初の出現を保持
- 削除された数をカウント
- ~/data/customers_dedup.csv に保存
- 削除された重複レコードを確認用に別ファイルに保存

ステップ3: あいまい重複削除

似ているが完全には同一でない重複レコードを特定します。

主要フィールドに基づいてほぼ重複を特定:
- 「名前」と「電話」に基づいて同一人物かどうかを判断
- 大文字小文字、スペース、句読点の違いを無視
- 重複の可能性があるレコードをグループ化して一覧表示
- 各グループについて、どのレコードを保持すべきか提案(最も情報が完全なもの)
削除前に確認させてください

ステップ4: 欠損値の処理

異なる戦略に従ってnull値を処理します。

欠損値については、以下のルールに従って処理してください:
- 「名前」フィールド:行全体を削除(必須フィールド)
- 「電話」フィールド:「未提供」とマーク
- 「年齢」フィールド:中央値で埋める
- 「住所」フィールド:null値を保持
- 各フィールドの処理方法と影響を受けた行数を説明する処理レポートを生成

ステップ5: フォーマットの標準化

データフォーマットを統一します。

以下のフィールドフォーマットを標準化してください:
- 電話番号:XXX-XXXX-XXXX形式に統一、+81、括弧などを削除
- メール:小文字に変換
- 日付:YYYY-MM-DD形式に統一
- 住所:前後のスペースを削除、都道府県名の略称を標準化
クレンジング済みデータを ~/data/customers_cleaned.csv に出力

警告: データクレンジングは情報の損失につながる可能性があります!元データのバックアップを必ず保持してください。あいまい重複削除については、一括削除前に手動で確認することをお勧めします。

ヒント: データクレンジングログを作成し、各操作と影響を受けたレコード数を記録して、追跡可能性と監査に備えてください。

よくある質問

Q: どのレコードが本当に重複しているかをどう判断しますか? A: 同一のレコードは確実に重複です。類似したレコードについては、同じ人が異なる方法で入力したなど、ビジネスロジックに基づいた判断が必要です。まずグループを表示し、手動確認後に削除することをお勧めします。

Q: 欠損値を削除すると、データを失いすぎませんか? A: 欠損率によります。フィールドの50%以上が欠損している場合、それらの行を削除すると多くのデータが失われます。列を削除するか、デフォルト値で埋めることを検討してください。

Q: クレンジング結果をどう検証しますか? A: Claudeはクレンジング前後の比較レポートを生成でき、レコード数の変化、データ分布の変化などを含め、クレンジングが適切だったかどうかを検証するのに役立ちます。