目次:
定義-ダーティデータとはどういう意味ですか?
ダーティデータとは、誤った情報を含むデータを指します。 また、メモリ内にあり、データベースにまだロードされていないデータを参照する場合にも使用できます。 ソースからダーティデータを完全に削除することは実用的ではないか、事実上不可能です。
次のデータはダーティデータと見なすことができます。
- 誤解を招くデータ
- 重複データ
- 不正なデータ
- 不正確なデータ
- 統合されていないデータ
- ビジネスルールに違反するデータ
- 一般化された書式設定のないデータ
- 句読点または綴りが間違っているデータ
Techopediaによるダーティデータの説明
不正なデータ入力に加えて、データ管理とデータ保存の方法が不適切なため、ダーティデータが生成される可能性があります。 いくつかのダーティデータ型について以下で説明します。
- 不正なデータ-データが有効または正しいことを確認するには、入力する値はフィールドの有効な値に準拠する必要があります。 たとえば、月フィールドに入力する値の範囲は1〜12である必要があります。または、個人の年齢は130歳未満である必要があります。
- 不正確なデータ-データ値は正しいが、正確ではない可能性があります。 時には、他のファイルやフィールドを調べて、使用されているコンテキストに基づいてデータ値が正確かどうかを確認することが実用的です。 それでも、精度は多くの場合、手動検証によってのみ検証できます。
- ビジネスルール違反-ビジネスルールに違反するデータは、別の種類のダーティデータです。 たとえば、発効日は常に有効期限より前でなければなりません。 別のビジネスルール違反の例としては、患者がまだ定年を迎えていてメディケアを受ける資格がない場合の患者のメディケア保険請求があります。
- 一貫性のないデータ-チェックされていないデータの冗長性は、データの一貫性を失います。 各組織は、一貫性のない反復的なデータの影響を受けます。 これは、顧客データでは特に一般的です。
- 不完全なデータ-欠損値のあるデータは、不完全なデータの主なタイプです。
- 重複データ-繰り返し送信、不適切なデータ結合、またはユーザーエラーにより、重複データが発生する場合があります。
データの品質を向上させ、ダーティデータを防ぐために、組織はデータの完全性、妥当性、一貫性、および正確性を確保するための方法論を組み込む必要があります。