目次:
定義-外れ値検出とはどういう意味ですか?
外れ値の検出とは、特定のデータセットから外れ値を検出し、その後除外するプロセスです。
外れ値は、データセットの所定の基準または平均から大幅に逸脱するデータまたは観測として定義できます。 外れ値は単に偶然に発生する可能性がありますが、測定エラーを示したり、特定のデータセットの分布が太いこともあります。
外れ値検出の簡単なシナリオを次に示します。測定プロセスでは一貫して1〜10の読み取り値が生成されますが、まれに20を超える測定値が得られる場合があります。
標準を超えるこれらのまれな測定値は、正規分布曲線の「外側」にあるため、外れ値と呼ばれます。
Techopediaは外れ値検出について説明します
外れ値を決定するための標準化された厳格な数学的方法は実際にはありません。外れ値はセットまたはデータ母集団によって実際に変化するため、その決定と検出は最終的に主観的になります。 特定のデータフィールドでの連続サンプリングにより、検出を容易にするために外れ値の特性を確立できます。
外れ値を検出するためのモデルベースの方法があり、データはすべて正規分布から取得され、観測値またはポイントを特定し、それらは平均値または標準偏差に基づいて外れ値とは考えられません。 外れ値の検出にはいくつかの方法があります。
- Grubbの外れ値のテスト-これは、データが正規分布であるという仮定に基づいており、外れ値が見つからなくなるまでテストを繰り返しながら一度に1つの外れ値を削除します。
- DixonのQテスト–データセットの正常性にも基づいて、このメソッドは不良データをテストします。 これは控えめに使用し、データセットで複数回使用しないでください。
- Chauvenetの基準-これは、外れ値がスプリアスであるか、まだ境界内にあり、セットの一部と見なされるかを分析するために使用されます。 平均と標準偏差が取られ、外れ値が発生する確率が計算されます。 結果はそれが含まれるべきかどうかを決定します。
- ピアスの基準–一連の観測値に対してエラー制限が設定されます。これを超えると、すでに大きな誤差が含まれているため、すべての観測値が破棄されます。
