ニュースで 機械学習で機能選択がそれほど重要なのはなぜですか?

機械学習で機能選択がそれほど重要なのはなぜですか?

Anonim

Q:

機械学習で機能選択がそれほど重要なのはなぜですか?

A:

特徴選択は、主に変数の使用を特定の機械学習システムにとって最も効率的かつ効果的なものに導くための基本的な手法として機能するため、機械学習において非常に重要です。

専門家は、次元の呪いを最小限に抑えるか、過剰適合に対処するために、特徴選択と特徴抽出がどのように機能するかについて話します。これらは、過度に複雑なモデリングの考え方に対処するさまざまな方法です。

無料ダウンロード: 機械学習とその重要性

別の言い方をすれば、機能選択は、開発者が機械学習トレーニングセットで最も関連性の高い有用なデータのみを使用するツールを提供するのに役立ち、コストとデータ量が劇的に削減されることです。

1つの例は、複雑な形状を大規模に測定するという考え方です。 プログラムの規模が大きくなると、より多くのデータポイントが識別され、システムはさらに複雑になります。 しかし、複雑な形状は、機械学習システムが使用している典型的なデータセットではありません。 これらのシステムは、異なる変数間の分散レベルが大きく異なるデータセットを使用する場合があります。 たとえば、種の分類では、エンジニアは特徴選択を使用して、最もターゲットを絞った結果をもたらす変数のみを研究できます。 チャート内のすべての動物の目または足の数が同じである場合、そのデータは削除されるか、他のより関連性の高いデータポイントが抽出されます。

機能の選択は、エンジニアが機械学習システムをターゲットに向ける差別化プロセスです。 大規模なシステムから複雑さを取り除くという考えに加えて、機能選択は、専門家が機械学習で「バイアス分散トレードオフ」と呼ぶものの側面を最適化するのにも役立ちます。

特徴選択がバイアスおよび分散分析に役立つ理由はより複雑です。 機能選択、バイアス分散、およびバギングに関するコーネル大学の研究は、機能選択がプロジェクトをどのように支援するかを説明するのに役立ちます。

著者によると、この論文は「特徴選択が教師あり学習の精度を向上させるメカニズムを調べている」とのことです。

この研究ではさらに次のように述べています。

特徴選択の進行に伴う経験的なバイアス/分散分析は、最も正確な特徴セットが学習アルゴリズムの最適なバイアス-分散トレードオフポイントに対応することを示しています。

強い関連性または弱い関連性の使用について議論する際に、ライターは特徴選択を「分散削減方法」として話します。これは、分散を本質的に特定の変数の変動量と考える場合に意味があります。 差異がない場合、データポイントまたは配列は本質的に役に立たない可能性があります。 ばらつきが非常に大きい場合、機械学習システムが管理するのが難しい「ノイズ」または無関係な任意の結果とエンジニアが考えるものに変わる可能性があります。

これに照らして、特徴選択は機械学習の設計の基本的な部分です。

機械学習で機能選択がそれほど重要なのはなぜですか?