Q:
エンジニアはどのようにしてトレーニングセットとテストセットを評価し、機械学習の過剰適合の可能性を見つけることができますか?
A:これがどのように行われるかを理解するには、典型的な機械学習プロジェクトにおけるさまざまなデータセットの役割を基本的に把握する必要があります。 トレーニングセットは、テクノロジーに参照フレーム(プログラムが予測的および確率的決定を行うために使用するデータベースライン)を提供するように設定されています。 テストセットは、データでマシンをテストする場所です。
オーバーフィッティングは、モデルがデータや目的に完全に適合しない機械学習の症候群です。
無料ダウンロード: 機械学習とその重要性 |
機械学習の包括的な戒めの1つは、トレーニングデータとテストデータを別々のデータセットにする必要があるということです。 少なくとも多くのアプリケーションでは、機械学習プログラムをテストするためにトレーニングに使用したものと同じセットを使用することに関するいくつかの特定の問題のため、これに関してかなり広範なコンセンサスがあります。
機械学習プログラムが基本的に入力のセットと呼ばれる可能性のあるトレーニングセットを利用する場合、予測結果に関する決定を下すためにそのトレーニングセットが機能します。 それについて考える非常に基本的な方法の1つは、トレーニングセットが知的コンピューティングプロセスの「食料」であるということです。
現在、同じセットをテストに使用すると、マシンは優れた結果を返すことができます。 それは、以前にそのデータを見たことがあるからです。 しかし、多くの場合、機械学習の全体的な目標は、これまでに見られなかったデータに関する結果を作成することです。 汎用の機械学習プログラムは、さまざまなデータセットで動作するように作られています。 言い換えれば、機械学習の原理は発見であり、通常はテスト目的で初期トレーニングセットを使用してもそれほど多くは得られません。
オーバーフィットの可能性についてトレーニングセットとテストセットを評価する際に、エンジニアは結果を評価し、これら2つのセットの比較結果でプログラムが異なる理由を見つけたり、場合によってはトレーニングデータ自体でマシンがうまく機能しすぎたりする方法を見つけます。
Machine Learning MasteryのJason Brownleeは、2014年の機械学習におけるこれらの問題のいくつかをうまく説明するために、この方法の過剰適合について説明しています。
「見えないテストデータセットの精度ではなく、トレーニングデータセットの精度のために選択されたモデルは、見えないテストデータセットの精度が低い可能性が非常に高い」とブラウンリーは書いています。 「理由は、モデルが一般化されていないためです。 トレーニングデータセットの構造に特化しています(イタリック体を追加)。これは過剰適合と呼ばれ、想像以上に潜んでいます。」
簡単に言うと、トレーニングデータセットに特化することで、プログラムが厳しくなってきていると言えます。 これは、テストセットのトレーニングセットを使用することで機械学習プログラムが最適に機能しない理由を見るもう1つの比phor的な方法です。 また、これらの2つの異なるセットの評価にアプローチする良い方法でもあります。結果は、プログラムがどのように機能しているかについてエンジニアに多くを示すからです。 両方のモデルの精度のギャップを小さくしたい場合。 システムが特定のデータセットに過剰に供給されたり、「精密に融合」されていないことを確認する必要がありますが、それはより一般的であり、コマンドで成長および進化することができます。