オーディオ 一部の機械学習プロジェクトでは、膨大な数のアクターが必要になるのはなぜですか?

一部の機械学習プロジェクトでは、膨大な数のアクターが必要になるのはなぜですか?

Anonim

Q:

一部の機械学習プロジェクトでは、膨大な数のアクターが必要になるのはなぜですか?

A:

機械学習を考えるとき、コンピューター室でキーボードに取り組んでいる熟練したデータ科学者を考える傾向があります。 定量分析とアルゴリズムに非常に重点が置かれています。 これらのプログラムの多くには、現実世界のコンテキストがあまり多くありません。少なくとも、多くの人はそう思うでしょう。

しかし、今日の最も画期的な機械学習プログラムのいくつかは、歩行者、労働者、買い物などの基本的な人間の活動をモデル化できる、路上、店舗、およびあらゆる場所にいる人間の真の軍隊を利用しています。

無料ダウンロード: 機械学習とその重要性

Tom SimoniteによるWiredの記事は、「AIをよりスマートにするために、人間は奇数の低賃金タスクを実行する」という適切なタイトルでこれを非常によく説明しています。

Whole Foodsの食料品店で撮影された短いビデオの例を使用して、Simoniteは、機械学習の次のフェーズを構築するのに役立つ作業の種類を強調しています。

これは、なぜこれらの人々全員が、腕や脚を動かすのと同じくらい初歩的な行動を記録した短くてシンプルなビデオで自分自身を撮影することに疑問を投げかけます。

答えは、機械学習がどこにあり、どこに向かっているのかを明らかにします。

「研究者と起業家は、AIが物理的な世界で理解し、行動することを望んでいます」とSimonite氏は書いて、彼と他の人たちがカメラで動き回っている理由を説明します。 「したがって、労働者がスーパーマーケットや家庭でシーンを演じる必要性があります。 彼らは、世界とその中の人々についてのアルゴリズムを教えるための教材を生成しています。」

多くの専門家が指摘するように、機械学習の最大のフロンティアのいくつかは、画像処理と自然言語処理に関係しています。 これらは非常に定量的な手順です。つまり、「パフォーマンスの良い」現実世界の環境にあるような広範囲の入力はありません。 代わりに、機械学習プログラムは、視覚データと音声データを非常に特殊な方法で使用してモデルを構築しています。 画像処理では、(有限の)視野から特徴を選択します。 NLPの場合、音素の組み立てです。

これらの特定の入力カテゴリを超えるには、「画像と音声のギャップ」と呼ばれるものが含まれます。画像処理や音声認識などを超えて、さまざまな方法でコンピュータを分析する必要がある領域に移動します。 トレーニングセットは根本的に異なります。

ビデオグラファーの軍隊に入ります。 これらの新しい機械学習プロジェクトの一部では、人間の活動の最小のアイデアはトレーニングセットです。 分類タスクを構成する特徴とエッジとピクセルを探すように訓練される代わりに、コンピューターはさまざまなタイプのアクションがどのように見えるかを評価するために訓練ビデオを代わりに使用します。

重要なことは、エンジニアがこのデータを集約してロードするとき、およびコンピューターをトレーニングするときに、このデータでできることです。 すぐにさまざまな分野で結果が表示されます。たとえば、これにより監視が非常に効果的になります。 コンピューターは、人々がしていることを視覚分野で「見る」ことができ、それをマーケティングや販売、あるいは場合によっては政府機関の仕事や刑事司法などの分野に適用できます。

また、その影響により、最大の利益とプライバシーに関する質問の議論にいくらかの光が当てられます。 これらのビデオの使用の多くは、監視に役立つ機械学習モデルを構築しますが、監視されたくない人はどうでしょうか? これらの新しい機械学習プログラムが公共の場に展開されると、個人の権利は何であり、その線はどこに描かれますか?

いずれにせよ、企業はこれらの種類の人的リソースとビデオリソースを使用して、画像を分類したり、音素を処理したりするのではなく、コンピューターが周囲の状況を実際に認識できるようにする機械学習の次のレベルのラウンドを実際に掘り下げていますスピーチ。 これは人工知能において非常に興味深く議論の的となっている開発であり、ハイテクメディアやそれ以上の注目を集めるに値するものです。

一部の機械学習プロジェクトでは、膨大な数のアクターが必要になるのはなぜですか?