Q:
機械学習のデータスクレイピングは、レガシー移行での手動データ入力以来、どのように最も労働集約的なボトルネックになっていますか?
A:機械学習(ML)プロジェクトを開始しようとする際に企業が直面する可能性のある実際的な問題の1つは、初期トレーニングデータセットを取得するという課題です。 これには、Webスクレイピングやその他のデータスクレイピングなどの労働集約的なプロセスが含まれる場合があります。
Webスクレイピングおよびデータスクレイピングという用語は、主にコンピューターソフトウェアによる自動化されたアクティビティを指しますが、多くのMLプロジェクトでは、コンピューターが適切な対象データを収集するための高度な知識を持っていない場合があります。 "手で。" これは「人間のWeb /データスクレイピング」と呼ばれることもありますが、これはありがたい仕事です。 通常、トレーニングセットを介してMLプログラムを「フィード」するために、外出してデータまたは画像を探す必要があります。 多くの場合、かなり反復的で、退屈で、動きが遅く、要求の厳しい作業になります。
無料ダウンロード: 機械学習とその重要性 |
MLトレーニングセットのデータスクレイピングは、他の作業の多くが非常に概念的で反復的ではないこともあり、機械学習のユニークな問題のボトルネックを表しています。 多くの人が機械学習タスクを実行する新しいアプリの素晴らしいアイデアを思い付くことができますが、基本的な作業と実際の作業ははるかに難しくなる可能性があります。 特に、マイクジャッジの「シリコンバレー」テレビ番組で詳細に検討されているように、トレーニングセットの組み立て作業の委任は、実際にはMLプロジェクトの最も難しい部分の1つです。 シーズン4のエピソードでは、スタートアップの起業家が最初にパートナーをいじめ、労働集約的な仕事をさせ、それを宿題として偽装して大学生に見せかけようとします。
この例は、手動データスクレイピングがいかに嫌われ、一見重要でないように見えるため、有益です。 ただし、このプロセスはさまざまな機械学習製品に必要であることも示しています。 ほとんどの人はデータ入力を嫌いますが、トレーニングセットは何らかの方法で組み立てる必要があります。 このプロセスの専門家は、多くの場合、Webスクレイピングサービスの使用を推奨しています。基本的に、この非常に労働集約的な作業を外部に外部委託するだけです。 手動でのデータ収集作業を社内で行う場合も、多くの場合非常に手動で時間のかかるプロセスに備えて準備する必要があります。
ある意味では、機械学習の「人間のデータスクレイピング」は、レガシーマイグレーションで行わなければならない手動のデータ入力のように見えます。 クラウドの人気が高まり、企業がプロセスとワークフローをクラウドに導入するにつれて、一部の企業は、企業データを分離されたレガシーシステムからクラウドネイティブアプリケーションに取り込む方法の実際的な側面に取り組んでいないことに気付きました。 その結果、そうでなければデータサイエンティストまたは重要なITスキルを持つ創造的な人々であった一部の人々は、不快なデータ入力タスクを実行していることに気付きました。
機械学習でも同じことが起こりそうです。 データサイエンティストが「私は創造的な人だ」または「開発側だ」と不満を言うかもしれませんが、誰かが汚い仕事をしなければなりません。
繰り返しますが、ワークフローの委任の実際の評価でクリエイティブフローが一致しない場合、タスク処理の指示方法に不一致が生じます。 データセットを収集する際にデータスクレイピング作業を行う人がいない企業には、プロジェクトを成功させるための一連の手順の重要な部分が欠けています。 企業が新しい機械学習アプリケーションの開発に基づいたアイデアをうまく活用しようとするときはいつでも、これを覚えておく価値があります。
