Q:
ビッグデータにデータが多すぎることはありませんか?
A:質問への答えは圧倒的なYESです。 ビッグデータプロジェクトには、データが多すぎる可能性があります。
これを実現する方法は数多くあり、適切な結果を得るために専門家がさまざまな方法でデータを制限および管理する必要があるさまざまな理由があります。 (ビッグデータに関する10の大きな神話を読んでください。)
一般に、専門家はモデルの「信号」と「ノイズ」を区別することについて話します。 言い換えれば、ビッグデータの海では、関連する洞察データをターゲットにするのが難しくなります。 場合によっては、干し草の山の針を探しています。
たとえば、ある企業がビッグデータを使用して顧客ベースのセグメントに関する特定の洞察と特定の時間枠での購入を生成しようとしているとします。 (ビッグデータとは何ですか?)
膨大な量のデータ資産を取り込むと、関係のないランダムなデータが取り込まれる可能性があります。また、データをある方向または別の方向にゆがめるバイアスが生じる場合もあります。
また、コンピューティングシステムはますます多くのデータセットに取り組む必要があるため、プロセスが劇的に遅くなります。
非常に多くの種類のプロジェクトで、データエンジニアがデータを制限された特定のデータセットにキュレートすることは非常に重要です。上記の場合、それは調査対象の顧客セグメントのデータのみであり、その時間のデータのみです。調査中のフレーム、および物事を混乱させたりシステムの速度を低下させる可能性のある追加の識別子や背景情報を排除するアプローチ。 (ReadJobの役割:データエンジニア。)
詳細については、機械学習のフロンティアでこれがどのように機能するかを見てみましょう。 (機械学習101をお読みください。)
機械学習の専門家は、「過剰適合」と呼ばれるものについて話します。このモデルでは、新しい実稼働データで機械学習プログラムを緩めると、過度に複雑なモデルでは効果が低下します。
過適合は、データポイントの複雑なセットが最初のトレーニングセットにあまりにもよく一致し、プログラムが新しいデータに簡単に適応できない場合に発生します。
技術的には、過剰適合は、過剰なデータサンプルの存在ではなく、過剰なデータポイントのcor冠によって引き起こされます。 ただし、データが多すぎることも、この種の問題の原因になる可能性があると主張できます。 次元の呪いに対処するには、専門家がITシステムに供給しているものを特定しようとしたときに、以前のビッグデータプロジェクトで行われたのと同じ手法がいくつか含まれます。
結論として、ビッグデータは企業にとって非常に役立つか、大きな課題になる可能性があります。 これの1つの側面は、会社が適切なデータを使用しているかどうかです。 専門家は、すべてのデータ資産をホッパーに単にダンプし、そのように洞察を考え出すことは賢明ではないことを知っています。新しいクラウドネイティブで洗練されたデータシステムでは、より正確でデータ資産の効率的な使用。




