トレンド なんと$ @! hadoopとは?

なんと$ @! hadoopとは?

目次:

Anonim

誰もがHadoopについて語っています。Hadoopは、開発者の間で非常に高く評価されており、世界を変える可能性があります(もう一度)。 しかし、とにかくそれは何ですか? プログラミング言語ですか? データベース? 処理システムですか? 居心地の良いインド茶?


大まかな答え:Hadoopは、これらすべてのもの(茶居心地の良いものを除く)などです。 これは、別の現代の流行語であるビッグデータを安価で便利に処理するためのプログラミングフレームワークを提供するソフトウェアライブラリです。

Hadoopはどこから来たのですか?

Apache Hadoopは、「公共の利益のためにソフトウェアを提供する」ことを使命とする非営利組織であるApache Software FoundationのFoundation Projectの一部です。 そのため、Hadoopライブラリはすべての開発者が利用できる無料のオープンソースソフトウェアです。


Hadoopを支える基盤となるテクノロジーは、実際にはGoogleによって発明されました。 初期の頃、非常に巨大ではない検索エンジンには、インターネットから収集した膨大な量のデータのインデックスを作成し、ユーザーにとって意味のある適切な結果に変換する方法が必要でした。 市場で要件を満たすことができるものが何もないため、Googleは独自のプラットフォームを構築しました。


これらのイノベーションは、Nutchと呼ばれるオープンソースプロジェクトでリリースされ、Hadoopは後に基盤として使用されました。 基本的に、Hadoopは、あらゆる規模の企業にとって手頃な価格で、Googleの力をビッグデータに適用します。

Hadoopはどのように機能しますか?

前述したように、Hadoopは1つのものではありません-それは多くのことです。 Hadoopであるソフトウェアライブラリは、4つの主要な部分(モジュール)、および実際の使用を強化する多数のアドオンソリューション(データベースやプログラミング言語など)で構成されています。 4つのモジュールは次のとおりです。

  • Hadoop Common:これは、Hadoopモジュールをサポートする共通ユーティリティ(共通ライブラリ)のコレクションです。
  • Hadoop分散ファイルシステム(HDFS):格納されたデータに制限のない堅牢な分散ファイルシステム(多くのDFSが構造化されたデータのみを格納する構造化または非構造化およびスキーマレスのいずれでもよいことを意味します) HDFSを使用すると、データを複数のマシンに保存できます。したがって、1台のマシンに障害が発生しても、他のマシンを通じて可用性が維持されます。
  • Hadoop YARN:このフレームワークは、ジョブスケジューリングとクラスターリソース管理を担当します。 冗長性を維持するために、データが複数のマシンに十分に分散されるようにします。 YARNは、Hadoopをビッグデータを処理するための手頃で費用効率の高い方法にするモジュールです。
  • Hadoop MapReduce:Googleテクノロジー上に構築されたこのYARNベースのシステムは、大規模なデータセット(構造化および非構造化)の並列処理を実行します。 MapReduceは、MPPやNoSQLデータベースなど、今日のほとんどのビッグデータ処理フレームワークでも使用できます。
連携して動作するこれらのモジュールはすべて、大規模なデータセットの分散処理を生成します。 Hadoopフレームワークは、コンピューターのクラスター全体に複製される単純なプログラミングモデルを使用します。つまり、システムは、ハードウェアのみに依存するのではなく、処理能力を高めるために単一サーバーから数千台のマシンにスケールアップできます。


ビッグデータを処理するために必要な処理能力を処理できるハードウェアは、控えめに言っても高価です。 これは、Hadoopの真の革新です。それぞれが独自のローカライズされた計算とストレージを備えた複数の小さなマシンで大量の処理能力を分解し、アプリケーションレベルで障害を防ぐための冗長性を備えています。

Hadoopは何をしますか?

簡単に言うと、Hadoopはビッグデータに誰でもアクセスし、使用できるようにします。


Hadoopが登場する前は、ビッグデータを使用していた企業は、リレーショナルデータベースとエンタープライズデータウェアハウス(大量の高価なハードウェアを使用)を主に使用していました。 これらのツールは、構造化されたデータ(管理可能な方法で既に並べ替えられて整理されているデータ)の処理に最適ですが、非構造化データの処理能力は非常に限られており、ほとんど存在しませんでした。 使用するには、データを最初に構造化して、表にきちんと収まるようにする必要がありました。


Hadoopフレームワークはその要件を変更し、安価に変更します。 Hadoopを使用すると、構造化および非構造化の両方で、10〜100ギガバイト以上の大量のデータを通常の(商品)サーバーを使用して処理できます。


Hadoopは、あらゆる業界のあらゆる規模の企業にビッグデータアプリケーションの可能性をもたらします。 オープンソースのフレームワークにより、金融会社はポートフォリオの評価とリスク分析のための洗練されたモデルを作成したり、オンライン小売業者が検索の回答を微調整したり、顧客が購入する可能性の高い製品を紹介したりできます。


Hadoopを使用すると、可能性は本当に無限に広がります。

なんと$ @! hadoopとは?