目次:
- Hadoopはどのようにして始まりましたか?
- Hadoopの何がそんなに重要ですか?
- 読み取りスキーマとは何ですか?
- Hiveとは何ですか?
- Hadoopはどのようなデータを分析しますか?
- Hadoopの実際の例を教えてください。
- Hadoopはすでに廃止されているのですか、それともモーフィングですか?
Hadoopとは何ですか? 黄色いおもちゃの象です。 あなたが期待していたものではありませんか? これについてはどうですか:このオープンソースソフトウェアプロジェクトの共同作成者であるDoug Cuttingは、偶然彼のおもちゃの象Hadoopと呼ばれる息子から名前を借りました。 一言で言えば、Hadoopは、Apache Software Foundationによって開発されたソフトウェアフレームワークであり、データ集約型の分散コンピューティングの開発に使用されています。 そして、それは別の流行語リーダーの重要なコンポーネントであり、ビッグデータというものを十分に得ることができないようです。 このユニークで自由にライセンス供与されるソフトウェアについて知っておくべき7つのことを以下に示します。
Hadoopはどのようにして始まりましたか?
12年前、Googleは収集する大量のデータを操作するプラットフォームを構築しました。 会社がよく行うように、GoogleはGoogleファイルシステムとMapReduceの2つの論文の形式でデザインを公開しました。
同時に、Doug CuttingとMike Cafarellaは、新しい検索エンジンであるNutchに取り組んでいました。 また、2人は大量のデータを処理する方法に苦労していました。 その後、2人の研究者はGoogleの論文の風を受けました。 その幸運な交差点は、CuttingとCafarellaをより優れたファイルシステムとデータの追跡方法に導入することですべてを変え、最終的にHadoopの作成につながりました。
Hadoopの何がそんなに重要ですか?
今日、データの収集はかつてないほど簡単になりました。 このすべてのデータを取得することには多くの機会がありますが、課題もあります。- 大量のデータには、新しい処理方法が必要です。
- キャプチャされるデータは非構造化形式です。
次に、非構造化データまたは標準のリレーショナルデータベースシステムでは処理できない形式のデータに対処する必要がありました。 カッティングとカファレラは、構造化、非構造化、画像、音声ファイル、テキストなど、あらゆるタイプのデータを扱うようにHadoopを設計しました。 このCloudera(Hadoopインテグレーター)ホワイトペーパーでは、これが重要である理由について説明しています。
-
「データベースの内容だけでなく、すべてのデータを使用できるようにすることで、Hadoopを使用すると、隠れた関係を明らかにし、常に手が届かない答えを明らかにすることができます。サンプルと要約だけでなく、完全なデータセットで。」
読み取りスキーマとは何ですか?
前述したように、Hadoopの利点の1つは、非構造化データを処理できることです。 ある意味で、それは「缶を蹴飛ばす」ことです。 最終的に、データを分析するには、何らかの構造が必要です。
これが、読み取りに関するスキーマが作用する場所です。 読み取り時のスキーマは、データの形式、データの検索場所(データが複数のサーバーに散在していることを覚えておいてください)、およびデータに対して行われることの単純なタスクではなく、融合です。 Hadoopシステムでデータを操作するには、ビジネスアナリスト、統計学者、およびJavaプログラマのスキルが必要であると言われています。 残念ながら、これらの資格を持つ人は多くありません。
Hiveとは何ですか?
Hadoopが成功する場合、データの操作を簡素化する必要がありました。 そのため、オープンソースのクラウドは機能し、Hiveを作成しました。-
「Hiveは、構造をこのデータに投影し、HiveQLと呼ばれるSQLのような言語を使用してデータを照会するメカニズムを提供します。同時に、この言語により、従来のmap / reduceプログラマーは、不便またはこのロジックをHiveQLで表現するのは非効率的です。」
Hiveは両方の長所を実現します。SQLコマンドに精通したデータベース担当者はデータを操作でき、読み取りプロセスのスキーマに精通した開発者は引き続きカスタマイズされたクエリを作成できます。
Hadoopはどのようなデータを分析しますか?
Web分析は、Webサイトを最適化するためにWebログとWebトラフィックを分析する、最初に思い浮かぶことです。 たとえば、FacebookはWeb分析に間違いなく取り組んでおり、Hadoopを使用して、会社が蓄積するテラバイト単位のデータを分類しています。
企業はHadoopクラスターを使用して、リスク分析、不正検出、顧客ベースのセグメンテーションを実行します。 電力会社は、Hadoopを使用して配電網からのセンサーデータを分析し、電力生産を最適化できるようにします。 Target、3M、Medtronicsなどの主要企業は、Hadoopを使用して製品の流通、ビジネスリスクの評価、顧客ベースのセグメンテーションを最適化します。
大学もHadoopに投資しています。 ソフトウェアのセントトーマス大学大学院プログラムの准教授であるブラッドルービンは、彼のHadoopの専門知識が、大学の研究グループがまとめた膨大な量のデータの整理に役立っていると述べました。
Hadoopの実際の例を教えてください。
よく知られている例の1つはTimesMachineです。 New York Timesには、1851から1922までのフルページの新聞TIFF画像、関連するメタデータ、および記事テキストのコレクションがあり、テラバイトに相当します。 NYTのDerek Gottfridは、EC2 / S3 / Hadoopシステムと専用コードを使用して、次のことを行いました。-
「405, 000個の非常に大きなTIFF画像、SGMLの330万件の記事、TIFFの矩形領域に記事をマッピングする405, 000個のxmlファイルを取り込みました。 」
Gottfridは、Amazon Web Servicesクラウドのサーバーを使用して、TimesMachineに必要なすべてのデータを36時間以内に処理できると述べました。
Hadoopはすでに廃止されているのですか、それともモーフィングですか?
Hadoopは10年以上前から存在しています。 それは時代遅れだと多くの人が言っています。 ある専門家、David Rico博士は、「IT製品は短命です。犬の年には、Googleの製品は約70、Hadoopは56です」と述べています。
リコの言うことには真実があるかもしれません。 Hadoopは大規模なオーバーホールを行っているようです。 それについてさらに学ぶために、RubinはTwin Cities Hadoopユーザーグループ会議に私を招待しました、そして議論のトピックはYARNの紹介でした:
-
「Apache Hadoop 2には新しいMapReduceエンジンが含まれています。これは、以前の実装よりも優れたスケーラビリティやリソース利用など、多くの利点があります。新しい実装は、YARNと呼ばれる分散アプリケーションを実行するための一般的なリソース管理システム上に構築されています」