目次:
定義-Apache Nutchの意味?
Apache Nutchは、Webからデータを集約するために使用できるWebクローラーソフトウェア製品です。 データ分析のために、Hadoopなどの他のApacheツールと組み合わせて使用されます。
TechopediaはApache Nutchについて説明します
Apache Nutchは、Apache Software Foundationによってライセンスされたオープンソース製品です。 この開発者コミュニティは、データを並べ替えて分析できるさまざまなApacheソフトウェアツールのライセンスを保持しています。 中心的なテクノロジーの1つは、ビジネスコミュニティで非常に人気のあるビッグデータ分析ツールであるApache Hadoopです。
Apache Hadoopなどのツールやファイルの保存、分析などの機能に加えて、Nutchの役割は、ウェブクロールアルゴリズムを使用してウェブからデータを収集して保存することです。
ユーザーは、Apache Nutchの単純なコマンドを利用して、URLの下で情報を収集できます。 ユーザーは通常、Apache Nutchを、Apache Nutchで収集されたデータのリポジトリとして機能できる、Apache Solrと呼ばれる別のオープンソースツールと共に使用します。
