GridData Analytics ユーザーズガイド

本マニュアルは、GridData Analyticsの各製品の利用方法について説明したものです。 製品のご使用前に必ずお読みください。

本書に記載されている外部URLについては2017年10月時点のものとなります。

GridData Analyticsの製品構成

GridData Analyticsは以下の製品群から構成されています。

  • GridData Analytics Studio
  • GridData Analytics Server
  • GridData Analytics Scale Server

本節では、それぞれの製品の主な特長と用途について説明します。

GridData Analytics Studio

GridData Analytics Studioはデータ分析用の実行環境です。 Jupyter Notebookというソフトウェアを使用することで、RDBやHDFS、GridDBなどのデータベースに接続し、 また分析の際はPythonやR、Scalaといったプログラミング言語を記述し、実行できます。 このとき、記述したコードと実行結果はノートブックという一つの形式で保存されます。 利用する際は、あらかじめ実行用のサーバにGridData Analytics Studioをインストールし、Jupyter Notebookを起動してください。 Webサーバが起動するため、Jupyter Notebookのページにブラウザ上からアクセスすることで利用が可能になります。

なお、分析の際に並列分散処理を行う場合は、後述するGridData Analytics Scale Serverと共に使用してください。

GridData Analytics Server

GridData Analytics Studioは、APIサーバ用の実行環境です。 GridData Analytics Studioで作成したWebAPI用のノートブックを元に、APIサーバとして起動することで、 キーやパラメータを受け取り、それを元にデータ処理を行った結果を返すAPIが利用可能になります。 また、ノートブックを定期的に自動実行し、結果を保存する場合にもGridData Analytics Studioを使用します。

GridData Analytics Scale Server

GridData Analytics Scale Serverは、GridData Analytics Studioと共に使用します。 GridData Analytics Studioで分散処理を行う場合、 複数台のマシンにGridData Analytics Scale Serverをインストールし、クラスタを構成することで分散処理を実行します。 このとき、Apache Sparkという並列処理用のアプリケーションを使用します。 また、HDFSと呼ばれる、大規模データ用のファイルシステムを使用することもできます。