製品概要

本マニュアルは、GridData Analyticsの各製品の利用方法について説明したものです。 製品のご使用前に必ずお読みください。

本書に記載されている外部URLについては2017年10月時点のものとなります。

GridData Analyticsの製品構成

GridData Analyticsは以下の製品群から構成されています。

  • GridData Analytics Studio
  • GridData Analytics Server
  • GridData Analytics Scale Server

本節では、それぞれの製品の主な特長と用途について説明します。

GridData Analytics Studio

GridData Analytics Studioはデータ分析用の実行環境です。 Jupyter Notebookというソフトウェアを使用し、PythonやR、Scalaなどのプログラミング言語を記述・実行することができます。 このとき、記述した内容や実行結果はノートブックという形式で保存されます。

それに加え、GridData Analytics Studioには以下の特徴があります。

  • 豊富なライブラリ 各言語ではデータ分析用のライブラリをはじめ、RDBやGridDBなどデータベース接続用のライブラリ、

WebAPI作成用のライブラリがあらかじめビルドインされています。 これにより、ユーザはデータベースにアクセスし、分析を行い、また分析処理を必要に応じAPIを作成する

一連の分析作業を一貫して行うことができます。また、ライブラリを新たにユーザが追加することもできます。
  • 並列分散処理 GridData Analytics Scale Serverと共に利用することで、 Jupyter Notebookで分析処理を行う際に、データをクラスタマシンに分散し並列処理ができます。 これにより、大量のデータを一括し迅速に処理することができます。

GridData Analytics Server

GridData Analytics Studioは、APIサーバ用の実行環境です。 GridData Analytics Studioで作成したWebAPIのノートブックを元にAPIサーバとして起動することで、 キーやパラメータを受け取り、それを元にデータ処理を行った結果を返すAPIが利用可能になります。 また、ノートブックを定期的に自動実行し、結果を保存することもできます。

GridData Analytics Scale Server

GridData Analytics Scale Serverは、GridData Analytics Studioと共に使用します。 複数台のマシンにGridData Analytics Scale Serverをインストールしクラスタを構成することで、 GridData Analytics Studioのデータ処理をクラスタで並列分散し実行することができます。 このとき、Apache Sparkという並列処理用のソフトウェアを使用します。 また、HDFSと呼ばれる、大規模データ用のファイルシステムを使用することもできます。