2. GridData Analytics StudioまたはGridData Analytics Serverのインストール

本章では、GridData Analytics StudioおよびGridData Analytics Serverのインストール方法を説明します。 両製品はいずれも同じ方法でインストールします。

また、GridData Analytics Scale Serverを利用する場合は、各マシンはそれぞれ以下のホスト名とIPアドレスを持つものとします。

マシン名 ホスト名 IPアドレス
GridData Analytics Studio/GridData Analytics Server SERVER0 10.0.0.0
Scale Server(master,slave1) SERVER1 10.0.0.1
Scale Server(slave2) SERVER2 10.0.0.2
Scale Server(slave3) SERVER3 10.0.0.3

あらかじめ各サーバのホスト名を変更してください。また、マニュアル内に登場するIPアドレスは、それぞれ実際の値に置き換えてください。

なお、インストールは管理者ユーザで行ってください。

2.1. インストール前の準備

(1)ファイルのコピー

/tmpディレクトリにメディアの中身をコピーします。

# cp –rf [モジュールのパス]/media_gpa/* /tmp

(2)sudoユーザの変更

sudoersファイルの編集を行います。まず、visudoコマンドを実行します。

# visudo

sudoersファイルが開くため、以下の編集を行います。

(2-1)wheelグループの設定変更

以下の行がコメントアウトされている場合は、コメントアウトを外します。

(変更前)
# %wheel        ALL=(ALL)       NOPASSWD: ALL
(変更後)
%wheel  ALL=(ALL)       NOPASSWD: ALL

(2-2)JUPYTER_CMDの登録

新たに以下の行を追加します。

Cmnd_Alias JUPYTER_CMD = /home/griddata/analytics/.pyenv/versions/anaconda3-4.4.0/bin/sudospawner
griddata ALL=(%jupyter) NOPASSWD:JUPYTER_CMD

(3)/etc/hostsの編集

/etc/hostsを編集し、各マシンのホスト名とIPアドレスを追加します

10.0.0.0                SERVER0
10.0.0.1                SERVER1
10.0.0.2                SERVER2
10.0.0.3                SERVER3

インストール前の準備は以上です。

2.2. インストール方法

(1)スクリプトによるインストールの実行

以下のように、インストール用のスクリプトを起動します。

# cd /tmp/tools/
# chmod a+x ./*.sh
# sh setup.sh

スクリプトを起動することで、以下の各インストール手順が実行されます。

■ griddataユーザの作成

インストール時に、管理用のユーザを新規作成します。ユーザの詳細は以下の通りです。

ユーザ名 パスワード
griddata griddata

■ Anacondaおよび各ライブラリのインストールと設定

■ Sparkのインストールと設定

■ Hadoopのインストールと設定

■ Jupyterの起動

なお、setup.shの仕様は以下の通りです。

setup.sh [-s|--skip]

setup.shは、GridData Analytics Studioまたは GridData Analytics Serverの各インストール手順を順に実行します。 実行中にエラーが発生した場合、setup.logにエラーを出力し、 該当する手順の箇所でインストールを中断します。その場合、ログファイルを参照し、 必要に応じマシンの環境や設定を見直してください。

再度setup.shを実行すると、ログファイルを元に、 中断した手順からインストールを再開します。その場合、必要に応じ–skipオプションを使用してください。

オプション 必須 引数 説明
-s|–skip 中断した手順ではなく、その次の手順からインストールを再開します。中断した手順を手作業により実行した場合などは、本オプションを使用してください。

2.3. 初期設定

(1)slavesファイルの作成

HDFSを使用する場合、/home/griddata/griddata-core/hadoop/conf/slavesファイルを作成し、 Scale Serverのホスト名を記載します。

SERVER1
SERVER2
SERVER3

注釈

HDFS、Spark、そしてScalaカーネルを使用する場合、設定ファイルを元にHDFSないしSparkに接続します。 このとき初期設定では、接続先はGridData Analytics Scale ServerのHDFS・Sparkクラスタです。 そのため、Scale Serverのホスト名や構成を変更した場合や、 その他HadoopないしSparkの設定を変更する場合には、それぞれ設定ファイルの修正が必要です。 GridData Analytics Scale Serverのインストールパラメータ一覧 も参照してください。

2.4. 動作確認

http://<マシンのIP>:8000にアクセスし、Jupyter Notebookのログイン画面が表示されることを確認します。

もしログイン画面が表示されない場合は、以下の手順でJupyter Notebookの再起動を行ってください。

# su - griddata
$ service jupyter restart

インストール直後の場合、Jupter Notebookはgriddataユーザのみ利用が可能です。 他のユーザが利用するには、運用スクリプトを使用し、ログインするユーザを新規作成する必要があります。 詳細は ユーザを追加する を参照してください。

2.5. ディレクトリ構成

インストール後のディレクトリ構成を以下に示します。なお、各種OSSやライブラリをインストールすることで、あるディレクトリ下に常に 同じファイルやディレクトリが作成される場合、そのディレクトリのみを代表として掲載します。

ディレクトリ 作成されるファイル・ディレクトリ 備考
/etc/ld.so.conf.d/ oracle.conf 共有ライブラリの設定ファイル
  griddb.conf 同上
/etc/profile.d analytics.sh 環境変数の設定ファイル
  hadoop.sh 同上
  spark.sh 同上
  pyenv.sh 同上
/home/griddata/ .cashe/  
  .conda/  
  .jupyter/  
  .npm/  
  .condarc  
  .npmrc  
/home/griddata/.local/ .ssh/  
  authorized_keys  
  id_dsa  
  id_dsa.pub  
  known_hosts  
/home/griddata/.local/share/jupyter/kernels python2/kernel.json Python2カーネルの設定ファイル
  python3/kernel.json Python3カーネルの設定ファイル
/home/griddata/analytics/ setup.sh  
  setup_scaleserver.sh  
  user.sh  
  distribute_sample.sh  
  jupyter.sh  
/home/griddata/analytics/.jupyter/ jupyterhub_config.py Jupyterhubの設定ファイル
/home/griddata/analytics/.pyenv python2.7  
  python3.6  
/home/griddata/analytics/griddb/bin303/ libgridstore.so GridDB3.0.3ライブラリ
  libgridstore.so.0 同上
  libgridstore.so.0.0.0 同上
/home/griddata/analytics/griddb/PythonModule2/ Python2用GridDBライブラリ  
  griddb_python_client.py 同上
  _griddb_python_client.so  
/home/griddata/analytics/griddb/PythonModule3/ griddb_python_client.py Python3用GridDBライブラリ
  _griddb_python_client.so 同上
/home/griddata/analytics/examples/ sample_bokeh.ipynb Pythonライブラリのサンプルノートブック
  sample_chainer.ipynb 同上
  sample_flask.ipynb 同上
  sample_gdac_nv.ipynb 同上
  sample_gdac_svm.ipynb 同上
  sample_griddb_python2.ipynb 同上
  sample_griddb_python3.ipynb 同上
  sample_lifelines.ipynb 同上
  sample_mecab.ipynb 同上
  sample_nltk.ipynb 同上
  sample_numpy+matplotlib.ipynb 同上
  sample_pandas.ipynb 同上
  sample_pyspark_python2.ipynb 同上
  sample_pyspark_python3.ipynb 同上
  sample_r.ipynb 同上
  sample_rdb.ipynb 同上
  sample_scala.ipynb 同上
  sample_scikit-image.ipynb 同上
  sample_scikit-learn.ipynb 同上
  sample_scipy.ipynb 同上
  sample_seaborn.ipynb 同上
  sample_simpy.ipynb 同上
  sample-hdfs.ipynb 同上
/home/griddata/analytics/examples/data/ data_lifelines.csv サンプルノートブックの使用データ
  data_nltk.csv 同上
  data_seaborn.csv 同上
/home/griddata/griddata-core/ spark/  
  spark-2.1.1-bin-hadoop2.7/  
  hadoop/  
  hadoop-2.7.3/  
/root/ .npm/  
  .npmrc  
/usr/share/fonts/japanese/TrueType ipaexg.ttf IPAフォントファイル
  Readme_IPAexfont00301.txt 同上
  IPA_Font_License_Agreement_v1.0.txt 同上
/usr/share/nltk_data/ tokenizers/ nlkt用ファイル