2. GridData Analytics StudioまたはGridData Analytics Serverのインストール¶
本章では、GridData Analytics StudioおよびGridData Analytics Serverのインストール方法を説明します。 両製品はいずれも同じ方法でインストールします。
また、GridData Analytics Scale Serverを利用する場合は、各マシンはそれぞれ以下のホスト名とIPアドレスを持つものとします。
マシン名 | ホスト名 | IPアドレス |
---|---|---|
GridData Analytics Studio/GridData Analytics Server | SERVER0 | 10.0.0.0 |
Scale Server(master,slave1) | SERVER1 | 10.0.0.1 |
Scale Server(slave2) | SERVER2 | 10.0.0.2 |
Scale Server(slave3) | SERVER3 | 10.0.0.3 |
あらかじめ各サーバのホスト名を変更してください。また、マニュアル内に登場するIPアドレスは、それぞれ実際の値に置き換えてください。
なお、インストールは管理者ユーザで行ってください。
2.1. インストール前の準備¶
(1)ファイルのコピー
/tmpディレクトリにメディアの中身をコピーします。
# cp –rf [モジュールのパス]/media_gpa/* /tmp
(2)sudoユーザの変更
sudoersファイルの編集を行います。まず、visudoコマンドを実行します。
# visudo
sudoersファイルが開くため、以下の編集を行います。
(2-1)wheelグループの設定変更
以下の行がコメントアウトされている場合は、コメントアウトを外します。
(変更前)
# %wheel ALL=(ALL) NOPASSWD: ALL
(変更後)
%wheel ALL=(ALL) NOPASSWD: ALL
(2-2)JUPYTER_CMDの登録
新たに以下の行を追加します。
Cmnd_Alias JUPYTER_CMD = /home/griddata/analytics/.pyenv/versions/anaconda3-4.4.0/bin/sudospawner
griddata ALL=(%jupyter) NOPASSWD:JUPYTER_CMD
(3)/etc/hostsの編集
/etc/hostsを編集し、各マシンのホスト名とIPアドレスを追加します
10.0.0.0 SERVER0
10.0.0.1 SERVER1
10.0.0.2 SERVER2
10.0.0.3 SERVER3
インストール前の準備は以上です。
2.2. インストール方法¶
(1)スクリプトによるインストールの実行
以下のように、インストール用のスクリプトを起動します。
# cd /tmp/tools/
# chmod a+x ./*.sh
# sh setup.sh
スクリプトを起動することで、以下の各インストール手順が実行されます。
■ griddataユーザの作成
インストール時に、管理用のユーザを新規作成します。ユーザの詳細は以下の通りです。
ユーザ名 | パスワード |
---|---|
griddata | griddata |
■ Anacondaおよび各ライブラリのインストールと設定
■ Sparkのインストールと設定
■ Hadoopのインストールと設定
■ Jupyterの起動
なお、setup.shの仕様は以下の通りです。
setup.sh [-s|--skip]
setup.shは、GridData Analytics Studioまたは GridData Analytics Serverの各インストール手順を順に実行します。 実行中にエラーが発生した場合、setup.logにエラーを出力し、 該当する手順の箇所でインストールを中断します。その場合、ログファイルを参照し、 必要に応じマシンの環境や設定を見直してください。
再度setup.shを実行すると、ログファイルを元に、 中断した手順からインストールを再開します。その場合、必要に応じ–skipオプションを使用してください。
オプション | 必須 | 引数 | 説明 |
---|---|---|---|
-s|–skip | - | - | 中断した手順ではなく、その次の手順からインストールを再開します。中断した手順を手作業により実行した場合などは、本オプションを使用してください。 |
2.3. 初期設定¶
(1)slavesファイルの作成
HDFSを使用する場合、/home/griddata/griddata-core/hadoop/conf/slavesファイルを作成し、 Scale Serverのホスト名を記載します。
SERVER1
SERVER2
SERVER3
注釈
HDFS、Spark、そしてScalaカーネルを使用する場合、設定ファイルを元にHDFSないしSparkに接続します。 このとき初期設定では、接続先はGridData Analytics Scale ServerのHDFS・Sparkクラスタです。 そのため、Scale Serverのホスト名や構成を変更した場合や、 その他HadoopないしSparkの設定を変更する場合には、それぞれ設定ファイルの修正が必要です。 GridData Analytics Scale Serverのインストール や パラメータ一覧 も参照してください。
2.4. 動作確認¶
http://<マシンのIP>:8000にアクセスし、Jupyter Notebookのログイン画面が表示されることを確認します。
もしログイン画面が表示されない場合は、以下の手順でJupyter Notebookの再起動を行ってください。
# su - griddata
$ service jupyter restart
インストール直後の場合、Jupter Notebookはgriddataユーザのみ利用が可能です。 他のユーザが利用するには、運用スクリプトを使用し、ログインするユーザを新規作成する必要があります。 詳細は ユーザを追加する を参照してください。
2.5. ディレクトリ構成¶
インストール後のディレクトリ構成を以下に示します。なお、各種OSSやライブラリをインストールすることで、あるディレクトリ下に常に 同じファイルやディレクトリが作成される場合、そのディレクトリのみを代表として掲載します。
ディレクトリ | 作成されるファイル・ディレクトリ | 備考 |
---|---|---|
/etc/ld.so.conf.d/ | oracle.conf | 共有ライブラリの設定ファイル |
griddb.conf | 同上 | |
/etc/profile.d | analytics.sh | 環境変数の設定ファイル |
hadoop.sh | 同上 | |
spark.sh | 同上 | |
pyenv.sh | 同上 | |
/home/griddata/ | .cashe/ | |
.conda/ | ||
.jupyter/ | ||
.npm/ | ||
.condarc | ||
.npmrc | ||
/home/griddata/.local/ | .ssh/ | |
authorized_keys | ||
id_dsa | ||
id_dsa.pub | ||
known_hosts | ||
/home/griddata/.local/share/jupyter/kernels | python2/kernel.json | Python2カーネルの設定ファイル |
python3/kernel.json | Python3カーネルの設定ファイル | |
/home/griddata/analytics/ | setup.sh | |
setup_scaleserver.sh | ||
user.sh | ||
distribute_sample.sh | ||
jupyter.sh | ||
/home/griddata/analytics/.jupyter/ | jupyterhub_config.py | Jupyterhubの設定ファイル |
/home/griddata/analytics/.pyenv | python2.7 | |
python3.6 | ||
/home/griddata/analytics/griddb/bin303/ | libgridstore.so | GridDB3.0.3ライブラリ |
libgridstore.so.0 | 同上 | |
libgridstore.so.0.0.0 | 同上 | |
/home/griddata/analytics/griddb/PythonModule2/ | Python2用GridDBライブラリ | |
griddb_python_client.py | 同上 | |
_griddb_python_client.so | ||
/home/griddata/analytics/griddb/PythonModule3/ | griddb_python_client.py | Python3用GridDBライブラリ |
_griddb_python_client.so | 同上 | |
/home/griddata/analytics/examples/ | sample_bokeh.ipynb | Pythonライブラリのサンプルノートブック |
sample_chainer.ipynb | 同上 | |
sample_flask.ipynb | 同上 | |
sample_gdac_nv.ipynb | 同上 | |
sample_gdac_svm.ipynb | 同上 | |
sample_griddb_python2.ipynb | 同上 | |
sample_griddb_python3.ipynb | 同上 | |
sample_lifelines.ipynb | 同上 | |
sample_mecab.ipynb | 同上 | |
sample_nltk.ipynb | 同上 | |
sample_numpy+matplotlib.ipynb | 同上 | |
sample_pandas.ipynb | 同上 | |
sample_pyspark_python2.ipynb | 同上 | |
sample_pyspark_python3.ipynb | 同上 | |
sample_r.ipynb | 同上 | |
sample_rdb.ipynb | 同上 | |
sample_scala.ipynb | 同上 | |
sample_scikit-image.ipynb | 同上 | |
sample_scikit-learn.ipynb | 同上 | |
sample_scipy.ipynb | 同上 | |
sample_seaborn.ipynb | 同上 | |
sample_simpy.ipynb | 同上 | |
sample-hdfs.ipynb | 同上 | |
/home/griddata/analytics/examples/data/ | data_lifelines.csv | サンプルノートブックの使用データ |
data_nltk.csv | 同上 | |
data_seaborn.csv | 同上 | |
/home/griddata/griddata-core/ | spark/ | |
spark-2.1.1-bin-hadoop2.7/ | ||
hadoop/ | ||
hadoop-2.7.3/ | ||
/root/ | .npm/ | |
.npmrc | ||
/usr/share/fonts/japanese/TrueType | ipaexg.ttf | IPAフォントファイル |
Readme_IPAexfont00301.txt | 同上 | |
IPA_Font_License_Agreement_v1.0.txt | 同上 | |
/usr/share/nltk_data/ | tokenizers/ | nlkt用ファイル |