4. 大規模データ処理の手引き¶
4.1. EmbulkとFluentdの使い分け¶
GridData Lakeに大規模データを収集するために、EmbulkとFluentdの2種類のソフトウェアを利用できます。 Fluentdはシステムログやアプリケーションログなど、継続して増加するデータを増加した分だけ送信するためのソフトウェアです。 Embulkは並列にデータを読み出し、加工を行いながらバッチ転送するためのソフトウェアです。
Fluentdは大きなファイルを一度に送信するには不向きです。 たとえば1TBのCSVファイルを送信する場合には、Embulkをご利用ください。
本製品では、以下の環境において、1TBまでのCSVファイル転送を確認しています。
- GridData Lake Server
- 8コアCPU・32GBメモリのサーバー(m4.2xlarge)×1台
- Embulkクライアント
- 4コアCPU・16GBメモリのサーバー(t2.xlarge)×1台