4. 大規模データ処理の手引き

4.1. EmbulkとFluentdの使い分け

GridData Lakeに大規模データを収集するために、EmbulkとFluentdの2種類のソフトウェアを利用できます。 Fluentdはシステムログやアプリケーションログなど、継続して増加するデータを増加した分だけ送信するためのソフトウェアです。 Embulkは並列にデータを読み出し、加工を行いながらバッチ転送するためのソフトウェアです。

Fluentdは大きなファイルを一度に送信するには不向きです。 たとえば1TBのCSVファイルを送信する場合には、Embulkをご利用ください。

本製品では、以下の環境において、1TBまでのCSVファイル転送を確認しています。

GridData Lake Server
8コアCPU・32GBメモリのサーバー(m4.2xlarge)×1台
Embulkクライアント
4コアCPU・16GBメモリのサーバー(t2.xlarge)×1台