本文へジャンプ

高速バッチ処理フレームワーク

ポイント

  • 社会インフラに求められる、長期運用・高信頼性で高速・大量データに対応
  • 大量なデータを高速処理し、ビジネスの変化に素早く対応
  • ペタバイト級のデータを素早く処理するGridDB
  • 並列分散処理により、大量なデータを高速に集計するGridData Grid Processing Server
  • 他システムとの連携により単独データでは見つけにくい情報を発見

大量データを高速処理し、ビジネスの変化に素早く対応

スマートフォンやセンサーなどの電子機器の普及に伴い、センサーデータ、工作機器などの機器のデータ、Webアクセスログ、ソーシャルメディアなど、あらゆるモノやヒトが情報を発信します。これらのデータは随時生成されていき、情報量の増大と情報の多様化が進んでいます。
ビッグデータ利活用フレームワークの一つである高速バッチ処理フレームワークは、大量にデータを蓄積するデータベースと、並列分散処理エンジンを組合わせて利用し、大量データを高速に処理することができます。これにより大量データを高速に処理することで、従来は1日1回の夜間バッチで更新していた処理が、数十分〜数時間ごとの更新が可能となり、ビジネスの変化に素早く対応することができるようになります。

ペタバイト級のデータを素早く処理するGridDB®

情報量の増大と情報の多様化により、従来のリレーショナルデータベースでは処理できないほどの大量のデータ、非構造化データを高速に処理する技術として、キーバリューストア(KVS)型データベースが注目されております。
GridDB®は大容量、多様化したデータを扱えるメモリとディスクとのハイブリッド型データベースとして、大量データを高速に処理する仕組みを備えたKVS型データベースです。大量クライアントから秒間数十万〜数百万オーダーの高速データ登録と、参照を実現しています。

大量データを高速に集計するGridData®

GridDB®に蓄積されたデータはギガバイト〜ペタバイトの量になります。しかし、生データがそのまま直接利用されることはあまり多くはなく、分析や利活用のためにデータを整形します。しかしながら、従来のバッチ処理ではデータ量が多すぎて処理が追いつかず、素早く活用することができません。
GridData ®はGridDB®に蓄積されたデータを、並列分散することにより高速に処理を行うことができます。

バッチ処理を高速化する並列分散処理

GridData®はGridDB®内のデータを直接MapReduce方式の並列分散で処理をします。MapReduce処理で必要なHDFSへのインポート/エクスポート処理が発生しないため、高速にデータを処理することができます。

バッチ処理を高速化する並列分散処理

規模に応じて柔軟に拡張

GridDB®やGridData®は規模に応じて拡張(スケールアウト)させることができます。システム導入時はデータ量も少ないため、小規模で構築し、データ量の増加に伴い、後から拡張していくことが可能です。これにより、少ないコストでシステムを導入できます。

並列分散処理に特化した開発ガイドラインとサンプルコード

Hadoopは並列分散処理フレームワークとして有名ですが、効果的な性能を発揮させるには、アプリケーションの設計段階から、分散処理を意識した設計が必要になります。この設計に不備があると性能が出ず、再設計が必要になる場合もあります。高速バッチ処理フレームワークでは、バッチ処理に特化した開発のガイドラインと、サンプルコードが付属するため、短期間での開発が可能になります。

適用例

PSI管理システムでのバッチ高速化

従来は1日1回のバッチ処理で行っていましたが、高速バッチ処理フレームワークの適用により、時間のかかる生産・販売・在庫状況の集計を1日に複数回実行することができるようになります。これにより、生産状況を把握し、生産計画を早期に策定したり、販売状況を随時確認できます。また、在庫不足を早期に発見でき、機会損失を最小限に抑えることが可能となります。

PSI管理:Production(生産)、Sales(販売)、Inventory(在庫)の頭文字の略で、生産・販売・在庫を同時に管理することをいいます。


関連製品/ソリューション
  • SPINEX

Get Adobe Reader

PDFファイルの閲覧には、
Adobe® Reader® が必要です。別ウィンドウで開きます

別ウィンドウで開きますマークの付いたリンクは、別ウィンドウで開きます。