東芝デジタルソリューションズ株式会社 本文へジャンプ

ヘルプ 別ウィンドウで開きます

Power of US ひとつ上のビジネスを、創る力。

技術 technology

  • 人
  • 技術
  • サポート(支える力)
  • Power of US トップ

【IT技術研究所】日本語の意味まで理解して、大量のデータから必要な情報を抽出して活用する複合イベント処理 Labo

2010年12月28日 【IT技術研究所】大量のテキストデータから、日本語の意味まで踏み込んで必要な情報をリアルタイムに抽出して活用する複合イベント処理 (CEP) 東芝ソリューションIT技術研究所では、東芝の研究成果を受け継ぎ、1999年より日本語処理技術や文書処理技術の応用技術を研究している。現在、力を入れているのは、さまざまなニュースメディアや、Twitterのようなミニブログ、Facebookに代表されるSNS(ソーシャルネットワーキングサービス)により生み出された、大量のテキスト・ストリームデータを、日本語の意味まで踏み込んでリアルタイムに解析し、現在起きている事象や変化を検出する技術だ。

 東芝が世界で初めてのワードプロセッサJW-10を発売してから約30年。ワードプロセッサのコア技術となった「かな漢字変換技術」は、現在ではパソコンや携帯電話の日本語入力の手段として、多くの人に利用されている。
 2003年にソリューション事業のために分社化された東芝ソリューションでも、その伝統は息づいている。東芝ソリューション IT技術研究所では、東芝の研究成果を受け継ぎ、1999年より日本語処理技術や文書処理技術の応用技術を研究している。現在、力を入れているのは、さまざまなニュースメディアや、Twitterのようなミニブログ、Facebookに代表されるSNS(ソーシャルネットワーキングサービス)により生み出された、大量のテキスト・ストリームデータを、日本語の意味まで踏み込んでリアルタイムに解析し、現在起きている事象や変化を検出する技術だ。

大量の情報が湧き出す時代に、いかに素早く必要な情報を入手するか(社会動向)

東芝ソリューション株式会社 IT技術研究所
ビジネスインテリジェンスラボラトリー 研究主務 鈴木 裕之 東芝ソリューション株式会社 IT技術研究所
ビジネスインテリジェンスラボラトリー
研究主務 鈴木 裕之

 IT技術研究所では、日本語処理技術を活用した、複合イベント(*1)処理(CEP: Complex Event Processing)を研究しています。これは、東芝ソリューションが得意とする日本語処理技術と、社会インフラの監視・制御や金融取引分野で注目されているCEPを融合したもので、リアルタイムに流れるテキスト・ストリームデータから情報を効率的に抽出して活用する画期的な技術です。

 インターネットや、センサネットワークシステム(降雨情報システム、交通状況監視システム、荷物の配送状況管理システム等)などの普及で、世の中に流れるデータは急激に増加しています。例えば全世界のTwitterの投稿数は2010年5月だけで19億9000万件にも上っています 。またブログで公開されているテキストデータだけで書籍2700万冊分にもなるといわれています (2008年1月時点)。きわめて大量のデータがあらゆる所から湧き出し、流れ、蓄積されていく社会が、ITの近未来の一つの姿です。

 上記を踏まえ、私たちは「ニュースやSNSなどのテキスト情報」のリアルタイム活用に注目しています。
 証券などの金融取引では、今までは様々な為替・市況情報をリアルタイムに処理することで金融商品の売買を行っていました。しかし、企業の発表や各種ニュース、あるいは海外の重要人物の発言というテキストとして現れる情報も、株価に影響を与えることは少なくありません。具体的には以下のような例がありました。
 ・インフルエンザ流行のニュースの増加と製薬業界の株価
 ・ある製品のリコール問題のニュースの増加と、その会社・業界の株価
 ・ある歌手の病気による休業のニュースと、所属事務所の株価
しかし、大量に流れているテキスト・ストリームデータから、このような「埋もれている情報」を漏れなく見つけ出すのは非常に困難です。よって、テキスト・ストリームデータ評価のために何らかの高速なシステムを導入する必要があります。

このページのトップへ

日本語処理技術とCEPの融合(研究内容)

 もともとマーケティングや、金融取引の現場では、大量のデータから「次の手を打つための情報」を、「できるだけ早く」入手したいというニーズは古くからありましたが、メモリ容量やデータベースの処理性能など、技術が追いついていませんでした。それが、ここ数年、インメモリデータベース(*2)や、CPUのマルチコア化、サーバの仮想化・並行処理の進展などの様々な技術的進歩により、CEPの目的でもある大量のデータを蓄積せずにリアルタイムで処理することが可能となってきました。現在CEPは、株取引において複数の取引システム間でのミリ秒単位の取引を可能とする高頻度トレーディング(HFT、High Frequency Trade)や、Webサイトにおける推奨広告・推奨表品表示などに積極的に利用されており、ITの近未来の姿を実現する手段の一つとして期待されています。

出展1:http://www.itmedia.co.jp/news/articles/1006/10/news060.html (別ウィンドウで開きます)
出展2:総務省情報通信政策研究所調査研究部、ブログの実態に関する調査研究の結果
    (PDF:0.4MB、別ウィンドウで開きます)

 この技術を用いれば、大量に流れているテキストデータに対しても高速処理が可能となっていくと考えられます。私たちは、日本語処理技術とCEPを融合し、テキストもストリームデータとして扱える技術の研究を進めています。

 テキストデータから、前述したような「埋もれている情報」を見つけるには、ただ量を集めればいいものではなく、品質の良い情報(信頼できる情報)を集める必要があります。大量のブログ、メール、SNSなどから、「必要な情報」を「より速く」抽出するために、東芝ソリューションが得意とする日本語処理技術を活用しています。

 金融取引以外にも本技術を活用することも可能です。例えば、ブログ等での評判情報と生産システムの情報を組み合わせれば、出荷した製品に関する評判をもとに、需給予測を素早く行い在庫リスクを低減できるかもしれません。また製造方法を変えた直後に、製品に関して「故障」に関する書き込みが増えたことが把握できれば、早期に品質リスクを発見し、素早い対策が打てるようになるかもしれません。あるいはシステムのログというテキスト情報と通常の監視データを組み合わせれば、障害時に素早く問題箇所を特定できるかもしれません。

このページのトップへ

大量データ社会の今後

 これからは、世の中に流れる大量のデータを一旦蓄積せずに、ダイレクトに利用するITシステムの重要性が増して行くと考えられます。今までは蓄積されたデータを加工して用いていましたが、データをそのまま利用することにより、次に打つ手の細かさ・素早さが向上して行きます。商品の出荷業務ならば、月ごとの販売予測を用いた出荷計画立案ではなく、SNSやミニブログにおける評判をもとにしたリアルタイムな製造指令・拠点配送指令が、品質検査ならば月ごとの統計結果に基づいた対策では無く、今発生しているクレームやニュースをもとにした迅速な改善ポイントの指摘が、経営システムならば期末・月末の利益総額ではなく、個々のプロジェクトの現状把握が、ITに求められるアウトプットになるでしょう。そのためには膨大なデータをリアルタイムに処理することが必要となり、これを実現するためにCEPの適用が広がっていくと考えています。
 更にテキストデータが扱えるようになれば、株価の増減等のように数値として結果が現れる前に、ニュース等から株価に影響を与える予兆を発見できるようになります。このような言語処理技術との融合により利用できる情報が増えることで、取引や経営判断、あるいは障害対応のような、今まで人が行わねばならなかった高度な業務に対してもITがサポートしてくれるようになるでしょう。大量の情報を処理することになっても情報や判断の精度が落ちないよう研究を重ねる必要がありますが、近い将来、人間が、「見つけられない」「探せない」「見逃している」データを、CEPを用いた高速大量テキスト処理により発見し、仕事をサポートしてくれる未来がやってくるかもしれません。

 今後、IT技術研究所は日本語、英語などの多言語を含むテキスト処理技術の研究開発を進め、複合イベント処理と組み合わせることで可能となる新たな知識活用技術を開発していきます。そして、テキストをリアルタイムに用いることでメリットが生じる様々な業務への適用を推進していきます。 図1 テキスト情報も扱える複合イベント処理

図1 テキスト情報も扱える複合イベント処理

*1 イベント:「事故が発生した」「システムの測定値が閾値を頻繁に越えている」 などの、データに基づき検知された事象のこと。
複合イベント:任意のイベントが同時に発生する、ある順序で発生する、特定回数発生するといった条件に基づき、複数のイベントから検知される事象のこと。
*2 インメモリデータベース:コンピュータの一次記憶内部に、データおよびその管理システムを展開・構築するデータベース。

このページのトップへ

技術 technology

  • 人
  • 技術
  • サポート(支える力)
  • Power of US トップ

Power of US ひとつ上のビジネスを、創る力。

このページのトップへ
Copyright