東芝デジタルソリューションズ株式会社 本文へジャンプ

ヘルプ 別ウィンドウで開きます

Power of US ひとつ上のビジネスを、創る力。

技術 technology

  • 人
  • 技術
  • サポート(支える力)
  • Power of US トップ

膨大な情報の利活用を支援する自然言語処理技術

 自然言語処理技術[1]の発展により,パソコンや携帯電話などで気軽にメールや文書などの情報を作成できるようになりました。その結果、蓄積されている情報の量も膨大なものになっています。情報は作成するだけでなく、活用されることによって、より価値を持ちます。
 本稿では、情報利活用における課題について整理し、膨大な情報の利活用を支援するために自然言語処理技術に求められることについてご紹介します。

Key Person 2010年5月28日

1.増え続ける情報

 IT技術の進歩,各種情報メディアの普及などにより,世の中で流通している情報の量は増え続けています。総務省では70種類以上のメディア(電話,テレビ,パソコン,インターネット,DVDなど)を対象に情報流通量を計量しています[2]
その調査によると,全メディアを合計した情報流通量は平成8年度と平成18年度の比較で以下のように増大しています。

  • 原発信情報量※1 :118倍
  • 選択可能情報量※2: 532倍
  • 消費情報量※3 :65倍

 この中で,インターネット上で流通している情報だけで見ると,平成8年度から平成18年度までの変化は図1に示すようになっています。平成18年度は平成8年度と比較して,以下の増加率となっています。

  • 原発信情報量 :約6,300倍
  • 選択可能情報量 :約15,300倍
  • 消費情報量 :約700倍

 インターネット上の流通情報量の増加率が大きいのは,情報機器の発達により、幅広い人が情報発信ができるようになったこと,そして一つの情報が様々なところで複製されたり,引用されたりするため,選択可能情報量も大きくなっていることが要因と考えられます。
 例えば総務省情報通信政策研究所の調査では,ブログによる情報発信量も平成14 年から急激に伸びており,2008年1月現在ではブログ開設数が1,690万件,記事総数は13億5,000万件となっています[3]。データ量で見ると42テラバイト,うちテキストデータは12テラバイトと推計さ れています。このテキストデータ量は書籍2,700万冊分(書籍1冊を457キロバイトとして換算)に当たるものであり,ブログに限っても非常に膨大な情報が発信され流通していることがわかります。

このページのトップへ

2.膨大な情報の中から必要な情報を探し出すことが課題

 図1を見ると,インターネット上で流通している情報量の増加の割合(15,300倍)に比べ,実際に利用される情報量の増加の割合(700倍)が低いように思われます。この理由を,発信された情報がどれだけ利用されているか,利用者がどれほどの情報量の中から欲しい情報を探しているのかという観点で見ると図2のようになります。
 平成8年度は実際に利用された情報は発信された情報の約800倍でしたが,平成18年度は約100倍と減少しています。これは,発信される情報量の増加に伴い,様々な情報が発信されるようになり,利用者がより自分に必要な情報を選択し利用するようになった結果であるとも考えられます。
 逆に一つの情報を利用するのに平成8年度は800倍の情報量の中から選択していましたが,平成18年度は18,000倍の情報の中から選択をしていくという状況になっています。
つまり利用者は,膨大な情報の中から自分に必要な情報を選択していくことが求められます。
 ブログを例に考えると,毎月新たに書き込まれる記事の数は4,000万件から5,000万件で推移しており,活発な情報発信が続いています。そのデータ総量は,画像・動画ファイルなども含め,毎月約1.6テラバイトずつ増加しています。
利用者はこの膨大な記事の中から,自分の興味のある記事を見つけ出していくということになります。
 これはインターネット上で流通する情報に限った話ではありません。技術情報,品質情報,お客様の情報,各種業務報告など,企業の中で蓄積・流通している情報も増加の一途をたどっています。この蓄積・流通している膨大な情報の中から,業務遂行に必要な情報を効率的に選択し,活用 していくことが求められています。

図1 インターネット上で流通する情報量の推移 図1 インターネット上で流通する情報量の推移
平成14年度以降情報量の流通量が大きく増加しています。

図2 選択可能情報と利用された情報の関係 図2 選択可能情報と利用された情報の関係
利用可能情報の増大に伴い,発信情報の利用割合が低下している。

このページのトップへ

3.広がり続ける情報利活用のニーズ

 平成20年通信利用動向調査[4]によると,日本におけるインターネットの人口普及率は75.3%となっており,9,000万人以上の人がインターネット上での情報検索やショッピング,ブログなどでの情報発信を行っています。このような環境下では,利用者が必要とする情報にいかに効率よくたどり着けるか,そしてその情報を活用していくことができるかが課題になります。
 また企業においては,文書化された情報は業務記録というだけでなく,色々なノウハウを伝えていくための媒体でもあり,コンプライアンス上のエビデンスにもなったりするものです。従って,必要な情報を効率よく見つけ出すことに加え,活用する情報の質(文書の質)が重要になります。そして,情報を知識として活用し継承していくためには,目的に応じて整理し,体系化していくことが重要です。
 更に,対象とする情報も日本語で記述された情報だけでなく,英語や中国語などの言語で記述された情報に広がっています。

4.自然言語処理技術に求められること

 情報の利活用においては,情報を作り出すこと,必要な情報を見つけ出すこと,そしてその情報を目的に応じて加工し利用していくことが重要です。このような活動は人間にとって知的な活動であり,すべてを機械化することはできませんが,自然言語処理技術により情報の利活用を促進することが可能です。
 特に大量の情報を検索したり,整理・分類したり,情報(文書)の品質を高めていくことは自然言語処理技術が得意とする部分です。本特集では,情報利活用を支援するために,自然言語処理技術がどのように活用され,ソリューション化されているかをご紹介します。
 特集記事1では,日本語,英語,中国語など,言語の壁を越えた情報利活用のための機械翻訳技術とその応用についてご紹介します。
  特集記事2では,利用者によって異なる検索スキルに応じた情報の検索を支援する技術,特集記事3では,利用者によって異なる表現の多様性を吸収した情報の検索を支援する技術についてそれぞれ応用とともにご紹介します。
 特集記事4では,検索結果として得られる大量の情報の分類・整理を支援する技術とその応用についてご紹介します。
 特集記事5では,利活用対象となる情報の品質を向上させる文書チェック技術と,金融分野における応用についてご紹介します。
 特集記事6では,オントロジーを活用した情報活用支援技術とその応用についてご紹介します。
 最後に,特集記事7では今後の技術展望とともにソリューションへの応用についてご紹介します。

  • 【脚注】
  • ※1:各メディアを通じて流通した情報量のうち,複製や繰返しを除いたオリジナル部分の情報の総量
  • ※2:各メディアの情報受信点において,1年間に情報消費者が選択可能な形で提供された情報の総量
  • ※3:各メディアを通じて,1年間に消費者が実際に受け取り,消費した情報の総量
  • 【参考文献】
  • [1]東芝レビュー.自然言語処理特集.Vol.64,No.2
  • [2]総務省情報通信政策局情報通信経済室.“平成18年度情報流通セ ンサス報告書”
    入手先<http://www.johotsusintokei.soumu. go.jp/linkdata/ic_sensasu_h18.pdf>
  • [3]総務省情報通信政策研究所調査研究部.“ブログの実態に関する調査 研究の結果”
    入手先<http://www.soumu.go.jp/iicp/chousakenkyu/ data/research/survey/telecom/2008/2008-1-02-2.pdf>
  • [4]総務省情報通信国際戦略局情報通信政策課.“平成20年通信利用 動向調査の結果(概要)”
    入手先<http://www.soumu.go.jp/main_content/000016027.pdf>

岩田 誠司

岩田 誠司 Iwata Seiji
IT 技術研究所
研究開発部 ビジネスインテリジェンスラボラトリー 室長

ビジネスインテリジェンス技術に関する研究開発に従事。 情報処理学会会員

この記事は、2009年7月発行のテクニカルニュースの内容を元に構成しています(数値、組織・役職名などは当時のものです)。

このページのトップへ

PDFとは主に印刷を目的とした形式のファイルです。PDFファイルを開くためにはAcrobatReader(無料)が必要となります。
右のアイコンからAdobeのホームページへ行き、ダウンロードしてください。(別ウィンドウで開きます)
Get Adobe Reader

技術 technology

  • 人
  • 技術
  • サポート(支える力)
  • Power of US トップ

Power of US ひとつ上のビジネスを、創る力。

このページのトップへ
Copyright