東芝デジタルソリューションズ株式会社 本文へジャンプ

ヘルプ 別ウィンドウで開きます

Power of US ひとつ上のビジネスを、創る力。

技術 technology

  • 人
  • 技術
  • サポート(支える力)
  • Power of US トップ

大量の情報を見える化し,価値ある知識を発見する文書分類技術

 技術情報や品質情報などといった企業内外に蓄積された大量の情報(文書群)を,技術戦略の立案や製品品質向上などに向けて,より効果的に活用するニーズが高まっています。このニーズに応えるためには,文書群を分類し整理することが不可欠です。しかし分類作業は,文書の内容を理解したうえで,活用の目的に合わせて分類構造を決めて分類したり,日々増加する文書に対応して,継続的に分類構造をメンテナンスしたりするなど,膨大な時間や手間がかかる作業でした。
 そこで当社では,システムによる全自動の分類とユーザによる活用の目的に応じた分類とを融合させた,「対話型文書分類技術」を研究開発しています。本技術を用いることで,効率的かつ効果的な分類作業が実現できます。
 本技術は,情報活用の基盤としてご提供している,KnowledgeMeister Succeed®をはじめ,当社のソリューションに順次搭載しています。

Key Person 2010年5月28日

1.文書分類のニーズと課題

 近年,企業内外で蓄積された文書群を,有効に活用したいというニーズが高まっています。例えば,「自社や他社の特許情報から,注力技術の動向を把握して技術戦略を立案したい」,「クレーム情報を,製品の不具合の原因ごとに整理して事例集を作成し,製品品質を向上させたい」,「多様なお客様の声の情報から,新たなニーズを発見し,新商品の企画に活用したい」などがあげられます。
 このようなニーズに応えるためには,文書群をあらかじめ分類し,整理しておくことが必要です。しかし,ときに数千から数万件にもおよぶ大量の文書をすべて人手で分類するのは多くの労力がかかります。また,苦労して分類をやり終えたとしても,日々増加する文書に対応させて分類構造を継続的にメンテナンスしていくのは,例え専任の担当者を置いたとしても容易なことではありません。
 これらの課題に対応するために,文書を活用する各担当者が,自らの目的に応じた分類構造を効率的に構築できることが求められています。

このページのトップへ

2.東芝ソリューションが提案する対話型文書分類技術

 以上を背景として当社では,システムによる全自動の分類とユーザによる活用の目的に応じた分類とを融合させた,「対話型文書分類技術(以下,本技術と記載)」を研究開発し ています。本技術は,以下のような特長を持っています(図1)。

図1 対話型文書分類技術の特長 図1 対話型文書分類技術の特長
本技術を用いることで,ユーザは文書群の全体像把握や分類構造の編集・再分類・分析を,手軽に行うことができます。

(1)システムによる全自動分類

 文書の内容の類似性など,いくつかの評価基準に基づいて,事前の設定をすることなく全自動で分類構造を生成し,文書群を分類します。これにより,大量の文書群の内容の傾向がわかり,全体像を容易に把握できます。なお,生成された分類構造の各カテゴリにどのような文書が入っているのかを示すために,カテゴリ内の文書群に頻繁に用いられながら,ほかのカテゴリにはあまり登場しない単語や文章を,特徴語や代表文としてユーザに提示することができます。このことにより,分類結果に対する,ユーザの理解を助けることが可能となります。

(2)ユーザによる分類構造の編集

 (1)の自動分類で生成された分類構造は,目的に応じてユーザが自由に編集可能です。例えば,自動分類では生成されなかったカテゴリを新たに追加したり,複数のカテゴリを統合させたりすることもできます。これにより,全自動分類で生成された分類構造を,活用の目的に応じて容易に洗練させることができます。

(3)編集結果を反映した再分類

 システムによる自動分類やユーザによる編集などにより作成した分類構造に対して,新たな文書群を追加し,分類することができます。この際,これまでに無かった内容の文書など,既存の分類構造に収まらない文書に対してはカテゴリが自動で追加されますので,新たに文書群に生じた傾向を発見することも可能となります。

(4)分類結果を基にした分析

 分類構造から任意に分析軸を選択してチャートを作成することができます。このことにより,文書群の内容だけでなく,時系列や人名,企業名ごとなど,多様な観点での傾向や特徴を把握することができ,分析を深めることができます。

 以上の文書分類技術を利用することで,分類構造の生成と分類を全自動で行い,活用の目的に合わせた分類構造に容易に編集することができます。更に編集した分類構造を利用して追加の文書群を自動分類するといった,一連の分類作業を効率的に行うことが可能です。

 クレーム情報を元にした,本技術の活用例を以下に示します(図2)。
 クレーム情報を活用する目的として,「どんな内容のクレームがあるのか」,「時期や製品別などで,どんな傾向があるのか」といった全体傾向を把握し,製品品質の向上や,対応業務の効率化などに役立てることがあげられます。
 この目的に対し,まず大量のクレーム情報を全自動分類により分類させることで,全体傾向を容易に把握することができるようになります。また,自動で生成された分類構造を更に洗練させたい場合には,ユーザが目的に合わせて容易に編集することも可能です。

図2 クレーム情報での活用例 図2 クレーム情報での活用例
ユーザは大量のクレーム情報を手早く把握,整理し,製品品質の向上や,顧客対応の効率化に活かすことができるようになります。

このページのトップへ

3.効率的かつ効果的なテキスト情報の分類,分析を支援するソリューション

 この「対話型文書分類技術」は,情報活用の基盤である,KnowledgeMeister Succeedへ順次搭載し,様々な業務で蓄積される情報の,効率的かつ効果的な分類,分析を支援するソリューションとしてご提供しています。更に,コールセンターの応対情報や,製品の品質情報などの活用を目的とした各種ソリューションへの搭載も進めています。

4.今後の取り組み

 当社では,本稿でご紹介した文書分類技術をはじめとする,日本語処理技術やXML技術などの情報活用に関するコア技術を,「情報知識利活用基盤」として体系化する活動を進めています。そしてこれらのコア技術についても,お客様へご提供するソリューションへ順次組み込み、その付加価値をより一層高めていきたいと考えています。

  • 【特許】
    本稿に記載の製品は,特許出願中の技術を使用しています。

平 博司

平 博司 Taira Hiroshi
IT技術研究所
研究開発部 ビジネスインテリジェンスラボラトリー 主任

文書分類技術の研究開発に従事。
情報処理学会会員,人工知能学会会員

渡邉 茂樹

渡邉 茂樹 Watanabe Shigeki
プラットフォームソリューション事業部
ビジネス基盤ソリューション部
ビジネス基盤ソリューション第二担当 主任

情報活用基盤ソリューションのビジネス企画とサービス提供に従事。

松本 茂

松本 茂 Matsumoto Shigeru
IT技術研究所
研究開発部 ビジネスインテリジェンスラボラトリー 参事

文書分類技術を含む,情報・知識利活用技術の研究開発に従事。

この記事は、2009年7月発行のテクニカルニュースの内容を元に構成しています(数値、組織・役職名などは当時のものです)。

このページのトップへ

技術 technology

  • 人
  • 技術
  • サポート(支える力)
  • Power of US トップ

Power of US ひとつ上のビジネスを、創る力。

このページのトップへ
Copyright