ニュースリリース

自然言語処理機能の搭載で検索性能を向上した
XMLデータベース TX1 V2の発売について
~コンテンツ管理システムやデータ統合システムに適した
XMLデータベースとして販売開始~


2006年11月28日 東芝ソリューション株式会社

 

 東芝ソリューション株式会社(本社:東京都港区、取締役社長:梶川茂司)は、自然言語処理機能の搭載で検索性能(精度と速度)を向上し、さらにRDBやNotesなど様々な形式のデータをXML形式に変換し登録する機能を搭載した、XMLデータベース TX1の新バージョンV2を商品化しました。本商品をコンテンツ管理システムやデータ統合システムに向けて本日から販売開始します。


 柔軟なデータ構造を持つXMLは、電子取引などインターネット上での様々なデータ交換システムに適用されるだけでなく、新しい分野に適用の幅を広げています。ひとつは、ドキュメントや電子メールといった非定型データをXML形式で表現し管理する「コンテンツ管理システム」です。もうひとつは、システムごとにRDBやNotesなどで個別に運用されているデータをXML形式に変換し、システムをまたがった一元的な検索や分析を可能にする「データ統合システム」です。これらのシステムのデータベースとして、XMLの持つ柔軟性をそのまま活かせるXMLデータベースが注目されています。


 これらのシステムをXMLデータベースで構築する場合、「大量のデータでも高速に検索できること」、「必要な時に必要なデータを素早く見つけ出す検索手段を備えていること」、「さまざまな形式のデータでもXMLデータとして扱えること」などの要件がXMLデータベースには求められます。


 今回商品化するTX1V2は、テラバイト級の大容量データでも高速に検索できる従来からの特長に加え、コンテンツ管理システムやデータ統合システムに適した2つの機能を新たに搭載したものです。1つめは、単語の意味に着目した検索で、探したいデータのより素早い抽出を可能にする「自然言語処理機能」です。2つめは、RDBやNotesなど様々な形式のデータをXML形式に変換しTX1に登録する「データ連携機能」です。それぞれの機能の具体的な特長は次のとおりです。



<自然言語処理機能>
 形態素解析方式(*1) の検索が行える自然言語処理機能を搭載しました。本機能は、当社ナレッジマネジメント支援システム「KnowledgeMeister」にも搭載するなど、当社が長年培ってきた高度な日本語処理技術を基に開発したものです。形態素解析方式の検索が行える自然言語処理機能を搭載することで、これまでのNグラム方式(*2) の検索に加えて、単語の意味に着目した検索が可能となりました。Nグラム方式と形態素解析方式を型番や本文といったXMLのタグ単位で使い分けられるため、データに合った検索設定で、探したいデータを素早く抽出できます。

 「東京都港区」というデータの場合、「東京/京都/都港/港区」という単位で索引化するNグラム方式では、「京都」で検索した場合でも検索結果に含まれてしまいますが、形態素解析方式では、「東京/都/港/区」と単語に意味を持つ単位で索引化するので、「京都」で検索した場合では検索結果に含まれません。一方、型番など英数字列のデータの場合、一致型で漏れのない検索ができるNグラム方式が適しています。また、形態素解析方式は、「バージョン管理」などの長い単語をキーワードとして検索する場合、「バージョン/管理」という単位で索引化するため、Nグラム方式より速く検索でき(*3) 、かつ、索引サイズもNグラム方式より小さくできます(*4)

 このように、型番などの英数字列はNグラム方式、長い文章からなる本文などは形態素解析方式、と使い分けることで探したいデータを素早く抽出できます。(図1



<データ連携機能>
 RDB、Notesなど企業内の様々な形式のデータをXML形式に変換しTX1に登録する、データ連携機能を新たに搭載しました。元データからXML形式へのデータ変換方法を指定して実行するだけで、TX1へ容易にXMLデータとして登録することができます。
 TX1を活用すれば、既存システムはそのまま運用しながら、複数システムに分散したデータを一元管理するデータ統合システムを最適に構築できます。たとえば、販売情報、問合せ情報、保守情報が別々のシステムで運用されている場合、あるユーザに関する情報をすべて集めるには、それぞれのシステムのデータを個別に検索する必要がありましたが、TX1を活用してデータ統合システムを構築することで、システムを横断した検索や分析を素早く行うことができます。(図2

 
(*1)形態素解析方式:意味のある単語で索引となる文字列を切り出す方式
(*2)Nグラム方式:隣接する文字列で索引となる文字列を切り出す方式
(*3)当社実測において、「バージョン管理」で検索した場合、約50%速く検索
(*4)当社実測において、特許データ100万件を登録した場合、約55%縮小

 
・TX1、KnowledgeMeisterは東芝ソリューション株式会社の登録商標です。
・NotesはIBM Corporationの商標です。
・本文中の製品名称はそれぞれ各社が商標として使用している場合があります。
 

使い分け例のイメージ
図1.Nグラム方式と形態素解析方式のXMLの要素単位での使い分けの例



データ統合システムのイメージ
図2.データ連携機能を活用したデータ統合システムの例
 


ニュースリリースに掲載されている情報(価格/仕様、サービスの内容及びお問い合わせ先など)は、発表日現在の情報です。予告なしに変更されることがありますので、あらかじめご了承ください。