本文へジャンプ

ニュースリリース

特許庁から受注した機械翻訳システムの稼動開始について ~ NICTが開発した最新のニューラル機械翻訳エンジンの採用により、正確で自然な翻訳を実現 ~

2019年5月31日

東芝デジタルソリューションズ株式会社

マークの付いたリンクは別ウィンドウで開きます

 東芝デジタルソリューションズ株式会社(以下、当社)が2018年4月に特許庁から受注した「機械翻訳システム」の日英翻訳機能が、当初の計画通り、5月から特許庁にて稼動開始しました。今後は、中日翻訳機能・韓日翻訳機能のリリース(2020年4月予定)に向けて、開発を進めていきます。

 特許戦略のグローバル化に伴い、特許文献を翻訳する頻度・件数は急増しています。しかし、従来の人手による翻訳作業では、時間がかかる、コストが高い、大量の翻訳が難しいなどの課題がありました。これらの課題を解決する手段として、機械翻訳の活用が進んでいますが、従来のルールベース機械翻訳エンジン注1(RBMT)や統計的機械翻訳エンジン注2(SMT)では、正確さや自然さに欠けるなどの問題がありました。近年になり、人工知能(AI)を活用したニューラル機械翻訳エンジン注3(NMT)の登場で、翻訳品質は格段に向上しましたが、原文のパターンによっては誤訳(訳抜け、湧き出し注4等)が生じやすいなどの欠点が指摘されています。
 また特許文献は、内容が長文で記載される明細書部分・請求項部分と、句から構成される「発明の名称」「出願番号」「出願人」の定型部分が同一文書内に含まれ、明細書部分・請求項部分にはNMTが適している一方、定型部分はRBMTやSMTが適するなど翻訳エンジンの向き・不向きが混在しているという課題がありました。

 今回稼動開始した「機械翻訳システム」は、当社が長年培ってきた自然言語処理技術に、国立研究開発法人情報通信研究機構(以下、NICT)先進的音声翻訳研究開発推進センターが開発した最新のNMTを組み合わせることにより、従来の機械翻訳では難しかった正確で自然な機械翻訳を提供しています。当社の自然言語処理技術で、特許文献の明細書部分・請求項部分や定型部分を自動で切り分け、NMT、RBMT、SMTに適宜振り分けます。加えて、NMTの弱点とされる誤訳が生じにくいように入力文を整形する処理技術を実装します。これらにより、NMTの翻訳性能を最大限に活かした翻訳を実現しました。さらに、日本マイクロソフト株式会社(以下、マイクロソフト)のクラウドプラットフォームMicrosoft Azureを採用することで大量の特許文献に対して高速の翻訳処理を可能にしました。

 当社は今後も、NICTおよびマイクロソフトと連携し、高品質の機械翻訳ソリューションの開発・改良を続け、グローバル化の進展に伴い高まる、企業、研究機関・官公庁の翻訳ニーズに応えるソリューションを提供していきます。

このページのトップへ

国内公報(明細書)の日英翻訳例 

青字…NMT訳、赤字…SMT訳、黒字…RBMT・固定訳)

原文(特開2015-220468)
  • 【書類名】明細書
  • 【発明の名称】音声エコー除去システムおよびプログラム
  • 【技術分野】
    【0001】
    本発明の実施形態は、音声エコー除去システムおよびプログラムに関する。
  • 【背景技術】
    【0002】
    例えば、携帯電話や固定電話のハンズ・フリー機能や、インターネットによるWeb会議システムで使われているスピーカとマイクロホンを利用した双方向通信では、ユーザは、自分がマイクに向けて発声した音声が、少し遅れてスピーカからエコーのように聞こえる場合がある。このような現象は、音声エコーまたは音響エコーと呼ばれている。
翻訳結果(2019年5月 機械翻訳システム)
  • [Document Name]Description
  • [Title of the invention]The audio echo cancellation system and program
  • [Technical field]
    [0001]
    Embodiments of the present invention relate to audio echo cancellation systems and programs.
  • [Background of the invention]
    [0002]
    For example, in a hands-free function of a mobile telephone or a fixed telephone, or a bidirectional communication using a speaker and a microphone used in a web conference system via the Internet, a user may hear a sound uttered by himself / herself toward a microphone as an echo from a speaker with a slight delay.Such a phenomenon is called an audio echo or an acoustic echo.

【上記翻訳結果の解説】

  • 当社のアプリケーションで、明細書部分、発明の名称、定型部分を自動で切り分け、NMT、SMT 、RBMTに適宜振り分けています。
  • NMTが、長文で記載される明細書部分を担当し、正確で自然な翻訳を行っています。
  • SMTとRBMTが、句から構成される発明の名称部分や定型表現である「【技術分野】」などを担当し、適切な翻訳を行っています。

このページのトップへ

特許庁「機械翻訳システム」の主な特長

<2019年5月リリース完了>
  • 書類・日本特許公報の翻訳機能:日本語→英語
    主な用途:海外庁審査官が日本での審査結果を参照する際や、日本の出願人が海外庁への特許出願時に必要な提出書類を翻訳する際に利用
<2020年4月リリース予定>
  • 中国特許公報、韓国特許公報翻訳機能:中国語→日本語、韓国語→日本語
    主な用途:日本の審査官や、国内企業、研究機関が中国・韓国で出願された特許を検索、内容を把握するために利用
  • NMTによる正確で自然な機械翻訳を実現
  • 特許文献の内容に応じて翻訳エンジン(NMT、RBMT、SMT)を切り替え
  • 入力文の整形処理によりNMT特有の誤訳を改善

このページのトップへ

  • 注1 ルールベース機械翻訳 Rule Based Machine Translation(RBMT):辞書・文法知識に基づく機械翻訳
  • 注2 統計的機械翻訳 Statistical Machine Translation(SMT):対訳コーパスの統計情報に基づく機械翻訳
  • 注3 ニューラル機械翻訳 Neural Machine Translation(NMT):深層学習(ディープラーニング)技術を用いた機械翻訳
  • 注4 訳抜け:原文にある情報が、翻訳結果から抜け落ちる現象
    湧き出し:原文に無関係な用語が、翻訳結果に出現する現象

関連情報

  • 2019年4月25日 特許庁総務部総務課情報技術統括室
    特許情報プラットフォーム(J-PlatPat)の刷新について
    https://www.jpo.go.jp/support/j_platpat/sassin_190425.html
    ※改善される主な機能として記載された項目のうち、以下が今回の「機械翻訳システム」に該当します。
     ●日英機械翻訳の改善
  • 2018年7月30日 東芝デジタルソリューションズ株式会社 プレスリリース
    特許庁からの機械翻訳システムの受注について
    ~ NICTが開発した最新のニューラル機械翻訳エンジンの採用により、正確で自然な翻訳を実現 ~
    https://www.toshiba-sol.co.jp/news/detail/20180710.htm
  • 2018年7月30日 国立研究開発法人情報通信研究機構 プレスリリース
    特許庁“次期機械翻訳サービス”の中核技術としてNICTの技術が採用
    https://www.nict.go.jp/press/2018/07/10-1.html
  • 2018年7月30日 日本マイクロソフト株式会社 マイクロソフト公式ブログ
    特許庁の機械翻訳システムに、Microsoft Azure が基盤として採用 http://aka.ms/toshibad2018
  • * Microsoft、Azure は、米国 Microsoft Corporation の米国およびその他の国における登録商標または商標です。
  • * その他、記載されている会社名、製品名は、各社の登録商標または商標です。

以上