Googleニューラルマシン翻訳 - 百科事典

Google Neural Machine Translation (GNMT)は、Googleが開発した神経機械翻訳(NMT)システムで、2016年11月に発表されました。人工神経網を使ってGoogle Translateの翻訳の流暢さと正確性を向上させました。神経網は、エンコーダとデコーダの2つの主要なブロックで構成されており、それぞれが8層の1024ワイドのLSTMアーキテクチャを持ち、それらを接続するシンプルな1層の1024ワイドの前向きアテンションメカニズムが用意されています。パラメータの合計数は、1600万を超える、約2100万、2700万、または3800万とさまざまに報告されています。WordPieceトークナイザーとビームサーチデコード戦略を使用し、Tensor Processing Unitsで動作しました。

2020年までに、TransformerエンコーダとRNNデコーダに基づく別の深層学習システムに置き換えられました。

GNMTは、数百万の言語翻訳の例から学習するベースド・オン・エクサンプル(EBMT)の機械翻訳方法を適用して、翻訳の品質を向上させました。GNMTの提案されたシステム学習のアーキテクチャは、まずGoogle Translateがサポートする100以上の言語でテストされました。大規模なエンドツーエンドフレームワークにより、システムは時間とともにより良い、より自然な翻訳を作成するよう学習します。GNMTは、一つずつではなく、一括で文全体を翻訳しようと試みます。GNMTネットワークは、文の意味をエンコードすることで、フレーズからフレーズへの翻訳を記憶するのではなく、語間翻訳を行います。

歴史
Google Brainプロジェクトは、2011年にGoogle FellowのJeff Dean、Google研究者のGreg Corrado、そしてスタンフォード大学のコンピューターサイエンス教授のAndrew Ngによって「秘密のGoogle X研究ラボ」で設立されました。Ngの研究は、Googleとスタンフォードで最も大きな進歩の一つとなりました。

2016年11月に、Google Neural Machine Translationシステム(GNMT)が発表されました。それ以来、Google Translateは、2007年10月から使用してきた独自の内部統計的翻訳技術(SMT)ではなく、神経機械翻訳(NMT)を使用し始めました。

GNMTのトレーニングは当時大きな努力が必要であり、2018年のOpenAIの推定によると、約79ペタフロップデイ(または7e21 FLOPs)の計算が必要で、2014年のSeq2seqモデルよりも1.5オーダー大きく、2021年のGPT-J-6Bよりも約2倍小さいとされています。

Google TranslateのNMTシステムは、深層学習に対応する大きな人工神経網を使用しており、数百万の例を使用して翻訳の品質を向上させます。結果は、最も関連性の高い翻訳に基づいて再構成および適応され、文法的に基づく人間の言語に近づけられます。GNMTの提案されたシステム学習のアーキテクチャは、まずGoogle Translateがサポートする100以上の言語でテストされました。GNMTは独自のユニバーサルの語間言語を作成せず、心理学や言語学からの洞察を用いて多くの言語間の共通性を見つけることを目指しました。新しい翻訳エンジンは、2016年11月に英語とフランス語、ドイツ語、スペイン語、ポルトガル語、中国語、日本語、韓国語、トルコ語の双方に最初に有効化されました。2017年3月には、ロシア語、ヒンディー語、ベトナム語、タイ語(後にサポートが追加された)が追加されました。同じ月に、Google Translateコミュニティの協力により、ヘブライ語とアラビア語のサポートも追加されました。2017年4月中旬に、オランダ語と英語に関連する他のヨーロッパの言語のサポートがGoogle Netherlandsによって発表されました。さらに、2017年4月の終わりには、インドの9つの言語(ヒンディー語、ベンガル語、マラーティー語、ガンジー語、パンジャブ語、タミル語、テルグ語、マラヤラム語、カンナダ語)のサポートが追加されました。

2020年までに、Googleはトランスフォーマーに基づく別の神経ネットワークシステムを使用する方法に変更し、NMTを段階的に廃止しました。

評価
GNMTシステムは、前のGoogle Translateよりも「ゼロショット翻訳」を処理できるとされ、例えば、日本語-英語と韓国語-英語の翻訳に特化して訓練されたが、日本語-韓国語の翻訳も行えるとされています。システムは、言語に依存しない中間表現(「語間言語」)を生成することで、それを介して語間翻訳を行うことができます。Google Translateは以前、まず元の言語を英語に翻訳し、その後英語をターゲット言語に翻訳するのではなく、直接言語から言語への翻訳を行っていました。

2019年7月に「Annals of Internal Medicine」に発表された研究では、「Google Translateは、非英語の試験を翻訳するための有効で正確なツール」とされました。レビュアーが読んだ機械翻訳された試験の間で、翻訳エラーによる異議は1件のみでした。多くの医学研究は、レビュアーがその言語を理解していないため、系統的レビューから除外されますが、GNMTはそのようなレビューにおけるバイアスの削減と正確性の向上に有望です。

GNMTがサポートする言語
2021年12月現在、Google Translateがサポートするすべての言語がGNMTでサポートされています。ラテン語が最新の追加です。

参考資料
[省略]

外部リンク
[省略]