自然言語処理の歴史 - 百科事典
自然言語処理の歴史は、自然言語処理の進歩を描いています。機械翻訳の歴史、音声認識の歴史、人工知能の歴史とのある程度の重複があります。
早期の歴史
機械翻訳の歴史は17世紀に遡り、ライプニッツやデカルトなどの哲学者が言語間の単語を関連付けるコードの提案を行いました。これらの提案はすべて理論的であり、実際の機械の開発に繋がりませんでした。
1930年代半ばに「翻訳機」の初めての特許が申請されました。その中で、ジョルジュ・アールスルニの提案は単なる自動的な双言辞語辞典で、紙テープを使用していました。もう一方の提案は、ロシア人のピョートル・トロイャンスキーによるもので、より詳細でした。トロイャンスキーの提案には、双言辞語辞典だけでなく、エスペラントに基づく言語間の文法的役割を処理する方法も含まれていました。
逻辑期
1950年、アラン・チューリングは有名な論文「計算機と知能」を発表し、現代で言うチューリングテストを知能の基準として提案しました。この基準は、コンピュータプログラムが人間の判断者とのリアルタイムの書き込み会話で人間を模倣できる能力に依存しており、判断者が会話内容だけに基づいてプログラムと実際の人間を確実に区別できないほどであることが条件です。
1957年、ノアム・チョムスキーの「統合構造」は、統合文法を基にした「普遍的文法」として言語学を革新しました。
1954年のジョージタウン実験では、60以上のロシア語の文を英語に完全自動翻訳しました。著者たちは、3年から5年以内に機械翻訳が解決される問題であると主張しました。しかし、実際の進歩は非常に遅く、1966年のALPAC報告書が発表され、10年間の研究が期待に沿わない結果となった後、機械翻訳に対する資金は劇的に減少しました。1980年代後半まで、機械翻訳の研究はほとんど行われませんでしたが、その後初めて統計的機械翻訳システムが開発されました。
1960年代には、SHRDLUという制約された「ブロック世界」で制約された語彙を使用する自然言語システムが特に成功しました。
1969年、ロジャー・シャンクは自然言語理解のための概念依存理論を提案しました。このモデルは、シドニー・ランブの研究に部分的に影響を受けており、シャンクの学生たち、例えばロバート・ウィレンスキー、ウェンディ・レハート、ジャネット・コロドナーらによって広く使用されました。
1970年、ウィリアム・A・ウッズは自然言語入力を表現するための拡張トランジションネットワーク(ATN)を提案しました。ATNは、フレーズ構造規則ではなく、再帰的に呼び出される有限状態自動機の等価セットを使用していました。ATNとそのより一般的な形式「一般化ATN」は、数年間使用されました。1970年代には、多くのプログラマーが「概念的オントロジー」を書き始め、現実世界の情報をコンピュータが理解できるデータに構造化しました。例として、MARGIE(Schank、1975)、SAM(Cullingford、1978)、PAM(Wilensky、1978)、TaleSpin(Meehan、1976)、QUALM(Lehnert、1977)、Politics(Carbonell、1979)、Plot Units(Lehnert 1981)などがあります。この時期には、PARRY、Racter、Jabberwackyなどの多くのチャットボットが書かれました。
统計期
1980年代まで、ほとんどのNLPシステムは手書きの複雑なルールに基づいていました。しかし、1980年代後半から、機械学習アルゴリズムの導入によりNLPに革命が起きました。これは、ムーアの法則による計算能力の安定した増加と、言語学のチョムスキー理論(例えば、変形文法)の支配的な地位の徐々に減少によるものであり、その理論的な基盤は、機械学習の言語処理アプローチに基づくコーパス言語学を後押ししませんでした。最初に使用されたいくつかの機械学習アルゴリズム、例えば決定木は、既存の手書きルールに似たハードなif-thenルールのシステムを生成しました。しかし、次第に研究は統計モデルに焦点を当て、入力データの特徴に実際の値を割り当てることで、柔軟な確率論的な決定を行うことに集中しました。現在の多くの音声認識システムが依存しているキャッシュ言語モデルは、このような統計モデルの例です。このようなモデルは、未知の入力に対して一般的により堅牢であり、特にエラーが多く含まれる現実世界のデータに対してより信頼性の高い結果を生成します。
= データセット =
統計的アプローチの出現は、計算能力の増加と大量のデータセットの利用の両方により助けられました。その時、大規模な多言語コーパスが始めて現れ始めました。特に、カナダ議会や欧州連合が政府のすべての会議を対応する政府システムのすべての公式言語に翻訳する法律に基づいて作成されたものが注目されます。
初期の多くの成功例は機械翻訳の分野に集中しました。1993年には、IBMのアライメントモデルが統計的機械翻訳に使用されました。これらのシステムは、計算言語学者が手作業でコード化したシンボリックシステムとは異なり、統計的であり、大規模なテキストコーパスから自動的に学習することができます。しかし、小規模のコーパスがある場合には効果が悪いため、データ効率の高い方法は研究開発の分野に続いています。
2001年には、インターネットからスクレイピングされた10億語の大規模テキストコーパスが、当時「非常に非常に大きい」と呼ばれていたもので、単語の意味決定に使用されました。
大量の未ラベル化データセットを利用するために、無監督学習と自己監督学習のためのアルゴリズムが開発されました。このタスクは監督学習よりもはるかに難しく、与えられた入力データに対して一般的に少ない精度の結果を生成します。しかし、非ラベル化データが非常に多く(世界広域網の全てのコンテンツを含む)利用可能であり、しばしば劣る結果を補うことができます。
神経期
神経言語モデルは1990年代に開発されました。1990年には、エルマンネットが再帰性ニューラルネットワークを使用して、トレーニングセットの各単語を単語埋め込みと呼ばれるベクトルとしてエンコードし、全体の語彙をベクトルデータベースとして整備することで、シンプルな多層感知器の能力を超えるようなシークエンス予測のようなタスクを遂行できるようになりました。静的な埋め込みの欠点は、同音異義語の複数の意味を区別できないことでした。
Yoshua Bengioは2000年に最初の神経確率論的言語モデルを開発しました。
近年、深い学習と大規模言語モデルの進歩により、自然言語処理の能力が大幅に向上し、医療、顧客サービス、コンテンツ生成などの分野で広く応用されています。
ソフトウェア
参考文献
参考文献リスト
Crevier, Daniel (1993). AI: The Tumultuous Search for Artificial Intelligence. New York, NY: BasicBooks. ISBN 0-465-02997-3.
McCorduck, Pamela (2004), Machines Who Think (2nd ed.), Natick, MA: A. K. Peters, Ltd., ISBN 978-1-56881-205-2, OCLC 52197627.
Russell, Stuart J.; Norvig, Peter (2003), Artificial Intelligence: A Modern Approach (2nd ed.), Upper Saddle River, New Jersey: Prentice Hall, ISBN 0-13-790395-2.