統計的セマantics - 百科事典
言語学では、統計的セマanticsは統計手法を、単語やフレーズの意味を決定する問題に適用し、理想的には無监督学習を通じて、情報検索のために十分な精度で使用されます。
歴史
統計的セマanticsという用語は、最初にウォレン・ウィーバーがマシン翻訳に関する有名な論文で使用しました。彼は、マシン翻訳のためのワードセンス分離が、与えられたターゲット単語近くにあるコンテキスト単語の共出現頻度に基づくべきだと主張しました。これに対する基本的な仮定「単語はその周囲にいる言葉によって特徴付けられる」とはJ.R.フィースが提唱しました。この仮定は言語学では分布仮説として知られています。エミール・デルアベーヌは統計的セマanticsを「単語の意味、その頻度および再発の順序の統計的研究」と定義しました。「フーナスら1983年」は統計的セマanticsへの基盤となる貢献としてよく引用されます。この分野における初期の成功例は潜在セマantic分析です。
応用
統計的セマanticsの研究は、大規模なコーパスに対して統計手法を適用することで、分布仮説を用いて多くのセマanticの側面を発見する多くのアルゴリズムを生み出しました:
単語の意味の相似性を測定
単語の関係の相似性を測定
相似性に基づく一般化のモデル化
特定の関係を持つ単語の発見
単語間の関係の分類
文書からキーワードの抽出
テキストのまとまりを測定
単語の異なる意味の発見
単語の異なる意味を区別
単語の下位認知面
褒めと批判の区別
関連分野
統計的セマanticsは、テキストマイニングが全体の文書、文書のコレクション、または名前のつけられたエンティティ(人名、地名、組織名)に焦点を当てるのとは異なり、一般的な単語の意味や一般的な単語の関係に焦点を当てています。統計的セマanticsは計算的セマanticsの一部であり、その一方で計算的言語学および自然言語処理の一部です。
上記に示された多くの統計的セマanticsの応用は、統計的セマanticsのコーパスに基づいたアルゴリズムではなく、リキクソンに基づいたアルゴリズムで対応することもできます。コーパスに基づいたアルゴリズムの利点の一つは、リキクソンに基づいたアルゴリズムよりも一般的に労働集約的でないことです。もう一つの利点は、新しい言語や例えばソーシャルメディアからのノイズのある新しいテキストタイプにリキクソンに基づいたアルゴリズムよりも簡単に適用できることです。しかし、特定のアプリケーションにおける最高のパフォーマンスは、この二つのアプローチを組み合わせることで達成されることが多いです。
参照
(以下省略)