中国の音声合成 - 百科事典
中国語の音声合成は、中国語(主に標準中国語)への音声合成の適用です。中国語の文字が異なる文脈で異なる発音を持つことや、単語の意味を伝えるために必要な複雑な韻律が課題となっています。また、特定の音節の正しい発音についてネイティブスピーカーの間で一致が難しいこともあります。
結合(EkhoとKeyTip)
録音は任意の組み合わせで結合できますが、結合部分は無理そうに聞こえます(シンプルな結合に基づく音声合成の一般的なことです)。これにより韻律に悪影響を及ぼすことがあります。これらの合成器は、速度や表現の面でも柔軟性に欠けますが、コーパスに依存しないため、より珍しいまたは不自然なフレーズを与えるとパフォーマンスの低下は観察されません。
Ekhoは、オープンソースのTTSで、サンプルの音節を単純に結合します。現在、広東語、普通话、そして実験的に韓国語をサポートしています。普通话の一部の音節はPraatでピッチ正常化されています。これらの修正版はGradintの「部分合成」で使用されています。
cjkware.comは、KeyTip Putonghua Readerという製品を販売していました。それは同様に動作し、120メガバイトの音声録音(評価版ではGSM圧縮で40メガバイト)を含んでおり、10,000語の多音節辞書語と6つの異なる韻律(4つの調、中調、そして文末に使用する追加の第三調の録音)を含んでいました。
軽量合成器(eSpeakとYuet)
軽量のオープンソースの音声プロジェクトeSpeakは、独自の合成方法を持っており、普通话と広東語に実験しました。eSpeakは2010年5月から2010年12月までGoogle Translateで使用されました。
商業製品「Yuet」も軽量です(エンベッドシステムなどのリソース制約された環境に適しています)。2013年からANSI Cで書かれました。Yuetは、別の辞書が必要ない内蔵のNLPモデルを主張しており、エンジンで生成される音声は明確な単語の境界と適切な単語への強調を特徴としています。コピーを取得するには、作者との連絡が必要です。
eSpeakとYuetは、同じ入力テキストから広東語と普通话の音声を合成し、対応するローマ字転写を出力できます(広東語ではYuetがイェールを使用し、eSpeakが広東語の音節を使用し、普通话ではピンインを使用します)。eSpeakは、音節がどれが発音されるべきかの問題を変えない場合、単語の境界に関心を持ちません。
コーパスベース
「コーパスベース」のアプローチは、多くの場合自然に聞こえますが、コーパスに一致しない不寻常なフレーズに対して誤りを犯すことがあります。合成エンジンは、コーパスのサイズのために通常非常に大きくなります(数百メガバイトから数千メガバイトまで)。
= iFlyTek =
安徽大学科学技術研究所 iFlyTek株式会社(iFlyTek)は、W3Cのペーパーより中国語音声合成マークアップ言語(CSSML)を導入し、文字の発音を明確にするための追加のマークアップや一部の韻律情報を追加できるマークアップ言語を発表しました。iFlyTekが関与するデータの量は公表されていませんが、iFlyTekが技術をライセンス提供している商業製品から確認できます;例えば、BiderのSpeechPlusは1.3ギガバイトのダウンロードで、そのうち1.2ギガバイトは単一の中国語の声のための非常に圧縮されたデータを使用しています。iFlyTekの合成エンジンは、同じ声で中国語と英語のテキストを合成することもできます(例えば、一部の単語が英語の中国語の文に含まれる場合);彼らの英語の合成は「平均的」と主張しています。
iFlyTekのコーパスは中国語の文字に非常に依存しており、ピンインだけで合成することはできません。CSSMLを通じて、複数の可能性のある発音の間で区別するためにピンインを文字に追加することが時々可能ですが、これは必ずしも機能しません。
= NeoSpeech =
NeoSpeechの音声合成のためのオンラインインタラクティブデモがあり、中国語の文字を受け入れ、さらに「VTML」マークアップで囲まれたピンインも受け入れます。
= Mac OS =
Mac OSはバージョン9まで中国語の音声合成器が利用可能でした。これは10.0で削除され、10.7(ライオン)で再び復活しました。
= 歴史的なコーパスベースの合成器(現在利用不可) =
清華大学はSinoSonicでコーパスベースのアプローチを取りました。ハルビン方言の音声データは800メガバイトでした。これはダウンロードとして提供される予定でしたが、リンクがアクティブ化されませんでした。今では、インターネットアーカイブで参照のみが見つかります。
ベル研究所のアプローチは、1997年にオンラインでデモンストレーションされましたが、その後削除されました。1997年10月31日にSpringerから出版された「多言語テキストトースピーチ合成:ベル研究所のアプローチ」というモノグラフで説明されました。そのプロジェクトの責任者であった前従業員であるチリン・シェイ(その後イリノイ大学で働きました)は、彼のウェブサイトに方法についてのノートを投稿しました。
参考文献