Synthesis de voz china - Enciclopedia

La síntesis de voz china es la aplicación de la síntesis de voz al idioma chino (generalmente el chino mandarín). Impone dificultades adicionales debido a que los caracteres chinos a menudo tienen pronunciaciones diferentes en diferentes contextos y una prosodia compleja, que es esencial para transmitir el significado de las palabras, y a veces también por la dificultad de obtener el acuerdo entre hablantes nativos sobre cuál es la pronunciación correcta de ciertos fonemas.

Concatenación (Ekho y KeyTip)
Las grabaciones pueden concatenarse en cualquier combinación deseada, pero las uniones suenan forzadas (como es habitual en la síntesis de voz basada en concatenación simple) y esto puede afectar gravemente la prosodia; estos sintetizadores también son inflexibles en términos de velocidad y expresión. Sin embargo, dado que estos sintetizadores no dependen de un corpus, no hay una degradación notable en el rendimiento cuando se les proporcionan frases más inusuales o incómodas.

Ekho es un TTS de código abierto que simplemente concatena sílabas de muestra. Actualmente admite cantonés, mandarín y experimentalmente coreano. Algunas sílabas de mandarín han sido normalizadas en tono con Praat. Una versión modificada de estas se utiliza en "síntesis desde parciales" de Gradint. cjkware.com solía enviar un producto llamado KeyTip Putonghua Reader que funcionaba de manera similar; contenía 120 megabytes de grabaciones de sonido (compresión GSM a 40 megabytes en la versión de evaluación), compuestas por 10,000 palabras diccionario de sílabas múltiples más grabaciones de sílabas simples en 6 diferentes prosodias (4 tonos, tono neutro y una grabación adicional de tono tercero para uso al final de una frase).

Sintetizadores ligeros (eSpeak y Yuet)
El proyecto de voz ligero eSpeak, de código abierto, que tiene su propio enfoque de síntesis, ha experimentado con mandarín y cantonés. eSpeak fue utilizado por Google Translate desde mayo de 2010 hasta diciembre de 2010.

El producto comercial "Yuet" también es ligero (está destinado a ser adecuado para entornos de recursos limitados como sistemas embebidos); fue escrito desde cero en ANSI C a partir de 2013. Yuet afirma poseer un modelo de LP no basado en un diccionario; la voz sintetizada por el motor asegura claras fronteras de palabra y énfasis en palabras adecuadas. Se requiere comunicación con su autor para obtener una copia.

Tanto eSpeak como Yuet pueden sintetizar voz para cantonés y mandarín a partir del mismo texto de entrada y pueden generar la romanización correspondiente (para cantonés, Yuet utiliza Yale y eSpeak utiliza Jyutping; ambos utilizan Pinyin para el mandarín). eSpeak no se preocupa por las fronteras de palabra cuando esto no cambia la cuestión de qué sílaba debe pronunciarse.

Basado en corpus
Un enfoque "basado en corpus" puede sonar muy natural en la mayoría de los casos, pero puede errar en el manejo de frases inusuales si no pueden coincidir con el corpus. El motor de sintetización típicamente es muy grande (cientos o incluso miles de megabytes) debido al tamaño del corpus.

= iFlyTek =
La empresa Anhui USTC iFlyTek Co., Ltd (iFlyTek) publicó un documento W3C en el que adaptaron el lenguaje de markup de síntesis de voz para producir un lenguaje de markup llamado Chinese Speech Synthesis Markup Language (CSSML), que puede incluir markup adicional para aclarar la pronunciación de los caracteres y agregar alguna información prosódica. La cantidad de datos involucrados no es divulgada por iFlyTek, pero puede verse en los productos comerciales para los que iFlyTek ha licenciado su tecnología; por ejemplo, Bider's SpeechPlus es una descarga de 1.3 gigabytes, 1.2 gigabytes de los cuales se utilizan para los datos altamente comprimidos de una única voz china. El sintetizador de iFlyTek también puede sintetizar texto mixto chino e inglés con la misma voz (por ejemplo, oraciones chinas que contienen algunas palabras en inglés); afirman que su síntesis en inglés es "promedio".

El corpus de iFlyTek parece depender fuertemente de los caracteres chinos, y no es posible sintetizar únicamente a partir de pinyin. A veces, mediante CSSML, es posible agregar pinyin a los caracteres para desambiguar entre múltiples pronunciaciones posibles, pero esto no siempre funciona.

= NeoSpeech =
Hay una demostración interactiva en línea para la síntesis de voz NeoSpeech, que acepta caracteres chinos y también pinyin si está encerrado en su markup propietario "VTML".

= Mac OS =
Mac OS tenía sintetizadores de voz chinos disponibles hasta la versión 9. Esto se eliminó en 10.0 y se restauró en 10.7 (Lion).

= Sintetizadores basados en corpus históricos (ya no disponibles) =
La Universidad de Tsinghua tomó un enfoque basado en corpus con SinoSonic, con datos de voz del dialecto de Harbin que ocupaban 800 megabytes. Se planeó ofrecerlo como una descarga, pero el enlace nunca se activó. Hoy en día, solo se pueden encontrar referencias a él en Internet Archive.

El enfoque de Bell Labs, que se demostró en línea en 1997 pero posteriormente se eliminó, se describe en un monógrafo "Text-to-Speech Synthesis: The Bell Labs Approach" (Springer, 31 de octubre de 1997, ISBN 978-0-7923-8027-6), y la antigua empleada responsable del proyecto, Chilin Shih (quien luego trabajó en la Universidad de Illinois), publicó algunas notas sobre sus métodos en su sitio web.

Referencias