UNIVERSIDAD POLITÉCNICA DE MADRID

ESCUELA TÉCNICA SUPERIOR DE INGENIEROS


DE TELECOMUNICACIÓN

 

 


TESIS DOCTORAL

 

Estrategias para la mejora de la naturalidad y la incorporación de variedad emocional a la conversión texto a voz en castellano

 

 

JUAN MANUEL MONTERO MARTÍNEZ

Ingeniero de Telecomunicación

 

 

Madrid, 2003

 


UNIVERSIDAD POLITÉCNICA DE MADRID

DEPARTAMENTO DE INGENIERÍA ELECTRÓNICA


ESCUELA TÉCNICA SUPERIOR DE INGENIEROS

DE TELECOMUNICACIÓN

 

TESIS DOCTORAL

Estrategias para la mejora de la naturalidad y la incorporación de variedad emocional a la conversión texto a voz en castellano

 

JUAN MANUEL MONTERO MARTÍNEZ

Ingeniero de Telecomunicación

 

Director de la Tesis

JOSÉ MANUEL PARDO MUÑOZ

Doctor Ingeniero de Telecomunicación

2003


Tesis Doctoral:   Estrategias para la mejora de la naturalidad y la incorporación de variedad emocional a la conversión texto a voz en castellano

Autor:                       JUAN MANUEL MONTERO MARTÍNEZ

Director:                 Dr. INGENIERO JOSÉ MANUEL PARDO MUÑOZ

 

 

 

El tribunal nombrado para juzgar la Tesis Doctoral arriba citada, compuesto por los doctores:

 

 

            PRESIDENTE:      Dr. Javier Ferreiros López

         VOCALES:              Dr. Eduardo Rodríguez Banga

                                               Dr. Emilia Victoria Enríquez Carrasco

                                               Dr. David Escudero Mancebo

            SECRETARIO:      Dr. Ricardo de Córdoba Herralde

acuerda otorgarle la calificación de

Sobresaliente cum Laude

 

 

Madrid,     14    de   Noviembre          de 2003

 

 

 

El Secretario del Tribunal



Agradecimientos

Al director de este trabajo, José Manuel Pardo, por todo el apoyo y la confianza que ha depositado en mí durante estos años, así como por ofrecerme la oportunidad de incorporarme al mundo de la investigación y de la docencia.

A todas las personas que han sido o son miembros del Grupo de Tecnología del Habla al que pertenezco, por su gran calidad profesional y personal: Javier Macías, Javier Ferreiros, José Colás, José David Romeral, Silvia Muñoz..., y muy especialmente a Ascensión Gallardo, a Rubén San Segundo y a Juana Gutiérrez-Arriola, y a los que han formado parte del grupo de síntesis en el que encuadra esta Tesis: Ricardo de Córdoba, José Ángel Vallejo, Mª Ángeles Romero, Emilia Enríquez y Francisco Giménez de los Galanes.

También quiero agradecer su colaboración a todos los alumnos a los cuales he dirigido su proyecto fin de carrera desde Sira hasta Jesús, pero especialmente a Gerardo Martínez Salas, Azucena Jiménez, Daniel Polanco, Rogelio Vargas, Julio Sánchez y Carlos Martín.

Gracias a Eduardo Jover, nuestro “emocionado” locutor, y a Johan Bertenstam y Kjell Gustafsson de KTH, que me ayudaron a dar mis primeros pasos en el mundo de la voz con emociones, y a Francisco Martínez-Sánchez y al personal de la empresa Natural Vox con los que tanto he colaborado.

Gracias, también, por su ayuda y apoyo al resto de miembros del Departamento de Ingeniería Electrónica, en especial a Ignacio Izpura, Fernando González Sanz, Mariano González Bédmar, y a todos los que colaboran en el buen funcionamiento de los laboratorios docentes.

A Juan Ramón, Fernando, Juan Ignacio, Rafa, Maria José, Mari Cruz..., a los que últimamente apenas he podido ver.

A Jesús Gomeza, a Maxi y compañía, porque sólo estamos lejos en la distancia.

A mis padres y a mi hermana y a toda mi familia paterna y materna, a Asen y a su familia, que llevan años aguantándome a pesar de tantas cosas...

A todos aquellos de los que el tiempo y las circunstancias me han alejado, aunque no definitivamente.


Resumen

En esta Tesis se abordan tres subproblemas relacionados con la variedad y la naturalidad en la conversión texto habla en castellano: el procesado lingüístico orientado a prosodia, el modelado de la frecuencia fundamental en un dominio restringido y el análisis, modelado y conversión texto a voz con emociones. El capítulo del estado de la cuestión recoge con detalle los principales progresos en cada módulo de un conversor. El primer apartado destacable está dedicado al análisis gramatical y sintáctico, cubriendo las técnicas de normalización del texto, los corpora anotados, las bases de datos léxicas disponibles en castellano, las técnicas de desambiguación contextual y de análisis sintáctico y los sistemas disponibles en castellano. En cuanto al modelado prosódico, se tratan los modelos empleados tanto para la frecuencia fundamental como el ritmo, las duraciones y el pausado, las principales escuelas de análisis de la curva de frecuencia fundamental y las técnicas avanzadas de diseño de las bases de datos. En el apartado dedicado a la voz emotiva se describen y comentan los principales sistemas internacionales desarrollados y las bases de datos disponibles. Como en general la síntesis por formantes ha dominado este campo, se describe esta técnica, para finalizar con una revisión de las alternativas de evaluación empleadas en síntesis de voz con emociones.

En el capítulo dedicado a las investigaciones en procesado lingüístico del texto se comienza describiendo en detalle los corpora empleado en la experimentación, tanto en normalización como en etiquetado. La técnica desarrollada en normalización emplea reglas de experto, con muy buenos resultados tanto en precisión como en cobertura, destacando el empleo de reglas de silabicación para la detección precisa de palabras extranjeras. Al afrontar la desambiguación gramatical, se comparan tres técnicas: reglas de experto, aprendizaje automático de reglas y modelado estocástico, obteniéndose los mejores resultados con esta última técnica,  debido a su capacidad de procesar más adecuadamente textos fuera del dominio de entrenamiento. Finalmente se aborda el análisis sintáctico por medio de gramática de contexto libre como un proceso en dos fases:, una primera sintagmática y una segunda relacional básica, a fin de maximizar la cobertura del análisis. Para la resolución de las ambigüedades que nos permiten alcanzar gran cobertura se adapta el principio de mínima longitud de descripción con notables resultados. Las gramáticas desarrolladas se encuentran comentadas y ejemplificadas en un apéndice.

Para el modelado de F0 en un dominio restringido se emplean perceptrones multicapa. En una primera etapa se describe y evalúa una nueva técnica de diseño de base de datos basada en un algoritmo voraz moderado mediante subobjetivos intermedios. La exhaustiva experimentación con los diversos parámetros de predicción, la configuración de la red y las subdivisiones de la base de datos ocupa la mayor parte del capítulo, destacando la aportación de un parámetro específico del dominio restringido (el número de la frase portadora del texto que sintetizar) junto a otros más clásicos (acentuación, tipo de grupo fónico y posición en el mismo).

El capítulo dedicado a la voz emotiva comienza detallando el proceso de creación de una nueva voz castellana masculina en síntesis por formantes con modelo mejorado de fuente (reglas y metodología), evaluando las posibilidades de personalización de voz que ofrece. Para trabajar con voz con emociones se diseña, graba y etiqueta una base de datos de voz en la que un actor simula tristeza, alegría, sorpresa, enfado y también una voz neutra. Por medio de técnicas paramétricas (modelo de picos y valles en tono, y multiplicativo en las duraciones) se analiza prosódicamente la base de datos y se establece una primera caracterización de la voz en las distintas emociones. Empleando como base la voz personalizable se desarrolla el sistema completo de conversión texto a voz con emociones y se evalúa, destacando la rápida adaptación de los usuarios en cuanto a la identificación de la emoción expresada. Finalmente se experimenta con síntesis por concatenación y síntesis por copia, llegando a las siguientes conclusiones: la voz sorprendida se identifica prosódicamente, las características segmentales son las que caracterizan al enfado en frío; y, finalmente, la tristeza y la alegría son de naturaleza mixta.


Abstract

This doctoral Thesis studies three approaches in order to improve naturalness in text-to-speech conversion:

§      Linguistic processing:

·      Preprocessing: for the normalization of the input text, I have developed and evaluated the use of a set of dictionaries and expert rules, getting a 85% precision on an evaluation corpus from a newspaper domain.

·      Lexical information: using general dictionaries (not adapted to the evaluation domain), we got a 99,87% recall, comparable to the best systems for Spanish, beating the results of a stochastic system (with greater precision).

·      Automatic POS tagging: I have tried 2 approaches for contextual disambiguation: automatic rule learning and stochastic modeling; the second approach achieves higher recall rates, specially for out-of-domain tests.

·      Shallow parsing: adapting a context-free grammar system, I have developed and evaluated a new robust general-purpose grammar for shallow parsing (97%), using cut-rules for reducing the number of possible analyses, applying concordance rules as a filter and using the minimum number of simple segments in each analysis in order to get the best one. Using other context-free rules, we modeled the relations between several simple segments in order to build more complex ones.

§      Restricted-domain F0 modeling:

·      New greedy algorithm for database design, capable of summing up a big database with a precision higher than 95%, taking into account several prosodic and segmental feature vectors.

·      F0 modeling on a restricted domain, using a multilayer perceptron, with new parameters such as the number of the carrier sentence, and the analysis on how to group the recordings in order to get the best possible modeling.

§      Analysis, modeling and emotional TTS conversion:

·      Development of a new configurable formant-based voice in Spanish, including the evaluation of the adaptation process.

·      Design and recording of the first emotional speech database in Spanish, design for its use in prosody synthesis; analysis of the prosody using parametric techniques and its evaluation in copy-synthesis experiments.

·      Development of the first emotional formant-based Spanish synthesizer, and its evaluation.

·      I have analysed whether the segmental properties or the prosodic properties make identifiable the simulated emotion: cold anger is detectable through its segmental characteristics; surprise is detected through pitch and tempo; for joy and sadness both segments and prosody are necessary.




 

Índice

Capítulo 1        Introducción. 3

1.1       Objetivos de la Tesis. 3

1.1.1         Procesado lingüístico automático. 3

1.1.2         Modelado de la F0 para síntesis en dominio restringido. 3

1.1.3         Análisis y síntesis de habla con emociones 3

1.2       Contenido de la Tesis. 3

Capítulo 2        Estado de la cuestión. 3

2.1       Introducción. 3

2.1.1         Sistemas comerciales de conversión texto a voz 3

2.2       Procesado lingüístico. 3

2.2.1         Etiquetado morfosintáctico automático. 3

2.2.1.1     Teoría lingüística generativa 3

2.2.1.2     Preprocesamiento. 3

2.2.1.3     Diccionarios y plataformas léxicas en castellano. 3

2.2.1.4     Técnicas de desambiguación en el etiquetado morfosintáctico. 3

2.2.1.5     Sistemas combinados o integrados 3

2.2.1.6     Medidas de evaluación y comparación entre sistemas 3

2.2.1.7     Etiquetado manual 3

2.2.1.8     Corpora en castellano. 3

2.2.1.9     Sistemas de desambiguación en castellano. 3

2.2.2         Sintaxis y análisis sintagmático. 3

2.2.2.1     Características de los segmentos o sintagmas simples 3

2.2.2.2     Sistemas automáticos de segmentación en sintagmas simples 3

2.2.2.3     Corpus y bases de datos sintácticos en castellano. 3

2.2.2.4     Sistemas de análisis sintáctico en castellano. 3

2.3       Análisis y modelado prosódico. 3

2.3.1         Entonación y F0. 3

2.3.1.1     Escuelas de análisis de contornos de F0. 3

2.3.1.2     Acentuación y desacentuación léxica. Foco. 3

2.3.1.3     Relaciones entre F0, intensidad y duración. 3

2.3.1.4     Micro-prosodia o micro-melodía 3

2.3.1.5     Relaciones entre entonación y sintaxis 3

2.3.1.6     Patrones entonativos en castellano. 3

2.3.1.7     Definición y diseño de una base de datos prosódica 3

2.3.1.8     Métodos para la generación de curvas de F0. 3

2.3.1.9     Percepción de la frecuencia fundamental 3

2.3.1.10      Normalización de valores de F0. 3

2.3.1.11      Evaluación del modelado de F0. 3

2.3.2         Duración y ritmo. 3

2.3.2.1     Normalización de la duración. 3

2.3.2.2     Modelos de duraciones 3

2.3.3         Pausado. 3

2.4       Personalización de voz y habla con emociones. 3

2.4.1         Síntesis por formantes 3

2.4.2         Sistemas de síntesis de voz con emociones 3

2.4.2.1     El sistema Affect Editor 3

2.4.2.2     El sintetizador Hamlet 3

2.4.3         Prótesis vocales 3

2.4.4         Bases de datos de voz con emociones 3

2.4.4.1     Bases de datos en castellano. 3

2.4.5         Evaluación de sistemas de voz con emociones 3

Capítulo 3        Procesado lingüístico automático.. 3

3.1       Introducción. 3

3.2       Etiquetado morfosintáctico automático. 3

3.2.1         Corpora empleados 3

3.2.1.1     El corpus de El Mundo. 3

3.2.1.2     El corpus 860. 3

3.2.2         Modelado léxico. 3

3.2.2.1     Normalizador 3

3.2.2.2     Diccionarios 3

3.2.2.3     Conjugador verbal 3

3.2.2.4     Reglas léxicas externas o de terminaciones 3

3.2.2.5     Cobertura léxica 3

3.2.3         Desambiguación contextual 3

3.2.3.1     Creación de reglas manuales contextuales 3

3.2.3.2     Aprendizaje automático de reglas 3

3.2.3.3     Desambiguación contextual estocástica 3

3.2.4         Conclusiones sobre etiquetado automático. 3

3.3       Análisis sintáctico automático y robusto. 3

3.3.1         Análisis sintáctico. 3

3.3.2         El algoritmo CYK. 3

3.3.2.1     Recuperación de todos los análisis correctos 3

3.3.3         Texto categorizado y reglas léxicas 3

3.3.4         Análisis sintagmático y reglas de corte 3

3.3.4.1     Resultados 3

3.3.5         Reglas gramaticales sintagmáticas 3

3.3.5.1     Principales segmentos (sintagmas simples) 3

3.3.5.2     Secuencia de segmentos (sintagmas simples) 3

3.3.5.3     Filtros de concordancia 3

3.3.5.4     Principio de mínima longitud de la descripción. 3

3.3.5.5     Evaluación. 3

3.3.5.6     Recategorización. 3

3.3.6         Reglas gramaticales de segundo nivel (sintácticas) 3

3.3.6.1     Evaluación. 3

3.3.7         Conclusiones sobre análisis sintáctico. 3

Capítulo 4        Modelado de la F0 para síntesis en dominio restringido.. 3

4.1       Diseño de la base de datos de dominio restringido. 3

4.1.1         Criterios de selección del contenido de los campos variables 3

4.1.2         Simplificación de los criterios 3

4.1.2.1     Simplificación para la base de datos de nombres propios 3

4.1.2.2     Simplificación para la base de datos con sintagmas nominales en oraciones enunciativas 3

4.1.2.3     Simplificación para la base de datos con sintagmas nominales en oraciones interrogativas 3

4.1.3         Algoritmo de selección. 3

4.1.4         Resultados 3

4.1.4.1     Ejemplo de selección de 100 pueblos 3

4.1.4.2     Ejemplo de selección de 150 pueblos 3

4.1.4.3     Ejemplo de selección de 250 pueblos 3

4.1.4.4     Ejemplo de selección de 150 apellidos 3

4.1.4.5     Ejemplo de selección de 60 apellidos 3

4.1.4.6     Ejemplos de selección con baja ratio de ejemplos disponibles 3

4.1.4.7     Errores graves de selección. 3

4.1.4.8     Algoritmo con subobjetivos intermedios 3

4.2       Grabación y etiquetado de la base de datos. 3

4.3       Análisis y parametrización. 3

4.4       Condiciones generales de experimentación para el modelado de F0 mediante redes neuronales artificiales  3

4.4.1         Consideraciones generales 3

4.4.2         Parámetros que se ensayarán. 3

4.4.2.1     Nuevas codificaciones de Inicial, Acentuada y Final 3

4.4.2.2     Nuevos parámetros o elementos de parametrización. 3

4.4.3         Elementos relacionados con la propia red. 3

4.4.4         Organización de la experimentación. 3

4.4.5         Estrategia de experimentación. 3

4.5       Experimentos sobre nombres propios en enunciativas. 3

4.5.1         Experimento de base con nombres propios 3

4.5.2         Experimentos sobre la influencia de la eliminación del zscore en el experimento de base de nombres propios 3

4.5.3         Experimentos sobre la influencia de no codificar la información sobre sílabas iniciales, finales o acentuadas en el experimento de base de nombres propios 3

4.5.3.1     Omisión del elemento ‘sílaba inicial’ 3

4.5.3.2     Omisión del elemento ‘sílaba acentuada’ 3

4.5.3.3     Omisión del elemento ‘sílaba final’ 3

4.5.3.4     Experimento de base de nombres propios omitiendo varios elementos (sílaba inicial, sílaba acentuada o sílaba final) 3

4.5.4         Experimentos sobre la influencia de eliminar el elemento ‘signo de puntuación final’ en el experimento de base de nombres propios 3

4.5.5         Experimentos sobre la influencia de codificar el número de sílabas en el experimento de base de nombres propios 3

4.5.6         Segundo experimento de base de nombres propios: influencia de codificar el número de frase portadora  3

4.5.7         Experimentos de nombres propios sobre otros parámetros 3

4.5.8         Conclusiones sobre el modelado de nombres propios en enunciativas 3

4.6       Experimentos sobre frases interrogativas. 3

4.6.1         Experimentos de base de interrogativas 3

4.6.2         Experimentos sobre la influencia de la no codificación del número de la frase portadora en el experimento de base de interrogativas 3

4.6.3         Experimentos sobre la influencia de otros parámetros en el experimento de base de interrogativas 3

4.6.4         Conclusiones sobre el modelado de interrogativas 3

4.7       Experimentos sobre frases enunciativas con sintagmas nominales largos  3

4.7.1         Experimentos de base de sintagmas nominales 3

4.7.2         Experimentos sobre la influencia de la no inclusión del elemento ‘signo de puntuación final’ 3

4.7.3         Experimentos sobre la no codificación del número de la frase portadora. 3

4.7.4         Experimentos sobre la no codificación del número de sílabas 3

4.7.5         Experimentos sobre otros parámetros 3

4.7.6         Conclusiones sobre enunciativas 3

4.8       Experimentos con las frases especiales. 3

4.8.1         Condiciones de experimentación. 3

4.8.2         Experimentos con las frases especiales 6 y 7. 3

4.8.2.1     Experimentos conjuntos con las frases 6 y 7. 3

4.8.2.2     Experimentos con la frase especial 6. 3

4.8.2.3     Experimentos con la frase especial 7. 3

4.8.2.4     Experimentos con las frases especiales 6 y 7 agrupadas con los demás nombres propios 3

4.8.2.5     Conclusiones sobre las frases 6 y 7. 3

4.8.3         Experimentos con la frase especial 8. 3

4.8.4         Experimentos con la frase especial 15. 3

4.8.4.1     Experimentos con la frase especial 15 considerada como interrogativa 3

4.8.4.2     Experimentos con la frase especial 15 considerada como enunciativa 3

4.9       Experimento global conjunto con todas las frases. 3

4.10     Conclusiones sobre el modelado de F0 en dominio restringido. 3

Capítulo 5        Análisis y síntesis de habla con emociones. 3

5.1       Desarrollo de una nueva voz personalizable mediante síntesis por formantes  3

5.2       Evaluación de la voz personalizada y del proceso de personalización. 3

5.2.1         Descripción de las sesiones de trabajo para la evaluación del proceso de personalización. 3

5.2.2         Resultados 3

5.2.2.1     Valores personalizados de los parámetros para cada usuario. 3

5.2.3         Evaluación de la calidad global de la voz sintética. 3

5.2.3.1     ¿Cómo de natural suena la voz? 3

5.2.3.2     ¿Cómo es de inteligible el habla? 3

5.2.3.3     ¿Cómo calificaría la calidad de la voz? 3

5.3       La base de datos SES: Spanish Emotional Speech. 3

5.3.1         Frases cortas 3

5.3.2         Palabras aisladas 3

5.3.3         Párrafos de corta longitud. 3

5.3.4         Grabación. 3

5.3.5         Etiquetado y marcado de SES. 3

5.3.6         Análisis de SES. 3

5.3.6.1     Análisis cualitativo. 3

5.3.6.2     Análisis cuantitativo de las duraciones y el ritmo. 3

5.3.6.3     Análisis cuantitativo de la entonación. 3

5.3.6.4     Síntesis por formantes de voz con emociones 3

5.4       Evaluación del habla con emociones empleando síntesis por formantes  3

5.4.1         Parámetros generales de la evaluación. 3

5.4.1.1     Estímulos 3

5.4.2         Sesiones de trabajo con los oyentes 3

5.4.3         Resultados 3

5.4.3.1     Identificación de la emoción transmitida por la voz sintética 3

5.4.3.2     Matrices de confusión para voz sintética 3

5.4.3.3     Resultados totales de reconocimiento de la emoción simulada 3

5.4.3.4     Resultados para las 10 primeras grabaciones 3

5.4.3.5     Resultados para las 10 últimas grabaciones 3

5.4.3.6     Resultados para voz natural 3

5.4.3.7     Matrices de confusión para voz natural 3

5.4.3.8     Identificación de la emoción simulada en función del número de frase 3

5.5       Conclusiones sobre síntesis de voz con emociones mediante síntesis por formantes  3

5.6       Experimentos de síntesis-por-copia y voz con emociones. 3

5.6.1         Conclusiones sobre síntesis de voz con emociones mediante síntesis por copia. 3

Capítulo 6        Conclusiones y líneas futuras. 3

6.1       Conclusiones. 3

6.1.1         Procesado lingüístico automático. 3

6.1.2         Modelado de F0 en dominio restringido. 3

6.1.3         Análisis y síntesis de voz con emociones 3

6.2       Líneas futuras. 3

6.2.1         Procesado lingüístico automático. 3

6.2.1.1     Categorización automática 3

6.2.1.2     Análisis sintáctico. 3

6.2.1.3     Análisis semántico. 3

6.2.2         Modelado de F0 en dominio restringido. 3

6.2.2.1     Nuevo método voraz para diseño de bases de datos 3

6.2.2.2     Modelado de F0. 3

6.2.3         Análisis y síntesis de voz con emociones 3

6.2.3.1     Síntesis de voz configurable y con emociones 3

6.2.3.2     Base de datos de habla emotiva en castellano. 3

Referencias. 3

Apéndices. 3

A.1      Procesado lingüístico automático. 3

A.1.1        Etiquetado del 860. 3

A.1.1.1     Nuevo etiquetado del corpus 860. 3

A.1.1.2     Formato de las etiquetas del 860. 3

A.1.1.3     Categorías primarias y secundarias 3

A.1.2        Lista de paradigmas irregulares empleados 3

A.1.3        Patrones del experimento de aprendizaje de reglas de categorización. 3

A.1.4        Conjuntos de etiquetas del experimento de aprendizaje de reglas de categorización. 3

A.1.5        Tablas de resultados de los experimentos sobre etiquetado estocástico. 3

A.1.6        Reglas léxicas de preprocesamiento para el análisis sintáctico. 3

A.1.7        Gramáticas de contexto libre empleadas 3

A.1.8        Gramática de primer nivel 3

A.1.8.1     Secuencia de segmentos o sintagmas simples 3

A.1.8.2     Nexos 3

A.1.8.3     Formas verbales 3

A.1.8.4     Nombres propios 3

A.1.8.5     Sintagma nominal 3

A.1.8.6     Sintagma adverbial 3

A.1.8.7     Sintagma adjetival 3

A.1.8.8     Estructuras con determinante 3

A.1.8.9     Sintagmas preposicionales 3

A.1.8.10      Locuciones 3

A.1.9        Gramática de segundo nivel 3

A.1.9.1     Cuantificación. 3

A.1.9.2     Fechas 3

A.1.9.3     Comparaciones 3

A.1.9.4     Coordinación. 3

A.1.9.5     Comillas 3

A.2      Modelado de F0 en dominio restringido. 3

A.2.1        Frases patrón iniciales de la base de datos de dominio restringido. 3

A.2.2        Frases patrón definitivas de la base de datos de dominio restringido. 3

A.2.3        Análisis estadístico del modelado de F0 parámetro a parámetro. 3

A.2.4        Análisis de F0 con un modelo paramétrico en dominio restringido. 3

A.2.4.1     Nombres propios en enunciativas 3

A.2.4.2     Sintagmas nominales en enunciativas 3

A.3      Análisis y síntesis de habla con emociones. 3

A.3.1        Personalización de voz 3

A.3.1.1     Evaluación inicial del sintetizador (previo a la personalización) 3

A.3.1.2     Bases de datos para una voz neutra 3

A.3.1.3     Herramientas semiautomáticas 3

A.3.1.4     Diseño e implementación de una nueva voz. 3

A.3.1.5     Reglas Prosódicas 3

A.3.1.6     Nuevas reglas Segmentales 3

A.3.1.7     Integración y pruebas 3

A.3.2        Ejemplo de cuestionario para la evaluación de síntesis de voz con emociones 3

A.3.3        Textos de la base de datos SES. 3

A.3.3.1     Párrafos 3

A.3.3.2     Frases 3

A.3.3.3     Palabras 3

6.2.3.3     Relación entre las frases y las palabras de la base de datos 3

A.3.4        Cuestionario de evaluación de voz emotiva en el proyecto VAESS. 3

A.3.5        Cuestionario sobre la personalización de voz 3

A.3.6        Definición de rasgos simples y complejos para la voz personalizada o con emociones 3

A.3.7        Reglas segmentales y de entonación para el castellano (para personalización y para emociones) 3


 

Índice de tablas, cuadros e ilustraciones

 

Tabla 1        Principales parámetros del corpus 860. 3

Tabla 2        Parámetros secundarios del corpus 860. 3

Tabla 3        Comparación entre la distribución de los distintos símbolos (en tanto por uno) en los corpora de entrenamiento, de evaluación y el completo: Verbo, Nombre sustantivo, Adjetivo, adverBio, pRonombre, Preposición, Determinante, Conjunción, Interfección, Miscelanea y otros (L) 3

Tabla 4        Resultados de imprecisión para varios tipos de palabra no normalizadas, según la información léxica empleada en su detección. 3

Tabla 5        Resumen de los diccionarios que se emplean en el modelado léxico. 3

Tabla 6        Resultados de etiquetado automático sin desambiguación contextual. 3

Tabla 7        Resultados de cobertura léxica del etiquetador automático TnT. 3

Tabla 8        Resultados de la evaluación con aprendizaje de reglas. 3

Tabla 9        Gráfica de cobertura con el conjunto de etiquetas completo, sin procesado especial de locuciones, sobre un conjunto de evaluación de 38.310 palabras, empleando unigramas  3

Tabla 10      Gráfica de cobertura con el conjunto de etiquetas completo, con procesado especial de locuciones, sobre un conjunto de evaluación de 37.530 palabras, empleando unigramas  3

Tabla 11      Gráfica de cobertura con el conjunto de etiquetas simplificadas, sin procesado especial de locuciones, sobre un conjunto de evaluación de 38.310 palabras, empleando unigramas  3

Tabla 12      Gráfica de cobertura con el conjunto de etiquetas simplificadas, con procesado especial de locuciones, sobre un conjunto de evaluación de 37.530 palabras, empleando unigramas  3

Tabla 13      Gráfica de cobertura con el conjunto de etiquetas simplificadas, sin procesado especial de locuciones, sobre un conjunto de evaluación de 38.310 palabras, empleando bigramas  3

Tabla 14      Gráfica de cobertura con el conjunto de etiquetas simplificadas, con procesado especial de locuciones, sobre un conjunto de evaluación de 38.310 palabras, empleando bigramas  3

Tabla 15      Gráfica de cobertura con el conjunto de etiquetas completo, sin procesado especial de locuciones, sobre un conjunto de evaluación de 38.130 palabras, empleando bigramas  3

Tabla 16      Gráfica de cobertura con el conjunto de etiquetas completo, con procesado especial de locuciones, sobre un conjunto de evaluación de 37.530 palabras, empleando bigramas  3

Tabla 17      Gráfica de cobertura con el conjunto de etiquetas simplificado, con procesado especial de locuciones, sobre un conjunto de evaluación de 37.530 palabras, empleando trigramas  3

Tabla 18      Gráfica de cobertura con el conjunto de etiquetas simplificado, con procesado especial de locuciones, sobre un conjunto de evaluación del dominio de discapacidad de 22.518 palabras, empleando bigramas. 3

Tabla 19      Gráfica de cobertura con el conjunto de etiquetas simplificado, con procesado especial de locuciones, sobre un conjunto de evaluación del dominio de discapacidad de 22.518 palabras, empleando trigramas. 3

Cuadro 1 Algoritmo CYK. 3

Cuadro 2 Algoritmo de reconstrucción CYK. 3

Ilustración 1: Esquema de los principales sintagmas analizados y sus relaciones. 3

Cuadro 3 Algoritmo voraz de selección de ejemplos para una base de datos de voz. 3

Tabla 20      Resultados de selección de 100 pueblos. 3

Tabla 21      Errores de selección de 100 pueblos. 3

Tabla 22      Resultados de selección de 150 pueblos. 3

Tabla 23      Errores de selección de 150 pueblos. 3

Tabla 24      Resultados de selección de 250 pueblos. 3

Tabla 25      Resultados de selección de 150 apellidos. 3

Tabla 26      Resultados de selección de 60 apellidos. 3

Tabla 27      Resultados de selección de 60 bancos. 3

Tabla 28      Resultados de selección de 150 puertos. 3

Tabla 29      Resultados de selección graves (entre 100 y 5000 ejemplos de pueblos y apellidos) 3

Tabla 30      Resultados de selección de pueblos en 1 paso y en 10 pasos (entre 100 y 250 pueblos) 3

Tabla 31      Experimento de base de nombres propios, empleando zscore, los elementos sílaba inicial, sílaba final y sílaba acentuada con diversos tamaños de la ventana del contexto, con la codificación 1 del número de sílabas y empleando 4 bits para codificar el signo de puntuación final del grupo fónico. 3

Tabla 32      Experimento de base de nombres propios sin zscore. 3

Tabla 33      Experimento de base de nombres propios, sin emplear el elemento ‘sílaba inicial’ (pero sí los elementos ‘sílaba final’ o ‘sílaba acentuada’). 3

Tabla 34      Experimento de base de nombres propios sin emplear ‘sílaba acentuada’ (pero sí los elementos sílaba inicial y sílaba final). 3

Tabla 35      Experimento de base de nombres propios, sin emplear el elemento ‘sílaba final’ (pero sí los elementos sílaba inicial y sílaba acentuada). 3

Tabla 36      Experimento de base de nombres propios, empleando el elemento final (no el de inicial ni el de acentuada), con 20 neuronas ocultas. 3

Tabla 37      Experimento de base de nombres propios, empleando el elemento inicial (no el de final o el de acentuada) con 20 neuronas en la capa oculta. 3

Tabla 38      Experimento de base de nombres propios, empleando el elemento acentuada (no el de final o el de inicial) con 20 neuronas en la capa oculta. 3

Tabla 39      Experimento de base de nombres propios sin emplear bits para codificar el elemento ‘signo de puntuación final del grupo fónico’, con 20 neuronas en la capa oculta. 3

Tabla 40      Experimento de base de nombres propios sin emplear el elemento ‘número de sílabas’, con 20 neuronas en la capa oculta. 3

Tabla 41      Experimento de base de nombres propios empleando codificación 2 para el número de sílabas, con 20 neuronas en la capa oculta. 3

Tabla 42      Segundo experimento de base de nombres propios: incluye además la codificación del número de frase portadora y 20 neuronas en la capa oculta. 3

Tabla 43      Segundo experimento de base de nombres propios empleando el parámetro “es final de palabra” codificado sin ventana (valor 1) o con ventana +-1 (valor 3). 3

Tabla 44      Segundo experimento de base de nombres propios con el elemento “número de palabras” codificado (valor 1) o no (valor 0). 3

Tabla 45      Segundo experimento de base de nombres propios con el elemento “palabra en posición final” codificado (valor 1) o no (valor 0). 3

Tabla 46      Segundo experimento de base de nombres propios con el elemento “es palabra función” codificado (valor 1) o no (valor 0). 3

Tabla 47      Experimento de base de interrogativas con zscore, empleando los elementos acentuada, inicial y final con tamaño de ventana del contexto igual a 1, con codificación del 1 número de sílabas, empleando 4 bits para codificar el signo de puntuación final del grupo fónico y con codificación del número de frase portadora. 3

Tabla 48      Experimento de base de interrogativas sin codificación del número de frase portadora y con 20 neuronas en la capa oculta. 3

Tabla 49      Experimento de base de interrogativas codificando si es final de palabra sin contexto (1) o con contexto +-1 (3) y con 20 neuronas en la capa oculta. 3

Tabla 50      Experimento de base de interrogativas codificando si es final de palabra sin contexto (1) o con contexto +-1 (3) y con 20 neuronas en la capa oculta. 3

Tabla 51      Experimento de base de interrogativas, codificando el número de palabras y con 20 neuronas en la capa oculta. 3

Tabla 52      Experimento de base de interrogativas, codificando o no la pertenencia a palabras función y con 20 neuronas en la capa oculta. 3

Tabla 53      Experimento de base de interrogativas, empleando o no 5 bits para codificar el signo de puntuación inicial del grupo fónico y con 20 neuronas en la capa oculta.. 3

Tabla 54      Experimentos de base de sintagmas nominales, con zscore, empleando los elementos acentuada, inicial y final con tamaño de ventana del contexto entre 1 y 5, sin codificación del número de sílabas, empleando 4 bits para codificar el signo de puntuación final del grupo fónico, codificación del número de frase portadora, con 20 neuronas en la capa oculta. 3

Tabla 55      Experimentos de base de sintagmas nominales sin codificar el signo de puntuación final del grupo fónico. 3

Tabla 56      Experimentos de base de sintagmas nominales con  (19) y sin (0) codificación del número de frase portadora. 3

Tabla 57      Experimentos de base de sintagmas nominales sin codificar el signo de puntuación final del grupo fónico, con  (19) o sin (0) codificación del número de frase portadora. 3

Tabla 58      Experimentos de base de sintagmas nominales, con (1 o 2) o sin (0) codificación del número de sílabas. 3

Tabla 59      Experimentos de base de sintagmas nominales con codificación 2 del número de sílabas y con (1 o 3) codificación de la pertenencia a una palabra función. 3

Tabla 60      Mejor resultado del experimento de base de sintagmas nominales con codificación 2 del número de sílabas y con codificación del número de palabras. 3

Tabla 61      Mejor resultado del experimento de base de sintagmas nominales, con codificación 2 del número de sílabas, y con (1) o sin (0) emplear codificación del número de palabras. 3

Tabla 62      Mejores resultados del experimento de base de sintagmas nominales, con codificación 2 del número de sílabas, , codificando si es final de palabra. 3

Tabla 63      Mejor resultado del experimento de base de sintagmas nominales con codificación 2 del número de sílabas y con codificación del signo inicial de puntuación. 3

Tabla 64      Mejor resultado del experimento de base de sintagmas nominales con codificación 2 del número de sílabas, con codificación del signo de puntuación anterior, con codificación de la posición de la sílaba en el final de una palabra y con codificación 3 de la pertenencia a una palabra función. 3

Tabla 65      Experimento de base de sintagmas nominales con codificación 2 del número de sílabas,  con (5) o sin (0) codificación del signo de puntuación anterior, con (1) o sin (0) codificación de la posición de la sílaba en el final de una palabra, con (1) o sin (0) codificación de la posición de la palabra en la frase, con (1) o sin (0) codificación de la pertenencia a palabra función. 3

Tabla 66      Experimentos con las frases 6 y7. 3

Tabla 67      Experimentos con la frase 6. 3

Tabla 68      Experimentos con la frase 7. 3

Tabla 69      Experimento agrupando las frases 6 y 7 con los nombres propios. 3

Tabla 70      Experimento con la frase especial 15 considerada como interrogativa. 3

Tabla 71      Experimento con la frase especial 15 considerada como enunciativa. 3

Tabla 72      Experimento general conjunto con todas las frases. 3

Tabla 73      Valores de los parámetros para cada usuario. 3

Ilustración 2 Fragmento de voz neutra (parte superior) y su correspondiente de voz enfadada (parte inferior). 3

Tabla 74      Variación de diversos parámetros de duración entre las distintas emociones. 3

Tabla 75      Ratio entre el modelado de duración en las frases y en los párrafos para las distintas emociones. 3

Tabla 76      Duración media de las pausas por signos de puntuación en las distintas emociones. 3

Tabla 77      Resultados del análisis cuantitativo de la entonación de las frases para las diversas emociones. 3

Tabla 78      Resultados del análisis cuantitativo de la entonación de los párrafos para las diversas emociones. 3

Tabla 79      Resultados de la evaluación de identificación de la emoción transmitida por la voz sintética. 3

Tabla 80      Resultados totales de identificación de la emoción simulada. 3

Tabla 81      Resultados de identificación de la emoción simulada para las 10 primeras grabaciones. 3

Tabla 82      Resultados de identificación de la emoción simulada para las 10 últimas grabaciones. 3

Tabla 83      Matriz de confusión para la voz natural. 3

Tabla 84      Resultados de identificación para la voz sintética y para la voz natural. 3

Tabla 85      Resultados de identificación de emociones generadas mediante el método de síntesis por copia. 3

Tabla 86      Resultados de identificación de emociones generadas mediante el método de síntesis por copia. 3

Tabla 87      Resultados de identificación de emociones generadas mediante re-síntesis automática de prosodia. 3

Tabla 88      Experimentos con el conjunto de etiquetas completo, sin procesado especial de locuciones, sobre un conjunto de evaluación de 38.310 palabras, empleando unigramas. 3

Tabla 89      Experimentos con el conjunto de etiquetas completo, con procesado especial de locuciones, sobre un conjunto de evaluación de 37.530 palabras, empleando unigramas. 3

Tabla 90      Experimentos con el conjunto de etiquetas simplificadas, sin procesado especial de locuciones, sobre un conjunto de evaluación de 38.310 palabras, empleando unigramas. 3

Tabla 91      Experimentos con el conjunto de etiquetas simplificadas, con procesado especial de locuciones, sobre un conjunto de evaluación de 37.530 palabras, empleando unigramas. 3

Tabla 92      Experimentos con el conjunto de etiquetas simplificadas, sin procesado especial de locuciones, sobre un conjunto de evaluación de 38.310 palabras, empleando bigramas. 3

Tabla 93      Experimentos con el conjunto de etiquetas simplificadas, con procesado especial de locuciones, sobre un conjunto de evaluación de 38.310 palabras, empleando bigramas. 3

Tabla 94      Experimentos con el conjunto de etiquetas completo, sin procesado especial de locuciones, sobre un conjunto de evaluación de 38.130 palabras, empleando bigramas. 3

Tabla 95      Experimentos con el conjunto de etiquetas completo, con procesado especial de locuciones, sobre un conjunto de evaluación de 37.530 palabras, empleando bigramas. 3

Tabla 96      Experimentos y gráfica de cobertura con el conjunto de etiquetas simplificado, con procesado especial de locuciones, sobre un conjunto de evaluación de 37.530 palabras, empleando trigramas  3

Tabla 97      Experimentos con el conjunto de etiquetas simplificado, con procesado especial de locuciones, sobre un conjunto de evaluación del dominio de discapacidad de 22.518 palabras, empleando bigramas  3

Tabla 98      Experimentos con el conjunto de etiquetas simplificado, con procesado especial de locuciones, sobre un conjunto de evaluación del dominio de discapacidad de 22.518 palabras, empleando trigramas  3

Tabla 99      Parámetros de predicción de F0 que presentan diferencias significativas al adoptar valor 1 frente a adoptar valor 0. 3

Tabla 100    Modelado paramétrico de la curva de F0 para los nombres propios con una sola tónica (modelo de picos y valles) 3

Tabla 101    Modelado paramétrico de la curva de F0 para los nombres propios con varias tónicas (modelo de picos y valles) 3

Tabla 102    Modelado paramétrico de la curva de F0 para los nombres propios con varias tónicas (modelo de picos y valles) 3

Tabla 103     Modelado paramétrico de la curva de F0 para los sintagmas nominales en enunciativas con una tónica (modelo de picos y valles) 3

 




 



Capítulo 1              Introducción

La palabra tanto hablada como escrita ha supuesto para el hombre uno de sus mayores logros en la carrera hacia el dominio de la naturaleza. Ella le ha permitido desarrollar el más complejo mecanismo comunicativo existente en los seres vivos, capaz de los más altos niveles de abstracción. Tan poderosa herramienta, lejos de ser un fruto consciente de su racionalidad, ha sido la que ha cimentado (sino impulsado), el desarrollo de la misma. La naturaleza fundacional del habla (imbricada profundamente en los mecanismos del pensamiento) ha hecho muy difícil a lo largo de la historia tanto su estudio como su emulación.

Si definimos la síntesis de voz como la capacidad de los sistemas electrónicos para producir voz que parece humana, nos hallamos muy lejos de alcanzar tan ambicioso objetivo. La tecnología actual es capaz de convertir texto en voz con una alta tasa de inteligibilidad, aunque su grado de naturalidad no sea tan alto como desearíamos: no podemos imitar el amplio espectro de cadencias, melodías y cualidades que cubre la voz humana. Por lo general las voces sintéticas pueden ser catalogadas como monótonas o incluso aburridas: nuestros ordenadores carecen por ahora de capacidad para transmitirnos emociones, para adaptar la voz a diferentes estilos de locución (formales o informales), carecen de capacidad para engañarnos.

Vivimos una época en la que se está dando un gran auge en los estudios teórico-prácticos de la llamada inteligencia social o inteligencia emotiva, la que se encarga de controlar con inteligencia las propias emociones, reconocer las emociones de los demás y reaccionar empáticamente a las mismas. No es descabellado pensar en que esa misma inteligencia social debería gobernar las futuras aplicaciones de intercomunicación hombre-máquina, haciéndolas más y más amigables (user-friendly). Para ello, deberíamos de dotar a los sintetizadores de una voz más diversa y humana: un usuario habitual del sistema o un usuario con problemas que dialoga con el sistema, y tras repetidos intentos no consigue acceder a la información que precisa, deben ser tratado de un modo especial, como lo haría un experto humano. Adaptar la voz y el estilo al contexto en el que se emplea es uno de los principales objetivos