Sesión oral O4. Reconocimiento del habla.
Miércoles (12:30)
Moderador: Inés Torres
1. Construcción de grafos de fonemas para un sistema de RAH desacoplado
Jon Ander Gómez, María José Castro, Emilio Sanchís
En este trabajo se presenta una aproximación a la decodificación acústico fonética de un sistema de reconocimiento automático del habla desacoplado, en que la información se transmite en forma de grafos de fonemas, palabras o unidades semánticas. El módulo de decodificación acústico fonética recibe como entrada una secuencia de vectores con las probabilidades de cada una de las unidades fonéticas que reconoce el sistema, y obtiene como salida un grafo de fonemas como representación de una frase. En la última sección se presentan resultados experimentales que demuestran la viabilidad de nuestro sistema.
2. Análisis eficiente de gramáticas de inserción de árboles
Vicente Carrillo, Miguel A. Alonso, Víctor J. Díaz
El formalismo Tree Insertion Grammar (TIG) es un compromiso entre Context Free Grammar (CFG) y Tree Adjoining Grammar (TAG) que puede ser analizada con un coste temporal de O(n3). En la literatura podemos encontrar algunos analizadores para TIG derivados a partir de los existentes para CFG, como los populares CYK y Earley. En este trabajo extendemos para las gramáticas de inserción de árboles el concepto de leftcorner conocido para CGF, y a partir de él, definimos un nuevo analizador para TIG que mejora las prestaciones del clásico analizador tipo earley mediante una reducción en el número de predicciones.
3. La evolución de los corpus de habla espontánea: la experiencia del LLI-UAM
Antonio Moreno Sandoval
El Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (LLI-UAM) tiene entre sus objetivos la creación de recursos lingüísticos en formato electrónico: gramáticas y lexicones computacionales, bases de datos terminológicas, católogos digitalizados y todo tipo de corpus, orales y escritos, diacrónicos y sincrónicos, monolingües y multilingües. Esta comunicación se centrará en la comparación entre el primer corpus que desarrollamos a principios de los 90 (CORLEC) y el que estamos recopilando actualmente (C-ORAL-ROM). La comparación servirá de base para establecer la evolución que se ha producido tanto en la metodología como en el formato y contenido de los corpus de habla espontánea.
4. Fast vector quantization based on subcodebook selection and its application to speech recognition
José A. R. Fonollosa
Vector quantization (VQ) is a efficient technique for data compression with a minimum distortion. VQ is widely used in applications as speech and image coding, speech recognition, and image retrieval. This paper presents a novel fast nearestneighbor algorithm and shows its application to speech recognition. The proposed algorithm is based on a fast preselection that reduces the search to a limited number of code vectors. The presented results show that the computational cost of the VQ stage can be significantly reduced without affecting the performance of the speech recognizer.
5. Anotación de disfluencias en un corpus de habla espontánea no específico
Luis Javier Rodríguez, Inés Torres, Amparo Varona
En esta comunicación presentamos la anotación de fenómenos de habla espontánea (también conocidos como disfluencias) en una parte del Corpus de Referencia de la Lengua Española Contemporánea de la Universidad Autónoma de Madrid. El subcorpus completo consiste en 132 entrevistas y conversaciones –tomadas de radio y televisión a finales de 1991-, de las cuales se han anotado hasta la fecha 42 entrevistas, con una duración aproximada de seis horas y media. Las anotaciones se han generado en dos fases: en primer lugar se han filtrado las transcripciones originales –creadas para realizar estudios lingüísticos del habla espontánea–, sobre todo porque algunas de las informaciones no eran de interés desde el punto de vista del reconocimiento automático del habla, pero también para adaptar las convenciones ortográficas y el formato de las anotaciones a nuestras necesidades; en segundo lugar se han revisado y aumentado las anotaciones resultantes, a˜nadiendo marcas acústicas y léxicas: ruidos, pausas de silencio, pausas habladas, alargamientos, palabras cortadas o mal pronunciadas, etc. Aunque no se ha llegado a completar la anotación del subcorpus, las estadísticas de aparición de los fenómenos anotados hasta la fecha dan una idea de la importancia que puede tener su modelado en el rendimiento de los sistemas de reconocimiento y comprensión del habla.