Tratamiento Digital de la Voz
Curso: 2004 - 2005

 
 
 

Tests de Últimos Cursos Tests Últimos Cursos!!! Pulsa y ESPERA la descarga de los Tests de los Útimos Cursos (2000-2003) (1.85 MB)!!

CONTENIDO:

OBJETIVOS

La importancia que siempre ha tenido la voz en el proceso de comunicación humana se ve, en nuestros días, incrementada por el rápido avance tecnológico. La enorme cantidad de posibilidades que la tecnología digital, basada en el desarrollo de microprocesadores cada vez más potentes, ofrece, hace que las aplicaciones del procesado digital de la señal se multipliquen. Entre estas aplicaciones, las que afectan a la señal de voz han permitido disponer de un conjunto de servicios hasta hace algunos años impensables. Redes de integración de voz y datos, diálogo hombre-máquina, síntesis a partir de texto, reconocimiento de locutores, son algunos ejemplos de los logros alcanzados por el procesado digital de la señal de voz.

Es, por tanto, ésta una de las áreas de trabajo, comprendida dentro de la Ingeniería de Telecomunicación pero con gran conexión a diversas disciplinas,que concentra un importante número de recursos humanos y materiales.  El objetivo general de la asignatura es proporcionar un conocimiento básico sobre principios, técnicas y aplicaciones del procesado digital de la señal de voz. Un curso básico como éste, y con una duración restringida, ha de entenderse como un primer acercamiento a la problemática del procesado digital de la voz. En consecuencia, nuestro objetivo genérico se concentrará en los siguientes aspectos:

1. Estudio de las peculiaridades de la señal de voz a partir del conocimiento del mecanismo de producción de sonidos en el hombre.  La señal de voz presenta unas características específicas que dificultan pero -al mismo tiempo- hacen atractivo su estudio. La aplicación de técnicas de procesado de señal que no tengan en cuenta las características de la voz está condenada al fracaso o -al menos- a resultado spoco eficientes. Es por tanto imprescindible comenzar estudiando esas características de la voz.

2. Estudio del proceso de percepción de sonidos en el hombre.  Si la comprensión del proceso de producción de sonidos es fundamental para ganar eficiencia en las técnicas deprocesado de señal que actúen sobre la voz, la percepción de sonidos juega un papel tan importante como el anterior. Sin embargo,desgraciadamente aún en nuestros días los conocimientos sobre la percepción de sonidos en el hombre son escasos y limitados. En el curso revisaremos aquellos aspectos de lapercepción de sonidos que actualmente se incorporan a estudios y aplicaciones de procesado de la señal de voz.

3. Principales técnicas de análisis sobre la señal de voz.  La mayor parte de las aplicaciones de procesado digital de la voz comparten un conjunto de técnicas de análisis comunes. Su estudio, sin perder de vista las características de la voz, será el objetivo del tercero de los principales bloques que componen el temario de la asignatura. Tras él, entraremos en la presentación de las tres principales aplicaciones del procesado digital de la señal de voz: codificación, síntesis y reconocimiento.

4. Codificación de voz.  La representación digital de la señal de voz está sujeta a los siguientes parámetros: velocidad de transmisión (número de bits por segundo); tiempo de retardo (desde que entra la voz en el sistema de representación hasta que sale); calidad de la señal resultante (tras volver al formato analógico); y, finalmente, complejidad de realización (que dependerá en gran medida de la tecnología disponible). Un codificador será tanto más eficiente cuanto mayor calidad ofrezca y menor velocidad, tiempo de retardo y complejidad requiera. El diseño de un codificador eficiente deberá hacerse combinando técnicas de procesado eficientes con un buen conocimiento de la señal de voz (producción/percepción). Bajo la idea anterior estudiaremos los principales algoritmos de codificación existentes en nuestros días.

5. Síntesis.  La síntesis de voz es otra de las grandes reasde aplicación del procesado digital de la voz. En esta asignatura no podemos entrar en detalle en todos los problemas que esta aplicación plantea, pero sí abordaremos los principios que guían el diseño de los principales sistemas de síntesis de voz.

6. Reconocimiento.  El reconocimiento, en sus dos vertientes, reconocimiento del habla / reconocimiento de locutores, será la tercera de las aplicaciones del procesado de la señal de voz que consideraremos. Estudiaremos los principios básicos de reconocimiento de voz y los de verificación/identificaciónde locutores.

7. Los sistemas de diálogo hombre-máquina. Revisaremos la problemática asociada al diseño y la evaluación de de sistemas de diálogo, y analizaremos la propuesta que suponen los estándares VoiceXML y SALT.
 

METODOLOGÍA

La impartición de la asignatura supondrá cuatro horas de teoría semanales, destinadas al estudio de los seis puntos descritos en el apartado anterior, y siguiendo el temario que se indica en este documento. El contenido de conocimientos teóricos de la asignatura se podrá completar con la elaboración de ejercicios prácticos en la asignatura Laboratorio de Tratamiento Digital de la Voz . . En cualquier caso, siempre que la disponibilidad del Laboratorio de Tratamiento Digital de Voz lo permita, ilustraremos el desarrollo teórico de la asignatura con explicaciones de carácter práctico en el laboratorio.

Además de los contenidos teóricos que se imparten, se pretende poner en contacto al alumno con las fuentes de información (libros, revistas, ... ) más importantes en el ámbito del Procesado de Voz, y con las principales herramientas software y hardware disponibles para el desarrollo de aplicaciones de la Tecnología del Habla.

Finalmente, dependiendo del número de alumnos que cursen la asignatura, además de la asistencia a clase, se podrá requerir a los alumnos la elaboración de breves trabajos de iniciación a los principales temas de estudio y la participación activa en las clases teóricas. Con ello se pretende:

EVALUACIÓN

La evaluación de la asignatura se podrá realizar eligiendo una de las dos vías siguientes:
 
  1. A través de examen escrito compuesto de dos partes: a) una donde se pretende evaluar aquellos conocimientos básicos de la asignatura (cuestiones de teoría sin libros), y b) otra en la que se pretende que el alumno analice algún supuesto práctico (problemas con libros y apuntes).
  2.  
  3. A través de trabajos según las pautas que se indiquen en las clases teóricas. En estos trabajos se buscará, fundamentalmente, seguir el desarrollo de algún aspecto puntual en una determinada aplicación del Procesado Digital de Voz. La metodolgía será la búsqueda de información en libros y revistas especializadas. Adicionalmente se realizará un examen de cuestiones cortas relativas a conceptos básicos generales de la asignatura.
 

PROFESORADO

El profesor encargado de la docencia de la asignatura, junto a su horario de clases teóricas y de consulta es:

 Profesor: Luis A. Hernández Gómez (Coordinador) * Despacho C-330

 Profesor: Eduardo López Gonzalo Despacho C-330
 
HORARIO Prof. Luis Hernández LUNES MARTES MIERCOLES JUEVES VIERNES
8 - 9




9 - 10




10 - 11




11 - 12




12 - 13




13 - 14




14 - 15




15 - 16




16 - 17
C X C
17 - 18
C P C
18 - 19
X
X
19 - 20
X
X
 

C: Clases teóricas X

P: Hora de atención preferente. No es necesario fijar la consulta previamente.

X: Es necesario fijar la hora de consulta previamente con el profesor.

TEMARIO

El temario de la asignatura se ajusta, en gran parte, al contenido del libro:
 

Speech Synthesis and Recognition

J.N. Holmes, W.J. Holmes
Taylor & Francis Ed.

 
 

Algunos temas, sin embargo, deberán tratarse a lmargen del contenido del libro, especialmente:

  1. Dado que no se trata de un autor español, las nociones de fonética contenidas en el libro no corresponden a la lengua castellana. Y por este motivo recurriremos a otras fuentes.
  2. El libro no contempla el tema de percepción desonidos al que dedicaremos al menos dos horas.
  3. También se proporcionará fuentes de información específica para aspectos relacionados con aplicaciones muy recientes y herramientas de desarrollo hardware y software.
Tema 1: Producción de sonidos y fonética (capítulos 1 & 2) Tema 2: El oído y la percepción de voz (capítulo 3) Tema 3: Técnicas de análisis en tiempo y frecuencia (capítulos 4 & 8) Tema 4: Síntesis (capítulos 5,6 & 7) Tema 5: Codificación de voz (capítulo 4) Tema 6: Reconocimiento de voz (capítulos 8, 9, 10, 11 & 12)

Tema 7: Sistemas de Diálogo (capítulos 13 & 14)

 
 

BIBLIOGRAFIA COMPLEMENTARIA

  1. HLTsurvey Recopilación de los principales temas de Tecnologías del Habla y enlaces a diferentes textos en INTERNET.
  2. Directorio General de Tecnologías del Habla Referencias, Herramientas de Desarrollo, Productos.
  3. - OShaughnessy, SpeechCommunication. Human and machine. Addisson-Wesley1987.
  4. - J. Deller, J. Proakis and J. Hansen, Discrete-Time Processing of Speech Signals. John Wiley & Sons Inc, 1999.
  5. - L.R. Rabiner and R.W. Schafer, DigitalProcessing of Speech Signals, Prentice-Hall, 1978.
  6. - I.H. Witten, Principles of Computer Speech, Academic Press,1982.
  7. - A. Quilis, Fonética Acústica de la Lengua Española,Ed. Gredos, 1981.
  8. - J.D. Markel and A.H Gray Jr., LinearPrediction of Speech, Springer- Verlag, New York, 1976.
  9. - Sadaoki Furui, Digital Speech ProcessingSynthesis and Recognition (Second Edition, Revised and Expanded) Marcel Dekker, Inc. New York, 2001.
  10. - X. Huang, A. Acero and H-W Hon,, Spoken Language Processing: A Guide to theory, algorithm, and system development Prentice Hall, New Jersey, 2001.
  11. - Joseph Picone, Curso: Fundamentals of Speech Recognition, Dept. of Elect. and Comp. Eng., Mississippi State University..
  12. - Thierry Dutoit, A Short Introduction to Text-to-Speech Synthesis, TTS Research Team, TCTS Lab.
  13. - Miguel A. Rodríguez et al., Estado del Arte en Tecnologías de Voz Comunicaciones de Telefónica I+D, no. 20: 117-136, 2001.
  14. - Luis Hernández et al., Estado del Arte en Tecnologías del Habla Comunicaciones de Telefónica I+D, no. 10, diciembre, 1994.
  15. - F. Catejón et al., Un Conversor Texto-Voz para Español Comunicaciones de Telefónica I+D, no. 10, diciembre, 1994.
  16. - J. Calero et al., Acceso Vocal a Contenidos de Internet: Plataforma IVLM Comunicaciones de Telefónica I+D, no. 20, marzo, 2001.

 

TEMAS PARA TRABAJOS: CURSO 2003-2004

Acceso a las Presentaciones de los Trabajos Realizados durante el Curso 2001-2002

Acceso a las Presentaciones de los Trabajos Realizados durante el Curso 2002-2003

Acceso a las Presentaciones de los Trabajos Realizados durante el Curso 2003-2004

Tests de Últimos Cursos Tests Últimos Cursos!!! Pulsa y ESPERA la descarga de los Tests de los Útimos Cursos (2000-2003) (1,85 MB)!!

  1. Codificación de voz en GSM: estándares EFR y AMR
  2. Codificación de voz para IP: estándares G729a y G723
  3. Transmisión de voz para IP: estándar H323, problemas, aproximaciones
  4. Proceso Acústico en Conversión Texto-Voz: síntesis por concatenación de unidades acústicas
  5. Proceso Prosódico en Conversión Texto-Voz: modelado de f0 y duración
  6. Proceso Acústico en Sistemas de Reconocimiento de Habla
  7. Robustez en Sistemas de Reconocimiento de Habla
  8. Modelado Acústico de sonidos mediante Modelos Ocultos de Markov (HMM) en Sistemas de Reconocimiento de Habla
  9. Modelado de Lenguaje en Sistemas de Reconocimiento de Habla: N-Gramas
  10. Reconocimiento de Habla para Terminales Portátiles: Reconocimiento Distribuido (Proyecto AURORA)
  11. Sistemas de Reconocimiento de Locutores basados en Mezclas de Gaussianas (GMM)
  12. Sistemas de Reconocimiento de Locutores basados en Cuantificación Vectorial (VQ)
  13. Sistemas de Identificación Automática del Lenguaje: basados en Modelos Ocultos de Markov (HMM)
  14. Sistemas de Diálogo : Voice XML
  15. Sistemas de Diálogo : SALT
  16. Software de Desarrollo de Aplicaciones de Tecnología del Habla
 Este documento está disponible en : ftp.gaps.ssr.upm.es/pub/TDV