Tratamiento Digital de la Voz
Curso: 2009 - 2010
Pulsa y ESPERA la descarga de los Tests de los Útimos Cursos (2000-2003) (1.85 MB)!!
CONTENIDO:

OBJETIVOS
La importancia que siempre ha tenido la voz en el proceso de comunicación
humana se ve, en nuestros días, incrementada por el rápido
avance tecnológico. La enorme cantidad de posibilidades que la tecnología
digital, basada en el desarrollo de microprocesadores cada vez más
potentes, ofrece, hace que las aplicaciones del procesado digital de la
señal se multipliquen. Entre estas aplicaciones, las que afectan
a la señal de voz han permitido disponer de un conjunto de servicios
hasta hace algunos años impensables. Redes de integración
de voz y datos, diálogo hombre-máquina, síntesis a
partir de texto, reconocimiento de locutores, son algunos ejemplos de los
logros alcanzados por el procesado digital de la señal de voz.
Es, por tanto, ésta una de las áreas de trabajo, comprendida
dentro de la Ingeniería de Telecomunicación pero con gran
conexión a diversas disciplinas,que concentra un importante número
de recursos humanos y materiales. El objetivo general de la asignatura
es proporcionar un conocimiento básico sobre principios, técnicas
y aplicaciones del procesado digital de la señal de voz. Un curso
básico como éste, y con una duración restringida,
ha de entenderse como un primer acercamiento a la problemática del
procesado digital de la voz. En consecuencia, nuestro objetivo genérico
se concentrará en los siguientes aspectos:
1. Estudio de las peculiaridades de la señal de voz a partir
del conocimiento del mecanismo de producción de sonidos en el hombre.
La señal de voz presenta unas características específicas
que dificultan pero -al mismo tiempo- hacen atractivo su estudio. La aplicación
de técnicas de procesado de señal que no tengan en cuenta
las características de la voz está condenada al fracaso o
-al menos- a resultado spoco eficientes. Es por tanto imprescindible comenzar
estudiando esas características de la voz.
2. Estudio del proceso de percepción de sonidos en el hombre.
Si la comprensión del proceso de producción de sonidos es
fundamental para ganar eficiencia en las técnicas deprocesado de
señal que actúen sobre la voz, la percepción de sonidos
juega un papel tan importante como el anterior. Sin embargo,desgraciadamente
aún en nuestros días los conocimientos sobre la percepción
de sonidos en el hombre son escasos y limitados. En el curso revisaremos
aquellos aspectos de lapercepción de sonidos que actualmente se
incorporan a estudios y aplicaciones de procesado de la señal de
voz.
3. Principales técnicas de análisis sobre la señal
de voz. La mayor parte de las aplicaciones de procesado digital de
la voz comparten un conjunto de técnicas de análisis comunes.
Su estudio, sin perder de vista las características de la voz, será
el objetivo del tercero de los principales bloques que componen el temario
de la asignatura. Tras él, entraremos en la presentación
de las tres principales aplicaciones del procesado digital de la señal
de voz: codificación, síntesis y reconocimiento.
4. Codificación de voz. La representación digital
de la señal de voz está sujeta a los siguientes parámetros:
velocidad de transmisión (número de bits por segundo); tiempo
de retardo (desde que entra la voz en el sistema de representación
hasta que sale); calidad de la señal resultante (tras volver al
formato analógico); y, finalmente, complejidad de realización
(que dependerá en gran medida de la tecnología disponible).
Un codificador será tanto más eficiente cuanto mayor calidad
ofrezca y menor velocidad, tiempo de retardo y complejidad requiera. El
diseño de un codificador eficiente deberá hacerse combinando
técnicas de procesado eficientes con un buen conocimiento de la
señal de voz (producción/percepción). Bajo la idea
anterior estudiaremos los principales algoritmos de codificación
existentes en nuestros días.
5. Síntesis. La síntesis de voz es otra de las grandes
reasde aplicación del procesado digital de la voz. En esta asignatura
no podemos entrar en detalle en todos los problemas que esta aplicación
plantea, pero sí abordaremos los principios que guían el
diseño de los principales sistemas de síntesis de voz.
6. Reconocimiento. El reconocimiento, en sus dos vertientes, reconocimiento
del habla / reconocimiento de locutores, será la tercera de las
aplicaciones del procesado de la señal de voz que consideraremos.
Estudiaremos los principios básicos de reconocimiento de voz y los
de verificación/identificaciónde locutores.
7. Los sistemas de diálogo hombre-máquina. Revisaremos la
problemática asociada al diseño y la evaluación de
de sistemas de diálogo, y analizaremos la propuesta que suponen los estándares VoiceXML y SALT.
METODOLOGÍA
La impartición de la asignatura supondrá cuatro horas de
teoría semanales, destinadas al estudio de los seis puntos descritos
en el apartado anterior, y siguiendo el temario que se indica en este documento.
El contenido de conocimientos teóricos de la asignatura se podrá
completar con la elaboración de ejercicios prácticos en la
asignatura Laboratorio
de Tratamiento Digital de la Voz . . En cualquier caso, siempre que
la disponibilidad del Laboratorio de Tratamiento Digital de Voz lo permita,
ilustraremos el desarrollo teórico de la asignatura con explicaciones
de carácter práctico en el laboratorio.
Además de los contenidos teóricos que se imparten, se
pretende poner en contacto al alumno con las fuentes de información
(libros, revistas, ... ) más importantes en el ámbito del
Procesado de Voz, y con las principales herramientas software y hardware
disponibles para el desarrollo de aplicaciones de la Tecnología
del Habla.
Finalmente, dependiendo del número de alumnos que cursen la asignatura,
además de la asistencia a clase, se podrá requerir a los
alumnos la elaboración de breves trabajos de iniciación a
los principales temas de estudio y la participación activa en las
clases teóricas. Con ello se pretende:
-
Facilitar la asimilación de conceptos.
-
Proporcionar una guía de estudio.
-
Incentivar la participación en las clases teóricas.
-
Dar a conocer la fuentes de información bibliográfica.
-
Favorecer el establecimiento de una evaluación continuada.
EVALUACIÓN
La evaluación de la asignatura se podrá realizar eligiendo
una de las dos vías siguientes:
-
A través de examen escrito compuesto de dos partes: a) una donde
se pretende evaluar aquellos conocimientos básicos de la asignatura
(cuestiones de teoría sin libros), y b) otra en la que se pretende
que el alumno analice algún supuesto práctico (problemas
con libros y apuntes).
-
A través de trabajos según las pautas que se indiquen en
las clases teóricas. En estos trabajos se buscará, fundamentalmente,
seguir el desarrollo de algún aspecto puntual en una determinada
aplicación del Procesado Digital de Voz. La metodolgía será
la búsqueda de información en libros y revistas especializadas.
Adicionalmente se realizará un examen de cuestiones cortas
relativas a conceptos básicos generales de la asignatura.
PROFESORADO
El profesor encargado de la docencia de la asignatura, junto a su horario
de clases teóricas y de consulta es:
Profesor: Luis
A. Hernández Gómez (Coordinador) * Despacho C-330
Profesor:
Eduardo López Gonzalo Despacho C-330
| HORARIO Prof. Luis Hernández |
LUNES |
MARTES |
MIERCOLES |
JUEVES |
VIERNES |
| 8 - 9 |
|
|
|
|
|
| 9 - 10 |
|
|
|
|
|
| 10 - 11 |
|
|
|
|
|
| 11 - 12 |
|
|
|
|
|
| 12 - 13 |
|
|
|
|
|
| 13 - 14 |
|
|
|
|
|
| 14 - 15 |
|
|
|
|
|
| 15 - 16 |
|
|
|
|
|
| 16 - 17 |
|
X |
X |
X |
|
| 17 - 18 |
|
X |
P |
X |
|
| 18 - 19 |
|
C |
|
C |
|
| 19 - 20 |
|
C |
|
C |
|
C: Clases teóricas
X
P: Hora de atención preferente. No es necesario fijar la consulta
previamente.
X: Es necesario fijar la hora de consulta previamente con el profesor.
TEMARIO
El temario de la asignatura se ajusta, en gran parte, al contenido del
libro:
Speech Synthesis and Recognition
J.N. Holmes, W.J. Holmes
Taylor & Francis Ed.
Algunos temas, sin embargo, deberán tratarse a lmargen del contenido
del libro, especialmente:
-
Dado que no se trata de un autor español, las nociones de fonética
contenidas en el libro no corresponden a la lengua castellana. Y por este
motivo recurriremos a otras fuentes.
-
El libro no contempla el tema de percepción desonidos al que dedicaremos
al menos dos horas.
-
También se proporcionará fuentes de información específica
para aspectos relacionados con aplicaciones muy recientes y herramientas
de desarrollo hardware y software.
Tema 1: Producción de sonidos y fonética (capítulos
1 & 2)
-
Mecanismo de producción de sonidos
-
Fonética (nociones)
-
Teoría acústica de producción de sonidos(simplificada)
-
Modelos prácticos del tracto vocal para análisis y generación
de voz
Tema 2: El oído y la percepción de voz (capítulo
3)
-
Anatomía y fisiología del oído
-
Percepción de sonidos
-
Aplicación del conocimiento sobre percepción en procesado
de voz.
Tema 3: Técnicas de análisis en tiempo y frecuencia (capítulos
4 & 8)
-
Análisis localizado (medidas temporales)
-
Análisis espectral
-
Cepstrum
-
Estima de la frecuencia fundamental
-
Predicción lineal
Tema 4: Síntesis (capítulos 5,6 & 7)
-
Principios de síntesis de voz
-
Métodos de síntesis (revisión)
Tema 5: Codificación de voz (capítulo 4)
-
Cuantificación
-
Codificación de forma de onda en el tiempo
-
Cuantificación escalar / vectorial.
-
Codificación en el dominio de la frecuencia
-
Codificadores híbridos. GSM y VoIP
-
Codificadores de baja y muy baja velocidad.
Tema 6: Reconocimiento de voz (capítulos 8, 9, 10, 11 & 12)
-
Principios de reconocimiento de voz y de locutores
-
Medidas de distancia
-
Estructura de los reconocedores de palabras aisladas
-
Programación dinámica (DTW)
-
Modelos de Markov
-
Redes Neuronales
-
Reconocimiento de palabras concatenadas y habla continua.
Tema 7: Sistemas de Diálogo (capítulos 13 & 14)
-
Problemática de diseño y evaluación
-
VoiceXML
-
SALT
BIBLIOGRAFIA COMPLEMENTARIA
-
HLTsurvey Recopilación
de los principales temas de Tecnologías del Habla y enlaces a diferentes
textos en INTERNET.
-
Directorio General de Tecnologías del Habla Referencias, Herramientas de Desarrollo, Productos.
-
- OShaughnessy, SpeechCommunication. Human and machine. Addisson-Wesley1987.
-
- J. Deller, J. Proakis and J. Hansen, Discrete-Time Processing of Speech Signals. John Wiley & Sons Inc, 1999.
-
- L.R. Rabiner and R.W. Schafer, DigitalProcessing of Speech Signals,
Prentice-Hall, 1978.
-
- I.H. Witten, Principles of Computer Speech, Academic Press,1982.
-
- A. Quilis, Fonética Acústica de la Lengua Española,Ed.
Gredos, 1981.
-
- J.D. Markel and A.H Gray Jr., LinearPrediction of Speech, Springer- Verlag,
New York, 1976.
-
- Sadaoki Furui, Digital Speech ProcessingSynthesis and Recognition (Second Edition, Revised and Expanded)
Marcel Dekker, Inc. New York, 2001.
-
- X. Huang, A. Acero and H-W Hon,, Spoken Language Processing: A Guide to theory, algorithm, and system development Prentice Hall, New Jersey, 2001.
-
- Joseph Picone, Curso: Fundamentals of Speech Recognition, Dept. of Elect. and Comp. Eng., Mississippi State University..
-
- Thierry Dutoit, A Short Introduction to Text-to-Speech Synthesis, TTS Research Team, TCTS Lab.
-
- Miguel A. Rodríguez et al., Estado del Arte en Tecnologías de Voz Comunicaciones de Telefónica I+D, no. 20: 117-136, 2001.
-
- Luis Hernández et al., Estado del Arte en Tecnologías del Habla Comunicaciones de Telefónica I+D, no. 10, diciembre, 1994.
-
- F. Catejón et al., Un Conversor Texto-Voz para Español Comunicaciones de Telefónica I+D, no. 10, diciembre, 1994.
-
- J. Calero et al., Acceso Vocal a Contenidos de Internet: Plataforma IVLM Comunicaciones de Telefónica I+D, no. 20, marzo, 2001.
TEMAS PARA TRABAJOS: CURSO 2009-2010
Pulsa y ESPERA la descarga de los Tests de los Útimos Cursos (2000-2003) (1,85 MB)!!
-
Codificación de voz en GSM: estándares EFR y AMR
-
Codificación de voz para IP: estándares G729a y G723
-
Transmisión de voz para IP: estándares SIP - H323, problemas, aproximaciones
-
Proceso Acústico en Conversión Texto-Voz: síntesis por concatenación de unidades acústicas
-
Proceso Prosódico en Conversión Texto-Voz: modelado de f0 y duración
-
Proceso Acústico en Sistemas de Reconocimiento de Habla
-
Robustez en Sistemas de Reconocimiento de Habla
-
Modelado Acústico de sonidos mediante Modelos Ocultos de Markov (HMM) en Sistemas de Reconocimiento de Habla
-
Modelado de Lenguaje en Sistemas de Reconocimiento de Habla: N-Gramas
-
Reconocimiento de Habla para Terminales Portátiles: Reconocimiento Distribuido (Proyecto AURORA)
-
Sistemas de Reconocimiento de Locutores basados en Mezclas de Gaussianas (GMM)
-
Sistemas de Reconocimiento de Locutores basados en Cuantificación Vectorial (VQ)
-
Sistemas de Identificación Automática del Lenguaje: basados en Modelos Ocultos de Markov (HMM)
-
Sistemas de Diálogo : Voice XML
-
Sistemas de Diálogo : SALT
-
Sistemas Multimodales
-
Software de Desarrollo de Aplicaciones de Tecnología del Habla
Este documento está disponible en : ftp.gaps.ssr.upm.es/pub/TDV