Describir: Redes neuronales profundas para el reconocimiento del habla con datos audiovisuales