Describir: Descubrimiento de objetos visuales sin supervisión usando palabras visuales co-ocurrentes