Image captioning based on a visual attention approach / Roberto Raúl Castro Izurieta ; tutor Manuel Eugenio Morocho Cayamcela

Por: Colaborador(es): Tipo de material: TextoTextoIdioma: Inglés Idioma del resumen: Español Fecha de copyright: Urcuquí, 2022Descripción: 75 hojas : ilustraciones (algunas a color) ; 30 cm + 1 CD-ROMTema(s): Recursos en línea: Nota de disertación: Trabajo de integración curricular (Ingeniero/a en tecnologías de la información). Universidad de Investigación de Tecnología Experimental Yachay. Urcuquí, 2022 Resumen: Este trabajo se centra en atención visual, un enfoque de vanguardia para las tareas de subtitulación de imágenes dentro del área de visión por ordenador. Estudiamos el impacto, en términos de eficiencia, que generan diferentes configuraciones de hiperparámetros en una arquitectura de atención visual codificadora-decodificadora. Los resultados muestran que la correcta selección tanto de la función de coste como del optimizador basado en el gradiente puede tener un impacto significativo en los resultados del subtitulado. Nuestro sistema considera las funciones de pérdida de entropía cruzada, divergencia de Kullback-Leibler, error medio al cuadrado y log-verosimilitud negativa, as ́ı como los optimizadores de momento adaptativo (Adam), AdamW, RMSprop, descenso de gradiente estocástico y Adadelta. Tras la experimentación, se identifica una combinación de entropía cruzada con Adam como la mejor alternativa que devuelve un valor de precisión Top-5 de 73,092, y un BLEU-4 de 20,10. Además, se realizó un análisis comparativo de arquitecturas convolucionales alternativas para demostrar su rendimiento como codificador. Nuestros resultados muestran que ResNext-101 destaca con una precisión Top-5 de 73,128, y un BLEU-4 de 19,80; posicionándose como la mejor opción cuando se busca la calidad óptima de subtitulado. Sin embargo, MobileNetV3 demostró ser una alternativa mucho m ́as compacta con 2.971.952 parámetros y 0,23 giga de operaciones de multiplicación-acumulación de punto fijo por segundo (GMAC). En consecuencia, MobileNetV3 ofrece una calidad de salida competitiva a costa de un menor rendimiento computacional, respaldado por los valores de 19,50 y 72,928 para el BLEU-4 y el Top-5 Accuracy, respectivamente. Por último, al probar los modelos transformadores de visión (ViT), y transformador de imagen con eficiencia de datos (DeiT) para sustituir el componente convolucional de la arquitectura, DeiT logró una mejora sobre ViT, obteniendo un valor de 34,44 en la métrica BLEU-4.
Etiquetas de esta biblioteca: No hay etiquetas de esta biblioteca para este título. Ingresar para agregar etiquetas.
Valoración
    Valoración media: 0.0 (0 votos)
Existencias
Tipo de ítem Biblioteca actual Signatura Copia número Estado Fecha de vencimiento Código de barras Reserva de ítems
Tesis Tesis Biblioteca Yachay Tech ECMC0103 (Navegar estantería(Abre debajo)) 1 No para préstamo T000421
Total de reservas: 0

Trabajo de integración curricular (Ingeniero/a en tecnologías de la información). Universidad de Investigación de Tecnología Experimental Yachay. Urcuquí, 2022

Incluye referencias bibliográficas (páginas 47-53)

Trabajo de integración curricular con acceso abierto

Texto (Hypertexto links)

Este trabajo se centra en atención visual, un enfoque de vanguardia para las tareas de subtitulación de imágenes dentro del área de visión por ordenador. Estudiamos el impacto, en términos de eficiencia, que generan diferentes configuraciones de hiperparámetros en una arquitectura de atención visual codificadora-decodificadora. Los resultados muestran que la correcta selección tanto de la función de coste como del optimizador basado en el gradiente puede tener un impacto significativo en los resultados del subtitulado. Nuestro sistema considera las funciones de pérdida de entropía cruzada, divergencia de Kullback-Leibler, error medio al cuadrado y log-verosimilitud negativa, as ́ı como los optimizadores de momento adaptativo (Adam), AdamW, RMSprop, descenso de gradiente estocástico y Adadelta. Tras la experimentación, se identifica una combinación de entropía cruzada con Adam como la mejor alternativa que devuelve un valor de precisión Top-5 de 73,092, y un BLEU-4 de 20,10. Además, se realizó un análisis comparativo de arquitecturas convolucionales alternativas para demostrar su rendimiento como codificador. Nuestros resultados muestran que ResNext-101 destaca con una precisión Top-5 de 73,128, y un BLEU-4 de 19,80; posicionándose como la mejor opción cuando se busca la calidad óptima de subtitulado. Sin embargo, MobileNetV3 demostró ser una alternativa mucho m ́as compacta con 2.971.952 parámetros y 0,23 giga de operaciones de multiplicación-acumulación de punto fijo por segundo (GMAC). En consecuencia, MobileNetV3 ofrece una calidad de salida competitiva a costa de un menor rendimiento computacional, respaldado por los valores de 19,50 y 72,928 para el BLEU-4 y el Top-5 Accuracy, respectivamente. Por último, al probar los modelos transformadores de visión (ViT), y transformador de imagen con eficiencia de datos (DeiT) para sustituir el componente convolucional de la arquitectura, DeiT logró una mejora sobre ViT, obteniendo un valor de 34,44 en la métrica BLEU-4.

Textos en inglés con resúmenes en español e inglés

No hay comentarios en este titulo.

para colocar un comentario.

Ayuda

X

Correo: bibliotecayachaytech@yachaytech.edu.ec
Teléfono:+593 6299 9500 Ext. 2517

Horario de atención:

X

BIBLIOTECA UNIVERSIDAD YACHAY TECH

  • Área: Fondo Impreso
    Lunes a Viernes de 08h00 a 20h30
    Sábado de 08h00 a 16h30
  • Área: Ingenio
    Abierto 24 horas 7 días
  • Área: Bloque de Servicios, 2do. Piso
    Espacios de Estudio Grupal e Individual, abierto 24 horas 7 días

Recuerda que los espacios son compartidos por toda la comunidad, por lo que debes hacer un uso adecuado
del tiempo que los ocupes, mantenerlos limpios y evitar el daño a las instalaciones y bienes materiales.

También puedes usar nuestros canales de comunicación:

Correo: bibliotecayachaytech@yachaytech.edu.ec
Teléfono: +593 6299 9500 Ext. 2517
Ubicación: San Miguel de Urcuquí, Hacienda San José s/n y Proyecto Yachay

Video

X