Image captioning based on a visual attention approach / Roberto Raúl Castro Izurieta ; tutor Manuel Eugenio Morocho Cayamcela

Por:

Castro Izurieta, Roberto Raúl [autor]

Colaborador(es):

Tipo de material: Texto

TextoIdioma: Inglés Idioma del resumen: Español Fecha de copyright: Urcuquí, 2022Descripción: 75 hojas : ilustraciones (algunas a color) ; 30 cm + 1 CD-ROMTema(s):

Recursos en línea:

Ver recurso

Nota de disertación: Trabajo de integración curricular (Ingeniero/a en tecnologías de la información). Universidad de Investigación de Tecnología Experimental Yachay. Urcuquí, 2022 Resumen: Este trabajo se centra en atención visual, un enfoque de vanguardia para las tareas de subtitulación de imágenes dentro del área de visión por ordenador. Estudiamos el impacto, en términos de eficiencia, que generan diferentes configuraciones de hiperparámetros en una arquitectura de atención visual codificadora-decodificadora. Los resultados muestran que la correcta selección tanto de la función de coste como del optimizador basado en el gradiente puede tener un impacto significativo en los resultados del subtitulado. Nuestro sistema considera las funciones de pérdida de entropía cruzada, divergencia de Kullback-Leibler, error medio al cuadrado y log-verosimilitud negativa, as ́ı como los optimizadores de momento adaptativo (Adam), AdamW, RMSprop, descenso de gradiente estocástico y Adadelta. Tras la experimentación, se identifica una combinación de entropía cruzada con Adam como la mejor alternativa que devuelve un valor de precisión Top-5 de 73,092, y un BLEU-4 de 20,10. Además, se realizó un análisis comparativo de arquitecturas convolucionales alternativas para demostrar su rendimiento como codificador. Nuestros resultados muestran que ResNext-101 destaca con una precisión Top-5 de 73,128, y un BLEU-4 de 19,80; posicionándose como la mejor opción cuando se busca la calidad óptima de subtitulado. Sin embargo, MobileNetV3 demostró ser una alternativa mucho m ́as compacta con 2.971.952 parámetros y 0,23 giga de operaciones de multiplicación-acumulación de punto fijo por segundo (GMAC). En consecuencia, MobileNetV3 ofrece una calidad de salida competitiva a costa de un menor rendimiento computacional, respaldado por los valores de 19,50 y 72,928 para el BLEU-4 y el Top-5 Accuracy, respectivamente. Por último, al probar los modelos transformadores de visión (ViT), y transformador de imagen con eficiencia de datos (DeiT) para sustituir el componente convolucional de la arquitectura, DeiT logró una mejora sobre ViT, obteniendo un valor de 34,44 en la métrica BLEU-4.

Etiquetas de esta biblioteca: No hay etiquetas de esta biblioteca para este título. Ingresar para agregar etiquetas.

Existencias
Tipo de ítem	Biblioteca actual	Signatura	Copia número	Estado	Fecha de vencimiento	Código de barras	Reserva de ítems
Tesis	Biblioteca Yachay Tech	ECMC0103 (Navegar estantería(Abre debajo))	1	No para préstamo		T000421

Total de reservas: 0

Trabajo de integración curricular (Ingeniero/a en tecnologías de la información). Universidad de Investigación de Tecnología Experimental Yachay. Urcuquí, 2022

Incluye referencias bibliográficas (páginas 47-53)

Trabajo de integración curricular con acceso abierto

Texto (Hypertexto links)

Este trabajo se centra en atención visual, un enfoque de vanguardia para las tareas de subtitulación de imágenes dentro del área de visión por ordenador. Estudiamos el impacto, en términos de eficiencia, que generan diferentes configuraciones de hiperparámetros en una arquitectura de atención visual codificadora-decodificadora. Los resultados muestran que la correcta selección tanto de la función de coste como del optimizador basado en el gradiente puede tener un impacto significativo en los resultados del subtitulado. Nuestro sistema considera las funciones de pérdida de entropía cruzada, divergencia de Kullback-Leibler, error medio al cuadrado y log-verosimilitud negativa, as ́ı como los optimizadores de momento adaptativo (Adam), AdamW, RMSprop, descenso de gradiente estocástico y Adadelta. Tras la experimentación, se identifica una combinación de entropía cruzada con Adam como la mejor alternativa que devuelve un valor de precisión Top-5 de 73,092, y un BLEU-4 de 20,10. Además, se realizó un análisis comparativo de arquitecturas convolucionales alternativas para demostrar su rendimiento como codificador. Nuestros resultados muestran que ResNext-101 destaca con una precisión Top-5 de 73,128, y un BLEU-4 de 19,80; posicionándose como la mejor opción cuando se busca la calidad óptima de subtitulado. Sin embargo, MobileNetV3 demostró ser una alternativa mucho m ́as compacta con 2.971.952 parámetros y 0,23 giga de operaciones de multiplicación-acumulación de punto fijo por segundo (GMAC). En consecuencia, MobileNetV3 ofrece una calidad de salida competitiva a costa de un menor rendimiento computacional, respaldado por los valores de 19,50 y 72,928 para el BLEU-4 y el Top-5 Accuracy, respectivamente. Por último, al probar los modelos transformadores de visión (ViT), y transformador de imagen con eficiencia de datos (DeiT) para sustituir el componente convolucional de la arquitectura, DeiT logró una mejora sobre ViT, obteniendo un valor de 34,44 en la métrica BLEU-4.

Textos en inglés con resúmenes en español e inglés

No hay comentarios en este titulo.

para colocar un comentario.