Boosting image captioning using ConvNeXt deep neural networks/ Leo Thomas Ramos Granda ; tutor Manuel Eugenio Morocho Cayamcela

Por:

Ramos Granda, Leo Thomas [autor]

Colaborador(es):

Tipo de material: Texto

TextoIdioma: Inglés Idioma del resumen: Español Fecha de copyright: Urcuquí, 2023Descripción: 81 hojas : ilustraciones (algunas a color) ; 30 cm + 1 CD-ROMTema(s):

Recursos en línea:

Ver recurso

Nota de disertación: Trabajo de integración curricular (Ingeniero/a en Tecnologías de la Información). Universidad de Investigación de Tecnología Experimental Yachay. Urcuquí, 2023 Resumen: Este trabajo propone un modelo basado en ConvNeXt para generar subtítulos de imágenes. Específicamente, se integra el modelo convolucional ConvNeXt, una arquitectura de visión por computadora de última generación, con una red de memoria a corto y largo plazo que incluye un módulo de atención visual. Se realizaron diversos experimentos para evaluar la viabilidad de ConvNeXt en esta tarea. En primer lugar, se estudió el impacto de usar cuatro versiones de ConvNeXt para la extracción de características. Además, se probaron dos tasas de aprendizaje diferentes durante la etapa de entrenamiento del codificador para analizar el impacto de esto en el rendimiento. Asimismo, se analizó el efecto de la inclusión y exclusión de teacher-forcing en el decodificador durante el entrenamiento. Se utilizó el conjunto de datos MS COCO 2014, y se adoptaron la pérdida, top-5 accuracy y BLEU-n como métricas de rendimiento. Los resultados muestran que nuestro modelo propuesto supera el modelo de referencia en un 43.04% y un 39.04% para los modelos de atención suave y atención dura, respectivamente, en términos de BLEU-4. Nuestro modelo también supera en un 4.57% y un 0.93% a los enfoques equivalentes basados en transformador de visión y transformador de imagen con eficiencia de datos, respectivamente, en términos de BLEU-4. Además, nuestro modelo mejoró a alternativas que utilizan codificadores basados en arquitecturas ResNet-101, ResNet-152, VGG-16, ResNeXt-101, y MobileNet V3, en un 6.44%, 6.46%, 6.47%, 6.39% y 6.68%, respectivamente, en términos de precisión en top-5 accuracy, y en un 18.46%, 18.44%, 18.46%, 18.24% y 18.72%, respectivamente, en términos de pérdida.

Etiquetas de esta biblioteca: No hay etiquetas de esta biblioteca para este título. Ingresar para agregar etiquetas.

Existencias
Tipo de ítem	Biblioteca actual	Signatura	Copia número	Estado	Fecha de vencimiento	Código de barras	Reserva de ítems
Tesis	Biblioteca Yachay Tech	ECMC0125 (Navegar estantería(Abre debajo))	1	No para préstamo		T000555

Total de reservas: 0

Trabajo de integración curricular (Ingeniero/a en Tecnologías de la Información). Universidad de Investigación de Tecnología Experimental Yachay. Urcuquí, 2023

Incluye referencias bibliográficas (páginas 53-61)

Trabajo de integración curricular con acceso abierto

Texto (Hypertexto links)

Este trabajo propone un modelo basado en ConvNeXt para generar subtítulos de imágenes. Específicamente, se integra el modelo convolucional ConvNeXt, una arquitectura de visión por computadora de última generación, con una red de memoria a corto y largo plazo que incluye un módulo de atención visual. Se realizaron diversos experimentos para evaluar la viabilidad de ConvNeXt en esta tarea. En primer lugar, se estudió el impacto de usar cuatro versiones de ConvNeXt para la extracción de características. Además, se probaron dos tasas de aprendizaje diferentes durante la etapa de entrenamiento del codificador para analizar el impacto de esto en el rendimiento. Asimismo, se analizó el efecto de la inclusión y exclusión de teacher-forcing en el decodificador durante el entrenamiento. Se utilizó el conjunto de datos MS COCO 2014, y se adoptaron la pérdida, top-5 accuracy y BLEU-n como métricas de rendimiento. Los resultados muestran que nuestro modelo propuesto supera el modelo de referencia en un 43.04% y un 39.04% para los modelos de atención suave y atención dura, respectivamente, en términos de BLEU-4. Nuestro modelo también supera en un 4.57% y un 0.93% a los enfoques equivalentes basados en transformador de visión y transformador de imagen con eficiencia de datos, respectivamente, en términos de BLEU-4. Además, nuestro modelo mejoró a alternativas que utilizan codificadores basados en arquitecturas ResNet-101, ResNet-152, VGG-16, ResNeXt-101, y MobileNet V3, en un 6.44%, 6.46%, 6.47%, 6.39% y 6.68%, respectivamente, en términos de precisión en top-5 accuracy, y en un 18.46%, 18.44%, 18.46%, 18.24% y 18.72%, respectivamente, en términos de pérdida.

Textos en inglés con resúmenes en español e inglés

No hay comentarios en este titulo.

para colocar un comentario.