Boosting image captioning using ConvNeXt deep neural networks/ Leo Thomas Ramos Granda ; tutor Manuel Eugenio Morocho Cayamcela

Por: Colaborador(es): Tipo de material: TextoTextoIdioma: Inglés Idioma del resumen: Español Fecha de copyright: Urcuquí, 2023Descripción: 81 hojas : ilustraciones (algunas a color) ; 30 cm + 1 CD-ROMTema(s): Recursos en línea: Nota de disertación: Trabajo de integración curricular (Ingeniero/a en Tecnologías de la Información). Universidad de Investigación de Tecnología Experimental Yachay. Urcuquí, 2023 Resumen: Este trabajo propone un modelo basado en ConvNeXt para generar subtítulos de imágenes. Específicamente, se integra el modelo convolucional ConvNeXt, una arquitectura de visión por computadora de última generación, con una red de memoria a corto y largo plazo que incluye un módulo de atención visual. Se realizaron diversos experimentos para evaluar la viabilidad de ConvNeXt en esta tarea. En primer lugar, se estudió el impacto de usar cuatro versiones de ConvNeXt para la extracción de características. Además, se probaron dos tasas de aprendizaje diferentes durante la etapa de entrenamiento del codificador para analizar el impacto de esto en el rendimiento. Asimismo, se analizó el efecto de la inclusión y exclusión de teacher-forcing en el decodificador durante el entrenamiento. Se utilizó el conjunto de datos MS COCO 2014, y se adoptaron la pérdida, top-5 accuracy y BLEU-n como métricas de rendimiento. Los resultados muestran que nuestro modelo propuesto supera el modelo de referencia en un 43.04% y un 39.04% para los modelos de atención suave y atención dura, respectivamente, en términos de BLEU-4. Nuestro modelo también supera en un 4.57% y un 0.93% a los enfoques equivalentes basados en transformador de visión y transformador de imagen con eficiencia de datos, respectivamente, en términos de BLEU-4. Además, nuestro modelo mejoró a alternativas que utilizan codificadores basados en arquitecturas ResNet-101, ResNet-152, VGG-16, ResNeXt-101, y MobileNet V3, en un 6.44%, 6.46%, 6.47%, 6.39% y 6.68%, respectivamente, en términos de precisión en top-5 accuracy, y en un 18.46%, 18.44%, 18.46%, 18.24% y 18.72%, respectivamente, en términos de pérdida.
Etiquetas de esta biblioteca: No hay etiquetas de esta biblioteca para este título. Ingresar para agregar etiquetas.
Valoración
    Valoración media: 0.0 (0 votos)
Existencias
Tipo de ítem Biblioteca actual Signatura Copia número Estado Fecha de vencimiento Código de barras Reserva de ítems
Tesis Tesis Biblioteca Yachay Tech ECMC0125 (Navegar estantería(Abre debajo)) 1 No para préstamo T000555
Total de reservas: 0

Trabajo de integración curricular (Ingeniero/a en Tecnologías de la Información). Universidad de Investigación de Tecnología Experimental Yachay. Urcuquí, 2023

Incluye referencias bibliográficas (páginas 53-61)

Trabajo de integración curricular con acceso abierto

Texto (Hypertexto links)

Este trabajo propone un modelo basado en ConvNeXt para generar subtítulos de imágenes. Específicamente, se integra el modelo convolucional ConvNeXt, una arquitectura de visión por computadora de última generación, con una red de memoria a corto y largo plazo que incluye un módulo de atención visual. Se realizaron diversos experimentos para evaluar la viabilidad de ConvNeXt en esta tarea. En primer lugar, se estudió el impacto de usar cuatro versiones de ConvNeXt para la extracción de características. Además, se probaron dos tasas de aprendizaje diferentes durante la etapa de entrenamiento del codificador para analizar el impacto de esto en el rendimiento. Asimismo, se analizó el efecto de la inclusión y exclusión de teacher-forcing en el decodificador durante el entrenamiento. Se utilizó el conjunto de datos MS COCO 2014, y se adoptaron la pérdida, top-5 accuracy y BLEU-n como métricas de rendimiento. Los resultados muestran que nuestro modelo propuesto supera el modelo de referencia en un 43.04% y un 39.04% para los modelos de atención suave y atención dura, respectivamente, en términos de BLEU-4. Nuestro modelo también supera en un 4.57% y un 0.93% a los enfoques equivalentes basados en transformador de visión y transformador de imagen con eficiencia de datos, respectivamente, en términos de BLEU-4. Además, nuestro modelo mejoró a alternativas que utilizan codificadores basados en arquitecturas ResNet-101, ResNet-152, VGG-16, ResNeXt-101, y MobileNet V3, en un 6.44%, 6.46%, 6.47%, 6.39% y 6.68%, respectivamente, en términos de precisión en top-5 accuracy, y en un 18.46%, 18.44%, 18.46%, 18.24% y 18.72%, respectivamente, en términos de pérdida.

Textos en inglés con resúmenes en español e inglés

No hay comentarios en este titulo.

para colocar un comentario.

Ayuda

X

Correo: bibliotecayachaytech@yachaytech.edu.ec
Teléfono:+593 6299 9500 Ext. 2517

Horario de atención:

X

BIBLIOTECA UNIVERSIDAD YACHAY TECH

  • Área: Fondo Impreso
    Lunes a Viernes de 08h00 a 20h30
    Sábado de 08h00 a 16h30
  • Área: Ingenio
    Abierto 24 horas 7 días
  • Área: Bloque de Servicios, 2do. Piso
    Espacios de Estudio Grupal e Individual, abierto 24 horas 7 días

Recuerda que los espacios son compartidos por toda la comunidad, por lo que debes hacer un uso adecuado
del tiempo que los ocupes, mantenerlos limpios y evitar el daño a las instalaciones y bienes materiales.

También puedes usar nuestros canales de comunicación:

Correo: bibliotecayachaytech@yachaytech.edu.ec
Teléfono: +593 6299 9500 Ext. 2517
Ubicación: San Miguel de Urcuquí, Hacienda San José s/n y Proyecto Yachay

Video

X