Supern8n LogoSupern8n

Automatizar la Comparación de Modelos de Visión para un Análisis Detallado de Imágenes

Extraer conocimientos detallados y comparables de imágenes utilizando múltiples modelos de visión es laborioso y complejo. Este flujo de trabajo automatiza la descarga de imágenes, las procesa con varios Modelos de Visión Ollama locales y guarda análisis comparativos formateados en markdown directamente en Google Docs.

Google Drive
Google Docs
$29
Ready-to-use workflow template
Complete workflow template
Setup documentation
Community support

Documentation

Automatizar la Comparación de Modelos de Visión para un Análisis Detallado de Imágenes

Procese imágenes utilizando Modelos de Visión Ollama alojados localmente para extraer descripciones detalladas, conocimientos contextuales y datos estructurados. Este flujo de trabajo le permite comparar las salidas de diferentes modelos para la misma imagen y guardar los resultados directamente en Google Docs para una colaboración y análisis eficientes. Es ideal para desarrolladores, analistas de datos y entusiastas de la IA que necesitan procesar y analizar imágenes usando Modelos de Lenguaje Visual locales para tareas que requieren descripciones exhaustivas de imágenes, análisis contextual y extracción de datos estructurados.

Características Principales

  • Análisis Detallado de Imágenes: Extrae detalles exhaustivos sobre objetos, relaciones espaciales, elementos de texto y contextos de las imágenes.
  • Comparación Multi-Modelo: Utiliza dinámicamente múltiples Modelos de Visión Ollama locales (por ejemplo, Granite3.2-Vision, Llama3.2-Vision) para análisis comparativos.
  • Salida Estructurada en Markdown: Formatea los resultados del análisis en markdown para mejorar la legibilidad, facilitar la documentación y el procesamiento posterior.
  • Integración con Google Drive y Docs: Descarga imágenes de Google Drive y guarda resultados comparativos directamente en Google Docs.

Cómo Funciona

Este flujo de trabajo se inicia manualmente. Primero toma un ID de archivo especificado de Google Drive, descarga la imagen correspondiente y la convierte en una cadena Base64. Luego se define una lista de Modelos de Visión Ollama locales, y el flujo de trabajo itera a través de cada modelo. Para cada modelo, construye un prompt detallado para el usuario (por ejemplo, para análisis general de imágenes o tareas especializadas como análisis de hoja de cálculo) y envía la imagen junto con el prompt a su endpoint local de la API Ollama. Las descripciones generadas por cada modelo se recopilan, formatean y guardan secuencialmente en un archivo designado de Google Docs, permitiendo la comparación directa de los resultados.

Workflow Details

Category:Productividad
Last Updated:Dec 16, 2025

Frequently Asked Questions