Intelliedge es una empresa que se dedica al desarrollo de soluciones basadas en la IA. Uno de sus desarrollos actuales se basa en la incorporación de modelos del lenguaje fundamentales o grandes modelos del lenguaje (LLMs - Large Languaje Models). Los LLMs son sistemas de inteligencia artificial diseñados para trabajar con el lenguaje humano. Todos conocemos las aplicaciones de Chat-GPT o las últimas noticias referentes a DeepSeek (la IA china).
Intelliedge usa los LLMs para resumir información de fuentes de internet (texto o pdfs) generando informes sectoriales, con datos ciertos y contrastables con las fuentes de información usadas.
Reto "Encontrar un LLM que genere resúmenes o descripciones en lenguaje natural"
Descripción del contexto
Oportunidad Central
Se necesita investigar en las capacidades de los LLMs comerciales para generar resúmenes que analicen gráficos y tablas numéricas. Estas gráficas y tablas se encuentran en pdfs disponibles en fuentes de datos públicas.
Un ejemplo de lo anterior pueden ser algunas de las notas de prensa e informes que publica el Banco de España (ej: https://www.bde.es/f/webbe/GAP/Secciones/SalaPrensa/NotasInformativas/25/presbe2025-05.pdf).
Los LLMs suelen ser buenos resumiendo la información escrita en lenguaje natural. Algunos de ellos están disponibles en código abierto o de uso gratuito (BERT, Llama2, BLOOM, ...) Y existe una plataforma de código abierto para facilitar la ejecución de los LLMs en los ordenadores locales: https://ollama.com
Estos LLMs no suelen ser tan buenos resumiendo o describiendo la información presente en gráficas o tablas.
Qué espera lograr
El objetivo es encontrar un LLM que genere resúmenes o descripciones en lenguaje natural a partir de pdfs con información gráfica. O que pueda describir gráficas o tablas con datos numéricos de manera aceptable, e idealmente obtenido conclusiones a partir de la información contenida en las gráficas o tablas.
Criterios de Éxito
El criterio óptimo de éxito sería: pasarle pdfs u hojas de estos pdfs con información gráfica y tabular, descargados de entidades como el de Bolsas y Mercados (https://www.bolsasymercados.es/esp/Estudios-Publicaciones/Documentos/Estudios-Reportajes); y que el sistema analice y resuma la información gráfica y numérica de manera coherente.
Un segundo criterio es la investigación sistemátizada de aquellos modelos disponibles que hayan sido usado para el análisis de gráficos y datos tabuláres, y dónde están disponibles esos resultados y para qué casos se han aplicado.