Experimento sobre Consulta RAG

Mi experimento sobre Consulta RAG: Sistema Hídrico de Cumaná

La búsqueda en un mar de ideas...

En las últimos días he estado construyendo un sistema de consulta basado en mis investigaciones de geohistoria de Cumaná —específicamente sobre el colapso del Túnel de Trasvase Guamacán y la crisis hídrica que afecta a Cumaná y otras ciudades del oriente venezolano.

🔗 https://url_url_url/consulta-rag (solicitar al autor el enlace de prueba)

El sistema utiliza como modelo de inferencia Llama 3.3 70B (modelo de lenguaje de gran escala, ~70 mil millones de parámetros, optimizado para comprensión profunda, razonamiento contextual y generación de texto complejo) y como modelo de embeddings Qwen3-Embedding-0.6B (modelo especializado en representación semántica de texto, optimizado para búsqueda por similitud, clustering y recuperación de información), con almacenamiento en una base de datos vectorial.

Los modelos LLM (Large Language Models) son, en esencia, compresores estadísticos del lenguaje humano. Durante el entrenamiento, ajustan miles de millones (o billones, en escala anglosajona) de parámetros para minimizar la perplejidad (†) sobre grandes volúmenes de texto.

El resultado es una red neuronal que ha interiorizado patrones sintácticos, semánticos y factuales —lo que, en términos prácticos, podemos llamar conocimiento—. Sin embargo, ese conocimiento queda congelado en los pesos del modelo desde el momento del entrenamiento.

La técnica de RAG (Retrieval-Augmented Generation) aborda este problema de raíz: en lugar de pedirle al modelo que “recuerde”, se le proporcionan fragmentos relevantes extraídos de una base documental. El modelo deja de comportarse como un oráculo y pasa a ser un lector experto capaz de sintetizar evidencia concreta.

La búsqueda semántica en el espacio vectorial no busca palabras exactas: busca proximidad de significado.
Dos frases que no comparten una sola palabra pueden estar muy próximas en ese espacio si expresan la misma idea.
Esto es recuperación de información por similitud conceptual, no por coincidencia léxica. Y es precisamente lo que permite que un sistema responda preguntas sobre documentos utilizando formulaciones que esos mismos documentos nunca emplearon.
El vector no es el texto: es la huella semántica del texto en un espacio matemático donde la distancia representa significado. Buscar en ese espacio es buscar ideas, no palabras.

† Perplejidad (perplexity): métrica que cuantifica la incertidumbre del modelo al predecir el siguiente token en una secuencia. Un modelo con perplejidad 10 se comporta, estadísticamente, como si eligiera entre 10 opciones equiprobables en cada paso.

PD: Agradezco sus comentarios luego de probar el sistema, con el fin de mejorar su comportamiento base. Para obtener mejores resultados, es recomendable formular preguntas de manera precisa y con buena ortografía.

~ Agradezco no re-enviar el enlace ~

Mis Blogs

miércoles, 29 de abril de 2026