📰 Mini WebUI para Ollama en WSL: una herramienta ligera para medir tiempos reales de respuesta en modelos locales
Ollama: es una plataforma para ejecutar modelos de inteligencia artificial de forma local, directamente en tu computadora, sin conexión a internet y sin depender de servicios en la nube. Permite descargar modelos como Llama, Gemma, Mistral o Phi y consultarlos mediante una API sencilla o desde la línea de comandos. Su principal ventaja es que ofrece privacidad total, velocidad y control completo sobre el funcionamiento de los modelos, aprovechando CPU o GPU según la configuración del sistema. Disponible en un repositorio de GitHub.
He desarrollado una Mini WebUI para Ollama, una interfaz web extremadamente liviana que permite interactuar con modelos de lenguaje instalados en WSL (Ubuntu en Windows 10/11) sin depender de extensiones, frontends pesados ni aplicaciones de terceros. El objetivo principal es medir tiempos reales de respuesta, especialmente el tiempo hasta el primer token, sin interferencias del ecosistema Windows ni capas opacas que alteren la latencia del modelo.
🔍 ¿Por qué fue necesario construir esta interfaz?
Durante pruebas recientes con modelos locales instalados vía Ollama, surgió un comportamiento extraño: los tiempos de respuesta parecían variar de forma anómala y algunos modelos —especialmente al ser invocados desde consola— daban la sensación de estar siendo “interceptados” o procesados por otra capa, con respuestas que no coincidían exactamente con la salida nativa de Ollama.
Incluso se sospechó que alguna IA residente del sistema, como Gemini u otros componentes vinculados al entorno Windows, podía estar interfiriendo en la cadena de ejecución del CLI.
Aunque no hay evidencia definitiva, sí quedó claro que:
- Windows puede reescribir, interceptar o envolver ciertos comandos.
- Algunos motores de sugerencias del sistema pueden modificar o enriquecer inputs.
- La consola nativa de Windows no siempre ofrece un canal totalmente “limpio”.
Por eso se tomó la decisión de sacar el procesamiento 100% fuera de Windows, usando:
- Ollama ejecutándose exclusivamente en WSL.
- Interacción vía API HTTP directa, sin pasar por el CLI de Windows.
- Un frontend HTML propio, sin dependencias externas ni capas adicionales.
Con esto se garantiza que la conversación con los modelos ocurre de forma mucho más pura y controlada, sin intermediarios ni reinterpretaciones externas.
⚙️ ¿Qué hace exactamente la Mini WebUI?
La interfaz permite:
- Seleccionar cualquiera de los modelos instalados en Ollama.
- Ver información técnica del modelo:
- Número de parámetros.
- Tamaño en disco.
- Nivel de cuantización (Q4, Q5, Q8, etc.).
- Latencia promedio del primer token.
- Enviar prompts con streaming inmediato de la respuesta.
- Forzar respuestas cortas (menos de 10 palabras) o siempre en castellano.
- Limpiar el historial de la conversación.
- Detener la generación de texto en tiempo real.
- Consultar un panel de ayuda con los pasos de instalación y uso en WSL.
Todo esto está implementado en un único archivo index.html, sin frameworks, sin backend adicional y sin librerías externas.
🧪 Pruebas limpias y métricas fiables
El propósito central de esta herramienta es poder comprobar:
- Si un modelo responde más lento de lo esperado.
- Si hay demoras atribuibles al sistema operativo o al entorno.
- Cómo afecta la cuantización (Q4, Q5, Q8, etc.) a la latencia real.
- Qué modelos son más eficientes en CPU o en configuraciones mixtas.
- Si existen patrones sospechosos o interferencias externas en la ejecución.
Gracias a esta WebUI, ahora es posible observar de forma clara el tiempo exacto entre el envío del prompt y la llegada del primer token, una métrica que no se obtiene fácilmente usando únicamente la consola de Windows.
🌐 ¿Por qué no usar Chrome o Edge directamente?
Los navegadores como Chrome y Edge bloquean por CORS y Same-Origin Policy cualquier intento de usar fetch() desde un archivo local (por ejemplo, file://…) hacia un servidor HTTP como:
http://localhost:11434
que es precisamente donde corre la API de Ollama.
Para evitar ese bloqueo, la WebUI debe abrirse a través de un pequeño servidor local, por ejemplo con Python:
python3 -m http.server 8000
Luego, basta con entrar en:
http://localhost:8000
De este modo, el navegador trata tu HTML como una página servida desde un origen válido, y permite la comunicación con la API de Ollama sin restricciones.
🧭 Compatibilidad
- Funciona en Windows + WSL (Ubuntu recomendado).
- También puede ejecutarse en Linux nativo con Ollama.
- Firefox puede abrir el HTML directamente (aunque el servidor Python sigue siendo recomendable).
- Chrome y Edge requieren el mini-servidor HTTP para funcionar correctamente.
🔚 Conclusión
Esta Mini WebUI nace como una herramienta de verificación: un entorno controlado, limpio y sin intermediarios, ideal para medir con precisión cómo se comportan los modelos locales en Ollama bajo WSL.
El proyecto no solo ayuda a despejar dudas sobre posibles interferencias o capas invisibles (como las sospechas en torno a Gemini y otros servicios), sino que también ofrece un método rápido y reproducible para evaluar rendimiento, latencia y comportamiento técnico de cualquier modelo LLM disponible para Ollama.
En resumen, es una pieza más en el esfuerzo por entender qué sucede realmente “bajo el capó” cuando trabajamos con inteligencia artificial local desde entornos híbridos como Windows + WSL.
No hay comentarios.:
Publicar un comentario