Los tokens en la Inteligencia Artificial

En los modelos de Lenguaje Grande (LLM) como ChatGPT, LLaMA, Mistral, Qwen u Ollama, el concepto más importante no son las palabras, sino los tokens. Comprender qué son los tokens, cómo se calculan y cómo varían entre idiomas es clave para:

Diseñar mejores prompts.
Reducir costos en APIs comerciales.
Optimizar el rendimiento en modelos locales.
Evitar errores por desbordamiento de contexto.

Este artículo explica todo esto de forma clara y aplicada.

1. ¿Qué es un token?

Un token es una unidad mínima de texto que utiliza un modelo para procesar información. Un token no necesariamente es una palabra completa. Puede ser:

Una palabra completa
Parte de una palabra
Un signo de puntuación
Un espacio
Una sílaba

Por ejemplo, la frase:

El gato duerme plácidamente

Puede dividirse internamente en algo parecido a:

["El", " gato", " duer", "me", " pl", "áci", "da", "mente"]

Aunque para un humano son solo 4 palabras, para el modelo pueden ser 8 tokens o más.

2. Por qué los modelos usan tokens y no palabras

Los modelos de lenguaje utilizan técnicas de sub-palabras estadísticas (como BPE o SentencePiece), porque:

Permiten manejar cualquier idioma.
Detectan patrones frecuentes.
Reducen el tamaño del vocabulario.
Mejoran la generalización del modelo.

Esto explica por qué palabras con acentos, conjugaciones o poco uso suelen dividirse en varios tokens.

3. Cómo estimar el número de tokens en textos largos

Aunque el conteo exacto se hace con tokenizadores automáticos, se puede usar una estimación muy precisa para el trabajo diario.

Reglas prácticas

Tipo de texto	Estimación
Inglés	1 token ≈ 0,75 palabras
Español	1 token ≈ 0,9 palabras
Texto técnico	1 token ≈ 0,6 palabras
Código	1 token ≈ 0,4 palabras
Desde caracteres	tokens ≈ caracteres / 4

Fórmulas rápidas

Para español:

tokens ≈ palabras × 1,3

Para inglés:

tokens ≈ palabras × 1,1

Desde caracteres (muy confiable):

tokens ≈ caracteres / 4

4. Ejemplo real de cálculo

Supongamos un artículo de:

1.200 palabras
7.000 caracteres

Cálculo:

Por palabras: 1.200 × 1,1 ≈ 1.320 tokens
Por caracteres: 7.000 / 4 ≈ 1.750 tokens

Resultado realista:

Entre 1.400 y 1.700 tokens

5. Diferencias entre tokenización en español e inglés

Los modelos modernos están entrenados mayoritariamente en inglés, por lo que:

El inglés tokeniza mejor.
El español se fragmenta más.
Los acentos y conjugaciones aumentan el número de tokens.
El mismo mensaje cuesta más tokens en español.

Ejemplo comparativo simple

Español:

El gato duerme plácidamente

Tokens aproximados:

["El", " gato", " duer", "me", " pl", "áci", "da", "mente"]

Total: 8 tokens

Inglés:

The cat sleeps peacefully

Tokens:

["The", " cat", " sleeps", " peacefully"]

Total: 4 tokens

6. Ejemplo técnico comparativo

Español:

El microcontrolador ejecuta instrucciones en tiempo real

Tokens aproximados:

["El", " micro", "control", "ador", " ejecut", "a", " instruc", "ciones", " en", " tiempo", " real"]

Total: 11 tokens

Inglés:

The microcontroller executes real-time instructions

Tokens:

["The", " microcontroller", " executes", " real", "-", "time", " instructions"]

Total: 7 tokens

7. Impacto real de los tokens en costos, memoria y velocidad

En servicios comerciales de IA

Más tokens = mayor costo.
El español suele costar más que el inglés (por mayor fragmentación).
Prompts largos se facturan por miles de tokens.

En modelos locales (Ollama, LLaMA, etc.)

Más tokens = mayor consumo de RAM.
Más tokens = mayor latencia.
Más tokens = menos espacio disponible para el historial de conversación.

Ejemplo aproximado:

Tokens en prompt	RAM usada	Tiempo de respuesta
512	≈ 1 GB	Muy rápido
2.048	≈ 2–3 GB	Medio
8.000	≈ 7–10 GB	Lento

8. Buenas prácticas para optimizar el uso de tokens

Especialmente al trabajar con n8n, Ollama y automatizaciones locales:

Usar prompts cortos y precisos.
Evitar repeticiones innecesarias.
Resumir antes de reenviar texto al modelo.
Usar identificadores en lugar de textos largos.
Guardar contexto fuera del prompt cuando sea posible.

Ejemplo eficiente:

Contexto: Cliente solicita cita de cardiología

Ejemplo ineficiente:

El cliente ha realizado una solicitud detallada explicando que desea...

Conclusión

Los tokens son la verdadera moneda de cambio de la inteligencia artificial moderna. Quien domina los tokens:

Reduce costos.
Mejora la velocidad de respuesta.
Optimiza el uso de memoria.
Diseña mejores agentes y flujos de automatización.
Aprovecha al máximo sus modelos locales y en la nube.

Comprender los tokens no es opcional: es una habilidad técnica esencial en la era de la IA.

Mis Blogs

sábado, 6 de diciembre de 2025