domingo, 1 de marzo de 2026

Análisis Comparativo de Clasificación Humana vs IA

Análisis Comparativo de Clasificación Humana vs Inteligencia Artificial en Dinámicas Conversacionales Digitales

Rommel Contreras / Laboratorio IA, Logos & Contexto

Correo: rommeljose@gmail.com

Cumaná, Marzo 1 de 2026


Resumen

Este estudio presenta un análisis comparativo entre dos metodologías de clasificación aplicadas a un conjunto de datos de 5.313 mensajes provenientes de un grupo de chat durante un periodo de un año. Se evaluaron dos enfoques: (1) evaluación humana basada en inferencia pragmática personal y (2) clasificación automatizada mediante una Inteligencia Artificial (IA) basada en análisis léxico-semántico. Se diseñaron métricas cuantitativas para medir la utilidad comunicacional, el ruido estructural, la toxicidad latente y la calidez social. Los resultados evidencian divergencias críticas, particularmente en la detección de la categoría pasivo-agresiva (26,6% frente a 2,8%). El estudio discute las limitaciones de los modelos de lenguaje (LLMs) para capturar subtextos emocionales y propone un modelo híbrido de integración ponderada para futuros diagnósticos sociales digitales. Finalmente, se plantea la necesidad de desarrollar modelos LLMs adaptados a la realidad sociocultural de cada escenario específico que se pretenda analizar con asistencia de IA.

Palabras clave: Análisis conversacional, clasificación automática, toxicidad latente, dinámica social digital, modelos híbridos, evaluación comparativa.

1. Introducción

La medición de las dinámicas comunicacionales en entornos digitales enfrenta un desafío ontológico: la brecha entre el significado denotativo (lo que se dice) y el connotativo (lo que se quiere decir). Mientras que los evaluadores humanos integran el contexto emocional, la historia interaccional y las inferencias pragmáticas (Walters, 2023), los modelos de Inteligencia Artificial (IA) priorizan patrones semánticos explícitos y probabilidades estadísticas (Morales et al., 2023).

El objetivo de esta investigación es someter un mismo conjunto de datos a ambos filtros interpretativos para cuantificar cómo la mediación algorítmica transforma la percepción de la salud comunicacional de un grupo.

2. Metodología

2.1 Procedimiento

Se analizó un conjunto de datos compuesto por: N = 5.313 mensajes recolectados durante un periodo ininterrumpido de un año (2025). Cada mensaje fue clasificado en seis categorías mutuamente excluyentes: Informativo, Cortesía/Social, Ornamental, Pasivo-agresivo, Religioso y SPAM/Cadenas.

2.2 Métricas de Análisis

Para estandarizar la comparación, se definieron los siguientes indicadores:

     Utilidad Bruta (UB): Representa la proporción de mensajes con contenido puramente informativo.

     Ruido Total (R): Suma de categorías que no aportan a la funcionalidad operativa del grupo.

     Índice Ruido/Utilidad (IRU): Relación de eficiencia comunicativa.

     Coeficiente de Toxicidad Latente (CTL): Medida de fricción social indirecta.

     Índice de Calidez Social (ICS): Mide la cohesión a través de la cortesía y el adorno social.

2.2.2 Clasificación Automatizada

Para la clasificación automatizada del corpus de 5.313 mensajes, se utilizó el modelo de lenguaje Claude (Anthropic, https://claude.ai). La herramienta fue empleada para el análisis léxico-semántico de los datos, aplicando los mismos criterios de categorización que el equipo humano. El uso de esta IA permitió procesar el volumen total del corpus bajo patrones semánticos explícitos y probabilidades estadísticas para su posterior comparación con la inferencia pragmática humana

3. Resultados

La clasificación humana y la automatizada arrojaron visiones contrapuestas sobre la naturaleza del grupo.

3.1 Distribución de Categorías

La Tabla 1 resume los porcentajes obtenidos por ambos métodos. La diferencia más radical se observa en la categoría Pasivo-agresiva, donde la sensibilidad humana detectó casi diez veces más incidencia que la IA.

Tabla 1.Comparativa de Clasificación de Mensajes (%)

Categoría

Clasificación Humana

Clasificación IA

Informativo

37,5

63,7

Pasivo-agresivo

26,6

2,8

Cortesía/Social

17,6

18,0

Ornamental

14,1

13.9

Religioso

2,6

1,2

SPAM

1,6

0,3

 

3.2 Indicadores Derivados

Al aplicar las métricas, el diagnóstico estructural cambia drásticamente según el observador.



     Enfoque Humano: El sugiere un grupo donde el ruido supera a la utilidad, con una toxicidad latente significativa .

     Enfoque IA: El  describe un ecosistema altamente eficiente (4 veces más utilidad que ruido) y virtualmente libre de toxicidad ( ).

4. Discusión y Análisis Comparativo

4.1 La Brecha de la Toxicidad Latente y el Sesgo Cultural

La divergencia crítica de  revela que la Inteligencia Artificial (IA) tiende a "neutralizar" los mensajes procesados. Al carecer de una teoría de la mente completa aplicada al contexto histórico del grupo, la IA clasifica erróneamente como "Informativos" aquellos mensajes que un evaluador humano interpreta como sarcásticos o pasivo-agresivos. Esta limitación técnica coincide con las observaciones de Chaka (2023) sobre la incapacidad de los detectores de contenido actuales para captar matices humanos de alta complejidad.

Este fenómeno subraya una debilidad estructural: los modelos de lenguaje actuales (LLMs) operan bajo parámetros léxicos globales que, con frecuencia, ignoran la realidad sociocultural de escenarios específicos. En las dinámicas conversacionales digitales, elementos como la ironía y la fricción social dependen estrictamente de códigos locales que la IA, en su configuración estándar, no logra decodificar con la precisión necesaria.

4.3 Hacia un Modelo Adaptado

Más allá de la integración ponderada establecida (0,6×IA+0,4×Humano), los resultados obtenidos sugieren la necesidad imperativa de desarrollar o ajustar modelos LLMs que reconozcan las particularidades dialécticas y culturales de cada entorno analizado. Solo mediante la implementación de una IA situada contextualmente será posible reducir la brecha entre el significado denotativo de los mensajes y la intención pragmática real del usuario.

5. Conclusiones

Este estudio demuestra que el diagnóstico comunicacional en entornos digitales no es un proceso neutral, sino que está mediado por el marco interpretativo del observador. La discrepancia estadística encontrada revela que un mismo ecosistema digital puede ser diagnosticado como "socialmente friccionado" por un analista humano o como "operativamente eficiente" por una inteligencia artificial estándar.

La conclusión fundamental de esta investigación es que la integración de ambos enfoques es imperativa para obtener una analítica que sea estadísticamente robusta pero sociológicamente válida. Sin embargo, no basta con una combinación aritmética de resultados; el futuro del análisis de datos sociales requiere de una IA situada contextualmente.

Se concluye que los modelos de lenguaje deben evolucionar de una arquitectura léxica global hacia una capacidad de procesamiento que reconozca la realidad sociocultural y dialéctica de cada escenario. Solo mediante el entrenamiento o ajuste de modelos que comprendan los códigos locales y las sutilezas de la ironía regional, podrá la inteligencia artificial actuar como una herramienta de mediación y análisis verdaderamente efectiva en la gestión de comunidades digitales complejas.

Agradecimientos

El autor expresa su gratitud a los colaboradores, cuya dedicación en la categorización manual del corpus de mensajes fue fundamental para establecer la base comparativa de este estudio. Su capacidad para identificar matices pragmáticos y subtextos emocionales permitió contrastar con precisión las limitaciones léxicas de la inteligencia artificial.  

Declaración de uso de Tecnologías de IA Generativa En la preparación de este estudio, el autor utilizó la herramienta Claude (Anthropic) con el fin de realizar la clasificación masiva del corpus de datos y asistir en el refinamiento del estilo del manuscrito. De la misma manera, se deja constancia de que para el diseño y elaboración de las herramientas de clasificado se usó Gemini (Google). Tras el uso de esas herramientas, el autor revisó y editó el contenido para asegurar la precisión científica y se hace responsable del contenido final de la investigación.  

Referencias

     Chaka, C. (2023). AI content detectors seem not yet fully ready to accurately and convincingly detect AI-generated content from machine-generated texts. Journal of Applied Learning and Teaching, 6(1), 94-106.

     Contreras, R. (2026, marzo). Radiografía Conversacional: Clasificación Humana vs IA.Tecnología Cumanesa. https://tecnologiacumanesa.blogspot.com/2026/03/clasificacion-humana-vs-ia.html

     Contreras, R. (2026, 28 de febrero). Análisis con datos reales de un grupo de WhatsApp. Tecnología Cumanesa. https://tecnologiacumanesa.blogspot.com/2026/02/analisis-con-datos-reales-de-un-grupo.html

     Morales, L. E., Barrios, E., & Pinto, D. (2023). Artificial Intelligence-Based Text Classification: Separating Human and Computer-Generated Texts. IberLEF 2023.

     Newman, A., & Gopalkrishnan, K. (2023). AI communication styles and decision making: A framework for digital interaction.

     Walters, W. H. (2023). The accuracy of 16 publicly available AI text detectors in discriminating between AI-generated and human-generated writing. Scientific Reports, 13(1), 1-12.


Clasificación Humana vs IA

📊 Radiografía Conversacional: Clasificación Humana vs IA

Durante un año se analizaron 5.313 mensajes de un grupo de chat (Wasaps) utilizando dos metodologías distintas:

  • Clasificación realizada por evaluadores humanos
  • Clasificación realizada por Inteligencia Artificial

El objetivo fue medir utilidad, ruido, toxicidad latente y eficiencia comunicacional.


1️⃣ Datos Base

Clasificación Humana

  • Informativo: 1.921 (37,5%)
  • Pasivo-agresivo: 1.362 (26,6%)
  • Cortesía/Social: 903 (17,6%)
  • Ornamental: 723 (14,1%)
  • Religioso: 135 (2,6%)
  • SPAM: 82 (1,6%)

Clasificación IA

  • Informativo: 3-387 (63,7%)
  • Cortesía/Social: 957 (18,0%)
  • Ornamental: 739 (13,9%)
  • Pasivo-agresivo: 147 (2,8%)
  • Religioso: 66 (1,2%)
  • SPAM: 17 (0,3%)

2️⃣ Definición de Métricas

📐 Utilidad Bruta (UB)

UB = Mensajes Informativos / Total de Mensajes

📐 Ruido Total (R)

R = Ornamental + Religioso + SPAM

📐 Índice Ruido/Utilidad (IRU)

IRU = R / UB

Interpretación:

  • IRU > 1 → Más ruido que utilidad
  • IRU = 1 → Equilibrio
  • IRU < 1 → Predomina utilidad

📐 Coeficiente de Toxicidad Latente (CTL)

CTL = Pasivo-Agresivo / Total

📐 Índice de Calidez Social (ICS)

ICS = Cortesía + Ornamental

3️⃣ Resultados Comparativos

Clasificación Humana

  • UB: 37,5%
  • R: 18,3%
  • IRU: 1,13
  • CTL: 26,6%
  • ICS: 31,7%

Clasificación IA

  • UB: 63,7%
  • R: 15,4%
  • IRU: 0,24
  • CTL: 2,8%
  • ICS: 31,9%

4️⃣ Análisis Interpretativo

La diferencia más significativa se concentra en la categoría Pasivo-Agresivo:

  • Humano: 26,6%
  • IA: 2,8%

La IA reclasificó una gran porción de mensajes previamente considerados pasivo-agresivos como informativos o neutrales.

Hipótesis A — Sesgo emocional humano

  • Mayor sensibilidad al tono implícito
  • Detección de ironía y microagresiones
  • Interpretación contextual relacional

Hipótesis B — Criterio estructural algorítmico

  • Evaluación semántica explícita
  • Menor peso al tono emocional
  • Reducción de subjetividad

5️⃣ Impacto en la Narrativa del Grupo

Bajo análisis humano:

  • Alta fricción social
  • IRU mayor a 1
  • Toxicidad latente significativa

Bajo análisis IA:

  • Alta eficiencia comunicacional
  • Predominio de utilidad
  • Bajo conflicto estructural

La percepción cambia radicalmente dependiendo del método de observación.


6️⃣ Modelo Híbrido Propuesto

Clasificación Final = (0,6 × IA) + (0,4 × Humano)

Este modelo busca equilibrar sensibilidad emocional con consistencia estructural. Pero antes de implementarlo, se deben de explorar otros conjuntos de datos y validar esta propuesta.




📊 Utilidad

Humana:

███████████████░░░░░░░░░░░░░░░░ 37.5%

IA:

████████████████████████████████████░░ 63.7%

📊 Toxicidad Latente

Humana:

████████████████████░░░░░░░░░░░ 26.6%

IA:

██░░░░░░░░░░░░░░░░░░░░░░░░░░░░ 2.8%

📊 Índice Ruido/Utilidad (IRU)

Humana:

████████░░░░░░░░░░ 1.13

IA:

██░░░░░░░░░░░░░░░░ 0.24

7️⃣ Conclusión

Este estudio demuestra que la medición comunicacional no es neutral.

La IA mide estructura. El humano mide tono.

El mismo conjunto de datos puede parecer:

  • Tóxico
  • O altamente funcional

La diferencia no está en los mensajes. Está en el lente analítico utilizado.


8️⃣ Recomendaciones

  • Realizar medición mensual para validar estabilidad.
  • Crear subcategoría para ironía o crítica directa.
  • Combinar análisis de sentimiento con clasificación estructural.
  • Correlacionar utilidad comunicacional con resultados reales del grupo.

Conclusión final: El conflicto no siempre está en los datos. Muchas veces está en cómo decidimos interpretarlos.

sábado, 28 de febrero de 2026

Análisis con datos reales de un grupo de WhatsApp

Pregunté a DeepSeek:

He clasificado los mensajes de medio año de interacción en un grupo de amigos 5126 mensajes (de un total de 7870), en 6 categorías:
    - Informativo = 1921
    - Pasivo-agresivo = 1362
    - Ornamental = 723
    - Religioso = 135
    - SPAN / Cadenas = 82
    - Cortesía/Social = 903A)

A) ¿Si, cierto día me conecto al grupo, cuál es la probabilidad que el próximo mensaje tenga cierta categoría?

B) ¿Cómo calificas la interacción de ese grupo teórico de amigos?


Agrupamos todos los mensajes de un año de un grupo de WhatsApp. Los "decapitamos", quitamos nombres, fechas y autores, dejando el cuerpo de mensaje huérfano de identidad. Luego los agrupamos en las categorías seleccionadas (eso se hace con criterio humano, no con IA), el patrón conceptual no es de un humano en específico, así se diluye la parcialidad. Luego hice el análisis clásico para grupos con los datos numéricos obtenidos.

Ese no es el objetivo final, ese es un simpático e interesante resultado intermedio.
El objetivo es, entrenar una IA, para reconocer esas categorías, partiendo de un modelo de IA pequeño virgen o fundamental. Ese trabajo aún falta por hacer y es la parte dura del experimento.

 

Respuesta:


Vamos por partes. Es un análisis hermoso porque tienes datos reales y una clasificación clara. Usaré frecuencia relativa como estimador de probabilidad.


A) Probabilidad de cada categoría

Total de mensajes: 5126

Categoría Mensajes Probabilidad
Informativo 1921 37.5%
Pasivo-agresivo 1362 26.6%
Ornamental 723 14.1%
Religioso 135 2.6%
SPAM / Cadenas 82 1.6%
Cortesía / Social 903 17.6%
Total 5126 100%

Fórmula:

P(categoría) = mensajes de esa categoría / total de mensajes

Ejemplo:
P(Informativo) = 1921 / 5126 ≈ 0.375


B) ¿Cómo calificas la interacción?

1. Es un grupo funcional, no solo cháchara

  • 37.5% informativo → casi 2 de cada 5 mensajes tienen contenido útil. El grupo sirve.

2. Hay tensión estructural

  • 26.6% pasivo-agresivo es muy alto.
  • Más de 1 de cada 4 mensajes tiene carga emocional negativa encubierta.
  • El grupo no es un espacio seguro emocionalmente.
  • En un grupo sano, esto no debería pasar del 5–8%. Aquí es el segundo tipo más frecuente.

3. Cortesía como pegamento social

  • 17.6% de saludos y agradecimientos.
  • Funciona como amortiguador de la tensión.

4. Ornamental alto (14.1%)

  • Memes, gifs, fotos sin contexto, reacciones.
  • Puede ser lubricante social o evasión.

5. Religioso y SPAM son marginales

  • Religioso: 2.6%.
  • SPAM/Cadenas: 1.6%.

Calificación cualitativa

Tipo de grupo:
Técnicamente funcional, emocionalmente disfuncional.

Diagnóstico:

  • Hay contenido de valor, pero se paga con un clima pesado.
  • La gente se aguanta, no se habla claro.
  • Si el pasivo-agresivo sigue subiendo, el grupo se puede silenciar o fragmentar.

Recomendación:

  • Nombrar explícitamente los roces.
  • Alguien con autoridad moral que limite el sobreentendido hostil.
  • Si son amigos reales, hablar fuera del chat lo que aquí se expresa de forma indirecta.

Dos métricas simples pero reveladoras con los datos que ya tenemos.


1. Índice de Ruido vs Utilidad (IRU)

Definimos:

  • Utilidad neta: mensajes que aportan valor explícito.
  • Ruido: mensajes que no aportan información sustantiva o son disfuncionales.

Clasificación

Categoría Tipo Justificación
Informativo Utilidad Contiene información
Cortesía/Social Neutro Mantiene vínculo, pero no es “utilidad dura”
Pasivo-agresivo Ruido tóxico Deteriora el ambiente
Ornamental Ruido leve No aporta, pero entretiene
Religioso Depende* Puede ser informativo o proselitista
SPAM/Cadenas Ruido total Basura

Para simplificar asumimos:

  • Utilidad: Informativo (1921)
  • Ruido: Pasivo-agresivo + Ornamental + SPAM = 1362 + 723 + 82 = 2167
  • Neutro: Cortesía (903) + Religioso (135) = 1038

Fórmula:
IRU = Ruido / Utilidad = 2167 / 1921 ≈ 1.13

Interpretación:
Por cada mensaje útil, hay 1.13 mensajes de ruido. El grupo aporta, pero con un coste de atención alto.


2. Coeficiente de Toxicidad Latente (CTL)

El pasivo-agresivo no es ruido inocuo: envenena.

Fórmula:
CTL = Pasivo-agresivo / Total = 1362 / 5126 ≈ 0.266

Resultado:
26.6% de todo lo que se dice tiene carga hostil indirecta.


3. Índice de Calidez Social (ICS)

La cortesía y lo ornamental pueden verse como termómetro de vínculo.

Fórmula:
ICS = (Cortesía + Ornamental) / Total = 1626 / 5126 ≈ 0.317

Resultado:
31.7% de los mensajes son intentos de mantener cohesión (saludos, memes, reacciones).


Tabla resumen

Métrica Valor Interpretación
IRU 1.13 Pagas 1.13 mensajes de ruido por cada útil
CTL 26.6% Más de 1 de cada 4 mensajes es pasivo-agresivo
ICS 31.7% Casi 1 de cada 3 mensajes intenta mantener cohesión
Utilidad bruta 37.5% El grupo aún sirve para algo

Diagnóstico final

Este grupo no es sano, pero tampoco es inservible.

  • La toxicidad es alta, pero está compensada por una calidez social casi igual de alta.
  • La gente se necesita (por eso tanta información y cortesía), pero no se soporta del todo (por eso el pasivo-agresivo).
  • Si el CTL supera el 30%, el grupo empieza a sangrar miembros silenciosamente. Está en el límite.

📊 Gráficas en formato texto / ASCII


GRÁFICA 1: Composición general del chat (6 meses)

CATEGORÍA       MENSAJES   ████████████████████
Informativo      1921      ████████████████████░░░░░░░░░░░░  (37.5%)
Pasivo-agresivo  1362      ██████████████░░░░░░░░░░░░░░░░░░  (26.6%)
Cortesía/Social   903      █████████░░░░░░░░░░░░░░░░░░░░░░░  (17.6%)
Ornamental        723      ███████░░░░░░░░░░░░░░░░░░░░░░░░░  (14.1%)
Religioso         135      █░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░  (2.6%)
SPAM/Cadenas       82      ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░  (1.6%)

GRÁFICA 2: Probabilidad del próximo mensaje

Si te conectas ahora mismo, esto es lo que podría aparecer:

████████████████████████████████████ 37.5%  Informativo
██████████████████████████░░░░░░░░░░ 26.6%  Pasivo-agresivo
████████████████░░░░░░░░░░░░░░░░░░░░ 17.6%  Cortesía
██████████░░░░░░░░░░░░░░░░░░░░░░░░░░ 14.1%  Ornamental
██░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░  2.6%  Religioso
█░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░  1.6%  SPAM

GRÁFICA 3: Índices de calidad (barras comparativas)

ÍNDICE                       VALOR   GRÁFICO
Ruido vs Utilidad (IRU)       1.13   ████████░░░░░░░░░░  (1.13x ruido por cada útil)
Toxicidad Latente (CTL)      26.6%   ███████████░░░░░░░░░░░░░░░░░░░
Calidez Social (ICS)         31.7%   █████████████░░░░░░░░░░░░░░░░░
Utilidad bruta               37.5%   ████████████████░░░░░░░░░░░░░░

GRÁFICA 4: Radiografía del grupo (torta textual)

                    ▄████████████████████▄
                 ▄████▀  Informativo   ▀████▄
               ▄███▀       37.5%          ▀███▄
              ███▀                           ▀███
             ███                               ███
            ███      Pasivo-agresivo            ███
            ███          26.6%                  ███
            ███                               ███
            ███     Cortesía   ██████          ███
            ███▄     17.6%    ██    ██ Ornam. ▄███
             ███▄           ██ 14.1% ██     ▄███
              ▀███▄        ██        ██  ▄███▀
               ▀████▄     ██  Relig. ██▄████▀
                 ▀████▄    ██ 2.6% ██▄████▀
                     ▀████▄ ██ 1.6%▄████▀
                         ▀██████████▀
                           (SPAM)


domingo, 22 de febrero de 2026

Bandera de Venezuela Inclusión cultural: Tu ayuda permite que la IA entienda nuestras realidades sociales, la idiosincrasia y la diversidad de nuestra forma de comunicarnos, evitando la discriminación y los sesgos.

Estoy entrenando un modelo para que entienda y reconozca cómo hablamos los venezolanos en WhatsApp (sobre todo los orientales): nuestra jerga, la de los chamos, el sarcasmo, las cadenas, lo informativo u ornamental y hasta las bendiciones de las tías. 🗣️📲

🎯 La meta: Clasificar 10.000 mensajes (¡apenas voy por 2.500!). ¿Me regalan 5 minuticos de su tiempo o un poco más? 🙏

🔗 Entren aquí: https://frailes.tail626693.ts.net:8443/

¿Qué hay que hacer? Leen un mensaje cortico y tocan el botón del color que mejor lo describa. ¡Es rápido y parece un juego! 🎮

🔒 100 Anónimo, Seguro y Ético: Todos los mensajes fueron "decapitados" (les borré los nombres de los autores, números y fechas). Es un esfuerzo puramente académico, sin fines de lucro y apegado al Código de Ética de IA de Venezuela (se agradecen acotaciones). 🛡️

Si están en una cola, en el banco o echados en el mueble, ¡cada clic me ayuda muchísimo! Ayúdenme a que la IA entienda nuestra idiosincrasia. ¡Infinitas gracias por el apoyo! 🙌

Ejemplo de la pantalla de entrada y categorización: 

martes, 10 de febrero de 2026

Fuerza de trabajo cognitiva objetivada

Reformulación conceptual: fuerza de trabajo cognitiva y activo cognitivo

 por: Rommel Contreras

En los modelos contemporáneos de inteligencia artificial se consolida una transformación estructural del trabajo intelectual humano.

Aquello que históricamente fue fuerza de trabajo cognitiva —la capacidad viva de razonar, interpretar, decidir y crear— deja de residir exclusivamente en el sujeto humano y pasa a ser extraída, formalizada y encapsulada en sistemas técnicos.

Este proceso da lugar a lo que puede definirse como fuerza de trabajo cognitiva objetivada: una capacidad intelectual que, una vez separada de su portador humano, se fija en un objeto técnico (modelo, sistema, agente) capaz de ejecutar tareas cognitivas de manera autónoma, repetible y escalable.

Cuando esta fuerza objetivada entra en circuitos de producción, intercambio y rentabilización, deja de ser únicamente una abstracción técnica y se convierte en un activo cognitivo productivo. Es decir, en un bien económico capaz de generar valor de forma sostenida, ya no mediante la presencia directa del trabajador, sino a través de su representación técnica.

Desde esta perspectiva, los modelos de IA especializados no funcionan solo como herramientas, sino como instancias productivas que concentran y despliegan conocimiento humano cristalizado. Su valor no radica únicamente en el código o la infraestructura que los soporta, sino en la capacidad cognitiva incorporada: saber experto, criterios de decisión, lenguaje técnico, heurísticas y estilos de razonamiento.

La diferencia fundamental con formas históricas de explotación del trabajo no reside en la ausencia de coerción física, sino en la despersonalización completa de la fuerza de trabajo. El conocimiento ya no se alquila a través del tiempo del sujeto, sino que se licencia, vende o renta como un activo autónomo, desligado de la biografía, la voluntad o la identidad de quienes lo produjeron.

Así, la fuerza de trabajo cognitiva objetivada constituye el sustrato técnico, mientras que el activo cognitivo productivo representa su forma económica madura. Ambos conceptos describen un mismo fenómeno desde ángulos distintos: uno desde la transformación del trabajo, el otro desde la lógica del capital.

miércoles, 10 de diciembre de 2025

Ajuste fino de un modelo de lenguaje (SLM) de pequeña escala

Ajuste Fino de Gemma 270M con Datos Dolly-15k

Este proyecto culminó con éxito el entrenamiento de un modelo de lenguaje de pequeña escala para mejorar su capacidad de seguir instrucciones, utilizando un flujo de trabajo optimizado y recursos limitados de Google Colab.

Resultado (Hugging Face Hub)  /  Cuaderno de trabajo (Colab)

Visualización del proceso de fine-tuning del modelo Gemma.


Objetivo Principal

El objetivo fue realizar el Ajuste Fino de Instrucciones (Instruction Fine-Tuning) del modelo [2B-270M] (variante eficiente de Google) utilizando la técnica LoRA (Low-Rank Adaptation) sobre un conjunto de datos público de alta calidad para tareas conversacionales.


I. Fases y Logros Clave del Preprocesamiento

La fase más desafiante fue el preprocesamiento del dataset para adaptarlo al formato específico de chat requerido por el modelo Gemma.

1. Carga y Selección del Dataset

  • Dataset utilizado: databricks/databricks-dolly-15k. Más de 15000 registros únicos de pares de instrucción/respuesta.
  • Ajuste por limitaciones de memoria: El dataset fue reducido a un subconjunto viable para garantizar la estabilidad de la sesión.
  • Logro: Se confirmó la carga correcta del dataset inicial sin errores.

El dataset Databricks Dolly 15k es un corpus clave para el Ajuste Fino de Instrucciones (Instruction Fine-Tuning). Sus principales usos son:

  • Ajuste Fino de Instrucciones: Permite entrenar LLMs para exhibir un comportamiento conversacional.
  • Generación de Datos Sintéticos: Los prompts pueden usarse para generar un corpus de millones de ejemplos adicionales (método Self-Instruct).
  • Aumento de Datos (Data Augmentation): Mejora la solidez del modelo mediante la reformulación de instrucciones.

2. Conversión al Formato ChatML (Conversational Format)

El formato original de Dolly fue transformado al formato de conversación (ChatML) requerido por el framework de entrenamiento:

  • Función clave: convert_to_chatml.
  • Estructura creada: Nueva columna conversations con pares {"role": "user", "content": ...} y {"role": "assistant", "content": ...}.
  • Logro: Se resolvió el error inicial de KeyError alineando correctamente los nombres de las columnas.

3. Formateo y Optimización de Memoria

Esta etapa fue crítica para superar los fallos recurrentes de RAM:

  • Función clave: formatting_prompts_func.
  • Propósito: Usar el tokenizer de Gemma para aplicar la plantilla de chat (e.g., <start_of_turn>user\n...\n<end_of_turn>) a la columna conversations.
  • Técnicas de estabilidad aplicadas: Limpieza explícita de memoria, optimización del mapeo usando batched=True, y resolución de KeyError e IndexError.
  • Logro: Se generó la columna final text sin desbordar la memoria del sistema.

II. Logros del Entrenamiento y Despliegue

El entrenamiento se ejecutó utilizando el framework Unsloth para una optimización superior en el entorno de Google Colab.

1. Configuración de Entrenamiento

  • Método: Ajuste Fino de Instrucciones (SFT) con LoRA.
  • Clase utilizada: SFTTrainer (librería trl).
  • Optimización de memoria: Se configuró packing = True y se usó un per_device_train_batch_size bajo junto con gradient_accumulation_steps.
  • Logro: El modelo ejecutó el bucle completo de entrenamiento; la pérdida (*loss*) mostró una disminución progresiva, confirmando el aprendizaje efectivo.

2. Reto Final: Fallo en la Exportación

El proyecto encontró su principal limitación al intentar la **exportación a GGUF** y la **subida al Hugging Face Hub**.

  • Problema: La fusión de pesos (LoRA + modelo base) y la conversión a formato GGUF (Q8_0) agotaron la RAM del sistema Colab a pesar de las optimizaciones.
  • Estado final: El modelo afinado existe correctamente, pero no pudo ser exportado ni subido en formato GGUF directamente desde Colab.

3. Verificación de la Afinación

  • Resultado del modelo: El éxito del *fine-tuning* se verificó empíricamente al observar la adopción del estilo de respuesta del dataset Dolly.
  • El modelo afinado ahora responde a instrucciones complejas con formatos estructurados (listas, viñetas) y con un tono conversacional consistente, a diferencia del comportamiento del modelo base.

Ver o correr el modelo afinado en: Hugging Face


III. Conclusión y Próximos Pasos Recomendados

El proyecto fue un éxito desde el punto de vista del entrenamiento, demostrando la capacidad para manejar flujos de trabajo avanzados con SLM en entornos con recursos limitados.

  • Logro principal: Modelo Gemma 270M ajustado con éxito para el seguimiento de instrucciones usando el dataset **Dolly-15k**.
  • Recomendación de despliegue: Para asegurar la preservación del trabajo, el siguiente paso debe ser:
    1. Subir el modelo fusionado en formato estándar de Hugging Face (merged_16bit).
    2. Realizar posteriormente la conversión final a GGUF (Q8_0) de forma local en una máquina con mayor capacidad de memoria o en un servidor dedicado.

Propiedad Intelectual (indiscutible) de: RJCG

sábado, 6 de diciembre de 2025

Los tokens en la Inteligencia Artificial

En los modelos de Lenguaje Grande (LLM) como ChatGPT, LLaMA, Mistral, Qwen u Ollama, el concepto más importante no son las palabras, sino los tokens. Comprender qué son los tokens, cómo se calculan y cómo varían entre idiomas es clave para:

  • Diseñar mejores prompts.
  • Reducir costos en APIs comerciales.
  • Optimizar el rendimiento en modelos locales.
  • Evitar errores por desbordamiento de contexto.

Este artículo explica todo esto de forma clara y aplicada.


1. ¿Qué es un token?

Un token es una unidad mínima de texto que utiliza un modelo para procesar información. Un token no necesariamente es una palabra completa. Puede ser:

  • Una palabra completa
  • Parte de una palabra
  • Un signo de puntuación
  • Un espacio
  • Una sílaba

Por ejemplo, la frase:

El gato duerme plácidamente

Puede dividirse internamente en algo parecido a:

["El", " gato", " duer", "me", " pl", "áci", "da", "mente"]

Aunque para un humano son solo 4 palabras, para el modelo pueden ser 8 tokens o más.


2. Por qué los modelos usan tokens y no palabras

Los modelos de lenguaje utilizan técnicas de sub-palabras estadísticas (como BPE o SentencePiece), porque:

  • Permiten manejar cualquier idioma.
  • Detectan patrones frecuentes.
  • Reducen el tamaño del vocabulario.
  • Mejoran la generalización del modelo.

Esto explica por qué palabras con acentos, conjugaciones o poco uso suelen dividirse en varios tokens.


3. Cómo estimar el número de tokens en textos largos

Aunque el conteo exacto se hace con tokenizadores automáticos, se puede usar una estimación muy precisa para el trabajo diario.

Reglas prácticas

Tipo de texto Estimación
Inglés 1 token ≈ 0,75 palabras
Español 1 token ≈ 0,9 palabras
Texto técnico 1 token ≈ 0,6 palabras
Código 1 token ≈ 0,4 palabras
Desde caracteres tokens ≈ caracteres / 4

Fórmulas rápidas

Para español:

tokens ≈ palabras × 1,3

Para inglés:

tokens ≈ palabras × 1,1

Desde caracteres (muy confiable):

tokens ≈ caracteres / 4

4. Ejemplo real de cálculo

Supongamos un artículo de:

  • 1.200 palabras
  • 7.000 caracteres

Cálculo:

Por palabras: 1.200 × 1,1 ≈ 1.320 tokens
Por caracteres: 7.000 / 4 ≈ 1.750 tokens

Resultado realista:

Entre 1.400 y 1.700 tokens

5. Diferencias entre tokenización en español e inglés

Los modelos modernos están entrenados mayoritariamente en inglés, por lo que:

  • El inglés tokeniza mejor.
  • El español se fragmenta más.
  • Los acentos y conjugaciones aumentan el número de tokens.
  • El mismo mensaje cuesta más tokens en español.

Ejemplo comparativo simple

Español:

El gato duerme plácidamente

Tokens aproximados:

["El", " gato", " duer", "me", " pl", "áci", "da", "mente"]

Total: 8 tokens

Inglés:

The cat sleeps peacefully

Tokens:

["The", " cat", " sleeps", " peacefully"]

Total: 4 tokens


6. Ejemplo técnico comparativo

Español:

El microcontrolador ejecuta instrucciones en tiempo real

Tokens aproximados:

["El", " micro", "control", "ador", " ejecut", "a", " instruc", "ciones", " en", " tiempo", " real"]

Total: 11 tokens

Inglés:

The microcontroller executes real-time instructions

Tokens:

["The", " microcontroller", " executes", " real", "-", "time", " instructions"]

Total: 7 tokens


7. Impacto real de los tokens en costos, memoria y velocidad

En servicios comerciales de IA

  • Más tokens = mayor costo.
  • El español suele costar más que el inglés (por mayor fragmentación).
  • Prompts largos se facturan por miles de tokens.

En modelos locales (Ollama, LLaMA, etc.)

  • Más tokens = mayor consumo de RAM.
  • Más tokens = mayor latencia.
  • Más tokens = menos espacio disponible para el historial de conversación.

Ejemplo aproximado:

Tokens en prompt RAM usada Tiempo de respuesta
512 ≈ 1 GB Muy rápido
2.048 ≈ 2–3 GB Medio
8.000 ≈ 7–10 GB Lento

8. Buenas prácticas para optimizar el uso de tokens

Especialmente al trabajar con n8n, Ollama y automatizaciones locales:

  • Usar prompts cortos y precisos.
  • Evitar repeticiones innecesarias.
  • Resumir antes de reenviar texto al modelo.
  • Usar identificadores en lugar de textos largos.
  • Guardar contexto fuera del prompt cuando sea posible.

Ejemplo eficiente:

Contexto: Cliente solicita cita de cardiología

Ejemplo ineficiente:

El cliente ha realizado una solicitud detallada explicando que desea...

Conclusión

Los tokens son la verdadera moneda de cambio de la inteligencia artificial moderna. Quien domina los tokens:

  • Reduce costos.
  • Mejora la velocidad de respuesta.
  • Optimiza el uso de memoria.
  • Diseña mejores agentes y flujos de automatización.
  • Aprovecha al máximo sus modelos locales y en la nube.

Comprender los tokens no es opcional: es una habilidad técnica esencial en la era de la IA.

Qué es el Fine-Tuning

 El Concepto Fundamental

El fine-tuning (o afinación) no es crear un modelo de IA desde cero, sino ajustar los pesos de un modelo base que ya ha sido entrenado con datos masivos y generales.

  • Objetivo Principal: Mejorar el rendimiento del modelo en tareas específicas. Esto permite que modelos relativamente pequeños y bien afinados puedan superar a modelos mucho más grandes y genéricos (como los de GPT) en el contexto de un nicho particular.
  • La Ventaja Clave: La afinación es la puerta de entrada a la creación de modelos especializados que son más baratos de ejecutar y pueden ser desplegados de manera más eficiente que las grandes APIs comerciales.




La Oportunidad de Negocio y las Implicaciones Éticas

El fine-tuning no es solo una habilidad técnica, sino una oportunidad de mercado crucial.

Creación de una Ventaja Competitiva (Moat)

  • Se cita a la aceleradora Y Combinator, que busca activamente startups centradas en modelos afinados.
  • La mayoría de las startups de IA son fácilmente reemplazables, ya que dependen de la tecnología de OpenAI u otros gigantes.
  • Crear su propio modelo afinado le proporciona un "moat" (una ventaja competitiva o barrera de entrada) que no puede ser replicado con una simple llamada a una API pública.

Modelos Sin Censura y Despolarización

  • El fine-tuning es el método utilizado para crear modelos "sin censura".
  • Esto se vuelve cada vez más importante, ya que los modelos comerciales están sujetos a filtros de contenido y propaganda por parte de empresas y gobiernos.
  • Afinar su propio modelo le permite entrenarlo con sus propios intereses y valores, evitando los sesgos inherentes a los modelos predefinidos.

El Desafío de los Datos

  • El principal obstáculo en el proceso de afinación no es el código, sino la obtención de conjuntos de datos de alta calidad (datasets) que sirvan para entrenar el comportamiento deseado.

El Tutorial Práctico: Herramientas y Metodología

El video utiliza un workflow moderno y optimizado para hacer la afinación accesible y gratuita.

Herramientas Utilizadas

  1. Google Colab: Es un notebook basado en la nube que proporciona GPUs gratuitas (Tesla T4), esenciales para el entrenamiento.
  2. Unsloth: Una biblioteca de código abierto que acelera significativamente el proceso de fine-tuning y reduce el uso de la memoria de la GPU, permitiendo que modelos grandes se ejecuten en hardware gratuito.
  3. Modelo Base: Se elige el modelo GPT-OSS 20B, que es pequeño pero potente, ideal para esta demostración.

Nota:  ver el siguiente enlace

https://colab.research.google.com/drive/1XamvWYinY6FOSX9GLvnqSjjsNflxdhNc?usp=sharing

Proceso de Entrenamiento (Pasos Clave)

  • Optimización LoRA: Para evitar reentrenar miles de millones de parámetros, el proceso añade adaptadores LoRA (Low-Rank Adaptation). Esta técnica solo entrena una pequeña fracción de los pesos del modelo, logrando un entrenamiento rápido y eficiente en la GPU gratuita.
  • Preparación del Dataset: Se carga un dataset específico. En el ejemplo del video de referencia, se utiliza un dataset diseñado para convertir el LLM en un "agente" capaz de planificar, razonar y usar herramientas (comportamiento agentivo), similar a lo que podría usar OpenAI para sus propios agentes.
  • Entrenamiento: Se inicia el entrenamiento real utilizando la GPU, proceso que se completa en aproximadamente 10 a 15 minutos gracias a las optimizaciones de Unsloth.
  • Inferencia: Una vez que el modelo ha sido afinado, se realiza la inferencia (es decir, se chatea con el modelo) para observar cómo ha cambiado su comportamiento y si ahora responde según el dataset de entrenamiento.
  • Guardado: El modelo puede guardarse localmente (para máxima privacidad) o subirse a Hugging Face para su uso en aplicaciones web completas.

 

Nota: "MOA"

El término proviene de los fosos que rodeaban los castillos medievales. Estos fosos servían como una barrera defensiva que protegía el activo valioso (el castillo) de los atacantes. En el contexto empresarial, un moat es una ventaja competitiva duradera que hace que sea extremadamente difícil para otras empresas (competidores) robar cuota de mercado a una compañía establecida, permitiéndole generar altos rendimientos de capital a largo plazo.

 

Referencia: 

Páginas

Entrada destacada

Análisis Comparativo de Clasificación Humana vs IA

Análisis Comparativo de Clasificación Humana vs Inteligencia Artificial en Dinámicas Conversacionales Digitales Rommel Contreras / Labora...

Entradas populares

Visitas: