miércoles, 4 de marzo de 2026

Clasificación Humana vs Inteligencia Artificial

Análisis Comparativo de Clasificación Humana vs Inteligencia Artificial en Dinámicas Conversacionales Digitales

Rommel Contreras / Laboratorio IA, Logos & Contexto

Correo: rommeljose@gmail.com

Cumaná, Marzo 1 de 2026

Resumen

Este estudio presenta un análisis comparativo entre dos metodologías de clasificación aplicadas a un conjunto de datos de 5.313 mensajes provenientes de un grupo de chat durante un periodo de un año. Se evaluaron dos enfoques: (1) evaluación humana basada en inferencia pragmática personal y (2) clasificación automatizada mediante una Inteligencia Artificial (IA) basada en análisis léxico-semántico. Se diseñaron métricas cuantitativas para medir la utilidad comunicacional, el ruido estructural, la toxicidad latente y la calidez social. Los resultados evidencian divergencias críticas, particularmente en la detección de la categoría pasivo-agresiva (26,6% frente a 2,8%). El estudio discute las limitaciones de los modelos de lenguaje (LLMs) para capturar subtextos emocionales y propone un modelo híbrido de integración ponderada para futuros diagnósticos sociales digitales. Finalmente, se plantea la necesidad de desarrollar modelos LLMs adaptados a la realidad sociocultural de cada escenario específico que se pretenda analizar con asistencia de IA.

Palabras clave: Análisis conversacional, clasificación automática, toxicidad latente, dinámica social digital, modelos híbridos, evaluación comparativa.

1. Introducción

La medición de las dinámicas comunicacionales en entornos digitales enfrenta un desafío ontológico: la brecha entre el significado denotativo (lo que se dice) y el connotativo (lo que se quiere decir). Mientras que los evaluadores humanos integran el contexto emocional, la historia interaccional y las inferencias pragmáticas (Walters, 2023), los modelos de Inteligencia Artificial (IA) priorizan patrones semánticos explícitos y probabilidades estadísticas (Morales et al., 2023).

El objetivo de esta investigación es someter un mismo conjunto de datos a ambos filtros interpretativos para cuantificar cómo la mediación algorítmica transforma la percepción de la salud comunicacional de un grupo.

2. Metodología

Los indicadores y fórmulas presentados en este estudio (UB, R, IRU, CTL, ICS) constituyen una propuesta metodológica original del autor. Esta metodología fue diseñada específicamente para abordar las carencias de los modelos de clasificación estándar en la detección de matices pragmáticos y socioculturales en entornos de mensajería instantánea.

Dichos indicadores se proponen debido a que las métricas tradicionales de la Inteligencia Artificial (IA) no logran capturar los subtextos que los humanos detectamos de inmediato en una interacción cotidiana. Para cuantificar estas diferencias, se formalizaron indicadores basados en la relación señal/ruido y en las funciones del lenguaje. No se presentan como métricas comerciales, sino como una propuesta de modelado para medir la eficiencia comunicativa y la fricción social en comunidades digitales.

2.1 Procedimiento y Corpus

Se analizó un corpus de N = 5.313 mensajes recolectados durante un período ininterrumpido de un año (2025), provenientes de un grupo de WhatsApp integrado por ciudadanos venezolanos de la región oriental —predominantemente de Cumaná y el estado Sucre—, conformado por cultores e intelectuales. Cada mensaje fue despojado de metadatos de identidad (nombre, fecha, hora) para preservar el anonimato de los participantes y garantizar que la clasificación respondiera exclusivamente al contenido lingüístico del mensaje.

Este procedimiento de decapitación del mensaje asegura que el patrón conceptual clasificado no sea atribuible a un individuo en particular, diluyendo la parcialidad que podría introducir el reconocimiento del emisor. Cada mensaje fue clasificado en seis categorías mutuamente excluyentes: Informativo, Cortesía/Social, Ornamental, Pasivo-agresivo, Religioso y SPAM/Cadenas.


2.1.1 Protocolo de Clasificación Humana: Anotación Distribuida No Supervisada 

La clasificación humana del corpus se realizó mediante un proceso de anotación distribuida no supervisada. Se convocaron N = 55 colaboradores a través de una plataforma de acceso público, quienes clasificaron los mensajes de forma independiente, sin recibir inducción previa, sin acceso a definiciones operativas de las categorías y sin conocimiento entre sí. La mayoría de los colaboradores preservaron su anonimato bajo alias, garantizando la independencia de los juicios respecto al grupo analizado.

Esta decisión metodológica fue deliberada y responde a un objetivo de diseño específico: capturar la varianza interpretativa natural del contexto sociocultural del corpus, en lugar de imponer un marco categorial externo que pudiera sesgar el resultado hacia la definición de un único anotador experto. Este enfoque es metodológicamente comparable al crowdsourcing de anotación, práctica ampliamente documentada en la literatura sobre procesamiento de lenguaje natural (Gilardi, Alizadeh y Kubli, 2023).

En estudios de anotación masiva de texto, el acuerdo entre anotadores no entrenados se sitúa típicamente entre el 50% y el 65% (Gilardi et al., 2023), lo que implica que la varianza observada no es un artefacto metodológico, sino una característica inherente a la naturaleza ambigua de las categorías pragmáticas analizadas. Esa varianza es, en sí misma, un dato empírico relevante que refuerza la necesidad del modelo híbrido propuesto.

Tabla A. Comparativa de protocolos de anotación

Característica Este estudio Estándar académico tradicional
N.° de anotadores55 colaboradores3–7 expertos
Entrenamiento previoSin inducción (deliberado)Sí, con guía de codificación
AnonimatoAlias (mayoría)Identificados
Interacción entre anotadoresNula (independientes)Variable
ObjetivoCapturar varianza sociocultural naturalMaximizar consistencia formal
Método equivalenteCrowdsourcing de anotaciónInter-rater agreement clásico

2.1.2 Definición Operativa de Categorías

Para garantizar la replicabilidad del estudio, se explicitan a continuación las definiciones operativas de cada categoría, reconstruidas a partir del criterio observado en la clasificación humana:

Categoría Definición operativa Ejemp: Definición operativa
Informativo Mensajes cuya función primaria es la transmisión de contenido factual, referencial o propositivo orientado al grupo. Noticias, datos, anuncios, convocatorias.
Cortesía/Social Mensajes cuya función es mantener el vínculo social (función fática de Jakobson), sin contenido informativo primario. Saludos, agradecimientos, despedidas.
Ornamental Expresiones afectivas, reacciones emocionales o contenido sin valor informativo ni fático claro. Incluye emojis aislados. "Qué bueno", "Exacto", emojis sueltos.
Pasivo-agresivo Mensajes que expresan fricción social, crítica indirecta, ironía o sarcasmo de forma velada. Comentarios ambiguos, ironías contextuales.
Religioso Mensajes cuyo contenido central es de naturaleza religiosa o espiritual, independientemente de su función social. Oraciones, citas bíblicas, bendiciones explícitas.
SPAM/Cadenas Mensajes reenviados de origen externo, publicidad no solicitada o cadenas de difusión masiva. Cadenas de WhatsApp, noticias virales, publicidad.

2.1.3 Nota Epistemológica sobre la Categoría «Informativo»

El contraste más pronunciado entre ambos métodos —36,5% (humano) frente a 63,7% (IA)— se observa en la categoría Informativo. Esta divergencia no debe interpretarse únicamente como una limitación de la IA, sino que abre una cuestión epistemológica relevante: ¿informativo desde qué marco interpretativo?

En este estudio, «Informativo» fue operacionalizado como mensajes con contenido denotativo explícito y función referencial primaria (Jakobson, 1960). Esta decisión implica una distinción entre información proposicional e información relacional: los mensajes pasivo-agresivos o religiosos son sociológicamente informativos —revelan tensiones, valores y dinámicas del grupo—, pero su función pragmática primaria no es la transmisión de contenido factual. La IA, al operar bajo patrones léxicos explícitos, tiende a clasificar como «informativos» mensajes que un evaluador contextualizado interpreta como portadores de subtexto emocional.

La distinción entre información literal e información relacional se propone como una limitación explícita del modelo de clasificación presentado y como línea de investigación futura.

2.1.4 Limitaciones y Posibles Sesgos de la Clasificación Humana

Es metodológicamente necesario reconocer que la clasificación humana, si bien sociológicamente rica, no está exenta de sesgos sistemáticos. Los 55 colaboradores comparten, en su mayoría, un marco cultural y generacional con los emisores del corpus, lo que puede generar dos fenómenos contrapuestos:

  • Hiperinterpretación contextual: sobredetección de fricción social o pasivo-agresividad en mensajes que un observador externo clasificaría como neutros, por el conocimiento implícito de los códigos comunicacionales del grupo.
  • Normalización cultural: subdetección de patrones que serían llamativos para un analista externo, por su naturaleza cotidiana dentro del contexto sociocultural específico.

Estas limitaciones son inherentes a cualquier estudio de análisis conversacional situado culturalmente y, lejos de invalidar los resultados, refuerzan la necesidad del modelo híbrido propuesto.


2.2 Fundamentación de las Métricas

Las métricas presentadas a continuación no pretenden establecerse como estándares universales de la industria, sino como una herramienta original para formalizar el análisis de la salud comunicacional en redes sociales. El diseño de estos indicadores se fundamenta en la Teoría de la Información (Shannon) para la distinción entre señal y ruido, y en las Funciones del Lenguaje (Jakobson) para valorar la utilidad fática e informativa de los mensajes.

Esta formalización resulta necesaria debido a que los modelos de clasificación automática actuales (LLMs) suelen operar bajo una lógica léxica explícita, ignorando la toxicidad latente que solo una evaluación situada contextualmente puede detectar con precisión.

Utilidad Bruta (UB): Representa la proporción de mensajes con contenido puramente informativo.

UB = Mensajes Informativos / N

Ruido Total (R): Suma de categorías que no aportan a la funcionalidad operativa del grupo (ornamental + religioso + spam).

R = M. Ornamental + M. Religioso + M. Spam

Índice Ruido/Utilidad (IRU): Relación que determina la eficiencia comunicativa del entorno digital.

IRU = Ruido Total / Utilidad Bruta

Coeficiente de Toxicidad Latente (CTL): Medida diseñada para cuantificar la fricción social indirecta (sarcasmo y pasivo-agresividad).

CTL = Mensajes Pasivo-agresivos / N

Índice de Calidez Social (ICS): Mide la cohesión del grupo a través de la cortesía y el adorno social.

ICS = M. Cortesía + M. Ornamental

Aunque los nombres (UB, IRU, CTL, ICS) fueron asignados para este estudio, su lógica se basa en conceptos académicos reales:

  • Utilidad Bruta (UB) y Ruido (R): Se basan en la Teoría de la Información de Shannon, que diferencia entre "señal" (información útil) y "ruido" (datos que no cambian el estado de conocimiento del receptor).
  • Índice Ruido/Utilidad (IRU): Es una adaptación de la Relación Señal/Ruido (SNR) utilizada en ingeniería y telecomunicaciones, aplicada aquí a la eficiencia de la comunicación humana.
  • Coeficiente de Toxicidad Latente (CTL): Se fundamenta en los estudios de Pragmática de Walters (2023) sobre la intención implícita. La fórmula busca cuantificar lo que la lingüística llama "atenuación" o "cortesía negativa" (donde entra la pasivo-agresividad).
  • Índice de Calidez Social (ICS): Se apoya en la Función Fática de Jakobson, que explica cómo ciertos mensajes no transmiten información, sino que sirven para mantener abierto el canal social y fortalecer el vínculo.

2.3 Antecedentes y Posicionamiento Respecto a Estudios Previos

El presente estudio se inscribe en una línea de investigación creciente sobre el análisis computacional de conversaciones en plataformas de mensajería instantánea. La siguiente tabla resume los trabajos más directamente relacionados y el posicionamiento diferencial de esta investigación:

Estudio Objeto Método Diferencia con este trabajo
Roy & Das (2023). Social Network Analysis and Mining, 13. Chats grupales de WhatsApp estudiantiles. Análisis de sentimientos en espacio VAD (Valencia, Activación, Dominancia). Este estudio añade categorías pragmáticas (pasivo-agresividad, ornamental) ausentes en modelos VAD estándar.
Pituk et al. (2024). IEEE ICETSIS. Chats de WhatsApp personales y profesionales. NLP para clasificación temática y patrones conductuales. Este estudio introduce la comparación humano vs IA como variable central, no solo la clasificación automática.
Gilardi, Alizadeh & Kubli (2023). PNAS, 120(35). Tareas diversas de anotación de texto. Comparación crowd workers vs LLM (ChatGPT). Este estudio usa la divergencia humano-IA como hallazgo sustantivo sobre sensibilidad pragmática cultural.

La contribución diferencial de este estudio reside en: (1) la incorporación de categorías pragmáticas que trascienden el análisis de sentimientos estándar, especialmente la pasivo-agresividad como categoría de toxicidad latente; (2) la aplicación al contexto sociocultural venezolano, escasamente representado en la literatura existente; y (3) el uso de la divergencia cuantitativa entre clasificación humana e IA no como error a minimizar, sino como dato empírico sustantivo.

2.4 Clasificación Automatizada

Para la clasificación automatizada del corpus de 5.313 mensajes, se utilizó el modelo de lenguaje Claude (Anthropic, https://claude.ai). La herramienta fue empleada para el análisis léxico-semántico de los datos, aplicando los mismos criterios de categorización que el equipo humano. El uso de esta IA permitió procesar el volumen total del corpus bajo patrones semánticos explícitos y probabilidades estadísticas para su posterior comparación con la inferencia pragmática humana.

3. Resultados

La clasificación humana y la automatizada arrojaron visiones contrapuestas sobre la naturaleza del grupo.

3.1 Distribución de Categorías

La Tabla 1 resume los porcentajes obtenidos por ambos métodos. La diferencia más radical se observa en la categoría Pasivo-agresiva, donde la sensibilidad humana detectó casi diez veces más incidencia que la IA.

Tabla 1. Comparativa de Clasificación de Mensajes (%)
Categoría Clasificación Humana Clasificación IA
Informativo37,563,7
Pasivo-agresivo26,62,8
Cortesía/Social17,618,0
Ornamental14,113,9
Religioso2,61,2
SPAM1,60,3

3.2 Indicadores Derivados

Al aplicar las métricas, el diagnóstico estructural cambia drásticamente según el observador.

Tabla 2. Indicadores derivados por enfoque
Indicador Enfoque Humano Enfoque IA
Utilidad Bruta (UB)0,3750,637
Ruido Total (R)0,1830,154
Índice Ruido/Utilidad (IRU)0,488 (ruido > utilidad)0,242 (4× más utilidad que ruido)
Coef. Toxicidad Latente (CTL)0,266 (significativa)0,028 (virtualmente nula)
Índice Calidez Social (ICS)0,3170,319
  • Enfoque Humano: sugiere un grupo donde el ruido supera a la utilidad, con una toxicidad latente significativa (CTL = 0,266).
  • Enfoque IA: describe un ecosistema altamente eficiente (4 veces más utilidad que ruido) y virtualmente libre de toxicidad (CTL = 0,028).

4. Discusión y Análisis Comparativo

4.1 La Brecha de la Toxicidad Latente y el Sesgo Cultural

La divergencia crítica en el CTL (0,266 vs 0,028) revela que la Inteligencia Artificial tiende a "neutralizar" los mensajes procesados. Al carecer de una teoría de la mente completa aplicada al contexto histórico del grupo, la IA clasifica erróneamente como "Informativos" aquellos mensajes que un evaluador humano interpreta como sarcásticos o pasivo-agresivos. Esta limitación técnica coincide con las observaciones de Chaka (2023) sobre la incapacidad de los detectores de contenido actuales para captar matices humanos de alta complejidad.

Este fenómeno subraya una debilidad estructural: los modelos de lenguaje actuales (LLMs) operan bajo parámetros léxicos globales que, con frecuencia, ignoran la realidad sociocultural de escenarios específicos. En las dinámicas conversacionales digitales, elementos como la ironía y la fricción social dependen estrictamente de códigos locales que la IA, en su configuración estándar, no logra decodificar con la precisión necesaria.

4.2 Hacia un Modelo Adaptado

Más allá de la integración ponderada establecida (0,6×IA + 0,4×Humano), los resultados obtenidos sugieren la necesidad imperativa de desarrollar o ajustar modelos LLMs que reconozcan las particularidades dialécticas y culturales de cada entorno analizado. Solo mediante la implementación de una IA situada contextualmente será posible reducir la brecha entre el significado denotativo de los mensajes y la intención pragmática real del usuario.

5. Conclusiones

Este estudio demuestra que el diagnóstico comunicacional en entornos digitales no es un proceso neutral, sino que está mediado por el marco interpretativo del observador. La discrepancia estadística encontrada revela que un mismo ecosistema digital puede ser diagnosticado como "socialmente friccionado" por un analista humano o como "operativamente eficiente" por una inteligencia artificial estándar.

La conclusión fundamental de esta investigación es que la integración de ambos enfoques es imperativa para obtener una analítica que sea estadísticamente robusta pero sociológicamente válida. Sin embargo, no basta con una combinación aritmética de resultados; el futuro del análisis de datos sociales requiere de una IA situada contextualmente.

Se concluye que los modelos de lenguaje deben evolucionar de una arquitectura léxica global hacia una capacidad de procesamiento que reconozca la realidad sociocultural y dialéctica de cada escenario. Solo mediante el entrenamiento o ajuste de modelos que comprendan los códigos locales y las sutilezas de la ironía regional, podrá la inteligencia artificial actuar como una herramienta de mediación y análisis verdaderamente efectiva en la gestión de comunidades digitales complejas.

Agradecimientos

El autor expresa su gratitud a los colaboradores, cuya dedicación en la categorización manual del corpus de mensajes fue fundamental para establecer la base comparativa de este estudio. Su capacidad para identificar matices pragmáticos y subtextos emocionales permitió contrastar con precisión las limitaciones léxicas de la inteligencia artificial.

Declaración de uso de Tecnologías de IA Generativa: En la preparación de este estudio, el autor utilizó la herramienta Claude (Anthropic) con el fin de realizar la clasificación masiva del corpus de datos y asistir en el refinamiento del estilo del manuscrito. De la misma manera, se deja constancia de que para el diseño y elaboración de las herramientas de clasificado se usó Gemini (Google). Tras el uso de esas herramientas, el autor revisó y editó el contenido para asegurar la precisión científica y se hace responsable del contenido final de la investigación.

Referencias Bibliográficas

Chaka, C. (2023). AI content detectors seem not yet fully ready to accurately and convincingly detect AI-generated content from machine-generated texts. Journal of Applied Learning and Teaching, 6(1), 94–106.

Contreras, R. (2026, marzo). Radiografía Conversacional: Clasificación Humana vs IA. Tecnología Cumanesa. https://tecnologiacumanesa.blogspot.com/2026/03/clasificacion-humana-vs-ia.html

Contreras, R. (2026, 28 de febrero). Análisis con datos reales de un grupo de WhatsApp. Tecnología Cumanesa. https://tecnologiacumanesa.blogspot.com/2026/02/analisis-con-datos-reales-de-un-grupo.html

Gilardi, F., Alizadeh, M., & Kubli, M. (2023). ChatGPT outperforms crowd workers for text-annotation tasks. Proceedings of the National Academy of Sciences, 120(35). https://doi.org/10.1073/pnas.2305016120

Morales, L. E., Barrios, E., & Pinto, D. (2023). Artificial Intelligence-Based Text Classification: Separating Human and Computer-Generated Texts. IberLEF 2023.

Newman, A., & Gopalkrishnan, K. (2023). AI communication styles and decision making: A framework for digital interaction.

Pituk et al. (2024). WhatsApp Chat Analysis Using Machine Learning. IEEE ICETSIS 2024.

Roy, B., & Das, S. (2023). Perceptible sentiment analysis of students' WhatsApp group chats in valence, arousal, and dominance space. Social Network Analysis and Mining, 13, 9. https://doi.org/10.1007/s13278-022-01016-1

Walters, W. H. (2023). The accuracy of 16 publicly available AI text detectors in discriminating between AI-generated and human-generated writing. Scientific Reports, 13(1), 1–12.

sábado, 28 de febrero de 2026

Análisis con datos reales de un grupo de WhatsApp

Pregunté a DeepSeek:

He clasificado los mensajes de medio año de interacción en un grupo de amigos 5126 mensajes (de un total de 7870), en 6 categorías:
    - Informativo = 1921
    - Pasivo-agresivo = 1362
    - Ornamental = 723
    - Religioso = 135
    - SPAN / Cadenas = 82
    - Cortesía/Social = 903A)

A) ¿Si, cierto día me conecto al grupo, cuál es la probabilidad que el próximo mensaje tenga cierta categoría?

B) ¿Cómo calificas la interacción de ese grupo teórico de amigos?


Agrupamos todos los mensajes de un año de un grupo de WhatsApp. Los "decapitamos", quitamos nombres, fechas y autores, dejando el cuerpo de mensaje huérfano de identidad. Luego los agrupamos en las categorías seleccionadas (eso se hace con criterio humano, no con IA), el patrón conceptual no es de un humano en específico, así se diluye la parcialidad. Luego hice el análisis clásico para grupos con los datos numéricos obtenidos.

Ese no es el objetivo final, ese es un simpático e interesante resultado intermedio.
El objetivo es, entrenar una IA, para reconocer esas categorías, partiendo de un modelo de IA pequeño virgen o fundamental. Ese trabajo aún falta por hacer y es la parte dura del experimento.

 

Respuesta:


Vamos por partes. Es un análisis hermoso porque tienes datos reales y una clasificación clara. Usaré frecuencia relativa como estimador de probabilidad.


A) Probabilidad de cada categoría

Total de mensajes: 5126

Categoría Mensajes Probabilidad
Informativo 1921 37.5%
Pasivo-agresivo 1362 26.6%
Ornamental 723 14.1%
Religioso 135 2.6%
SPAM / Cadenas 82 1.6%
Cortesía / Social 903 17.6%
Total 5126 100%

Fórmula:

P(categoría) = mensajes de esa categoría / total de mensajes

Ejemplo:
P(Informativo) = 1921 / 5126 ≈ 0.375


B) ¿Cómo calificas la interacción?

1. Es un grupo funcional, no solo cháchara

  • 37.5% informativo → casi 2 de cada 5 mensajes tienen contenido útil. El grupo sirve.

2. Hay tensión estructural

  • 26.6% pasivo-agresivo es muy alto.
  • Más de 1 de cada 4 mensajes tiene carga emocional negativa encubierta.
  • El grupo no es un espacio seguro emocionalmente.
  • En un grupo sano, esto no debería pasar del 5–8%. Aquí es el segundo tipo más frecuente.

3. Cortesía como pegamento social

  • 17.6% de saludos y agradecimientos.
  • Funciona como amortiguador de la tensión.

4. Ornamental alto (14.1%)

  • Memes, gifs, fotos sin contexto, reacciones.
  • Puede ser lubricante social o evasión.

5. Religioso y SPAM son marginales

  • Religioso: 2.6%.
  • SPAM/Cadenas: 1.6%.

Calificación cualitativa

Tipo de grupo:
Técnicamente funcional, emocionalmente disfuncional.

Diagnóstico:

  • Hay contenido de valor, pero se paga con un clima pesado.
  • La gente se aguanta, no se habla claro.
  • Si el pasivo-agresivo sigue subiendo, el grupo se puede silenciar o fragmentar.

Recomendación:

  • Nombrar explícitamente los roces.
  • Alguien con autoridad moral que limite el sobreentendido hostil.
  • Si son amigos reales, hablar fuera del chat lo que aquí se expresa de forma indirecta.

Dos métricas simples pero reveladoras con los datos que ya tenemos.


1. Índice de Ruido vs Utilidad (IRU)

Definimos:

  • Utilidad neta: mensajes que aportan valor explícito.
  • Ruido: mensajes que no aportan información sustantiva o son disfuncionales.

Clasificación

Categoría Tipo Justificación
Informativo Utilidad Contiene información
Cortesía/Social Neutro Mantiene vínculo, pero no es “utilidad dura”
Pasivo-agresivo Ruido tóxico Deteriora el ambiente
Ornamental Ruido leve No aporta, pero entretiene
Religioso Depende* Puede ser informativo o proselitista
SPAM/Cadenas Ruido total Basura

Para simplificar asumimos:

  • Utilidad: Informativo (1921)
  • Ruido: Pasivo-agresivo + Ornamental + SPAM = 1362 + 723 + 82 = 2167
  • Neutro: Cortesía (903) + Religioso (135) = 1038

Fórmula:
IRU = Ruido / Utilidad = 2167 / 1921 ≈ 1.13

Interpretación:
Por cada mensaje útil, hay 1.13 mensajes de ruido. El grupo aporta, pero con un coste de atención alto.


2. Coeficiente de Toxicidad Latente (CTL)

El pasivo-agresivo no es ruido inocuo: envenena.

Fórmula:
CTL = Pasivo-agresivo / Total = 1362 / 5126 ≈ 0.266

Resultado:
26.6% de todo lo que se dice tiene carga hostil indirecta.


3. Índice de Calidez Social (ICS)

La cortesía y lo ornamental pueden verse como termómetro de vínculo.

Fórmula:
ICS = (Cortesía + Ornamental) / Total = 1626 / 5126 ≈ 0.317

Resultado:
31.7% de los mensajes son intentos de mantener cohesión (saludos, memes, reacciones).


Tabla resumen

Métrica Valor Interpretación
IRU 1.13 Pagas 1.13 mensajes de ruido por cada útil
CTL 26.6% Más de 1 de cada 4 mensajes es pasivo-agresivo
ICS 31.7% Casi 1 de cada 3 mensajes intenta mantener cohesión
Utilidad bruta 37.5% El grupo aún sirve para algo

Diagnóstico final

Este grupo no es sano, pero tampoco es inservible.

  • La toxicidad es alta, pero está compensada por una calidez social casi igual de alta.
  • La gente se necesita (por eso tanta información y cortesía), pero no se soporta del todo (por eso el pasivo-agresivo).
  • Si el CTL supera el 30%, el grupo empieza a sangrar miembros silenciosamente. Está en el límite.

📊 Gráficas en formato texto / ASCII


GRÁFICA 1: Composición general del chat (6 meses)

CATEGORÍA       MENSAJES   ████████████████████
Informativo      1921      ████████████████████░░░░░░░░░░░░  (37.5%)
Pasivo-agresivo  1362      ██████████████░░░░░░░░░░░░░░░░░░  (26.6%)
Cortesía/Social   903      █████████░░░░░░░░░░░░░░░░░░░░░░░  (17.6%)
Ornamental        723      ███████░░░░░░░░░░░░░░░░░░░░░░░░░  (14.1%)
Religioso         135      █░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░  (2.6%)
SPAM/Cadenas       82      ░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░  (1.6%)

GRÁFICA 2: Probabilidad del próximo mensaje

Si te conectas ahora mismo, esto es lo que podría aparecer:

████████████████████████████████████ 37.5%  Informativo
██████████████████████████░░░░░░░░░░ 26.6%  Pasivo-agresivo
████████████████░░░░░░░░░░░░░░░░░░░░ 17.6%  Cortesía
██████████░░░░░░░░░░░░░░░░░░░░░░░░░░ 14.1%  Ornamental
██░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░  2.6%  Religioso
█░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░░  1.6%  SPAM

GRÁFICA 3: Índices de calidad (barras comparativas)

ÍNDICE                       VALOR   GRÁFICO
Ruido vs Utilidad (IRU)       1.13   ████████░░░░░░░░░░  (1.13x ruido por cada útil)
Toxicidad Latente (CTL)      26.6%   ███████████░░░░░░░░░░░░░░░░░░░
Calidez Social (ICS)         31.7%   █████████████░░░░░░░░░░░░░░░░░
Utilidad bruta               37.5%   ████████████████░░░░░░░░░░░░░░

GRÁFICA 4: Radiografía del grupo (torta textual)

                    ▄████████████████████▄
                 ▄████▀  Informativo   ▀████▄
               ▄███▀       37.5%          ▀███▄
              ███▀                           ▀███
             ███                               ███
            ███      Pasivo-agresivo            ███
            ███          26.6%                  ███
            ███                               ███
            ███     Cortesía   ██████          ███
            ███▄     17.6%    ██    ██ Ornam. ▄███
             ███▄           ██ 14.1% ██     ▄███
              ▀███▄        ██        ██  ▄███▀
               ▀████▄     ██  Relig. ██▄████▀
                 ▀████▄    ██ 2.6% ██▄████▀
                     ▀████▄ ██ 1.6%▄████▀
                         ▀██████████▀
                           (SPAM)


domingo, 22 de febrero de 2026

Bandera de Venezuela Inclusión cultural: Tu ayuda permite que la IA entienda nuestras realidades sociales, la idiosincrasia y la diversidad de nuestra forma de comunicarnos, evitando la discriminación y los sesgos.

Estoy entrenando un modelo para que entienda y reconozca cómo hablamos los venezolanos en WhatsApp (sobre todo los orientales): nuestra jerga, la de los chamos, el sarcasmo, las cadenas, lo informativo u ornamental y hasta las bendiciones de las tías. 🗣️📲

🎯 La meta: Clasificar 10.000 mensajes (¡apenas voy por 2.500!). ¿Me regalan 5 minuticos de su tiempo o un poco más? 🙏

🔗 Entren aquí: https://frailes.tail626693.ts.net:8443/

¿Qué hay que hacer? Leen un mensaje cortico y tocan el botón del color que mejor lo describa. ¡Es rápido y parece un juego! 🎮

🔒 100 Anónimo, Seguro y Ético: Todos los mensajes fueron "decapitados" (les borré los nombres de los autores, números y fechas). Es un esfuerzo puramente académico, sin fines de lucro y apegado al Código de Ética de IA de Venezuela (se agradecen acotaciones). 🛡️

Si están en una cola, en el banco o echados en el mueble, ¡cada clic me ayuda muchísimo! Ayúdenme a que la IA entienda nuestra idiosincrasia. ¡Infinitas gracias por el apoyo! 🙌

Ejemplo de la pantalla de entrada y categorización: 

martes, 10 de febrero de 2026

Fuerza de trabajo cognitiva objetivada

Reformulación conceptual: fuerza de trabajo cognitiva y activo cognitivo

 por: Rommel Contreras

En los modelos contemporáneos de inteligencia artificial se consolida una transformación estructural del trabajo intelectual humano.

Aquello que históricamente fue fuerza de trabajo cognitiva —la capacidad viva de razonar, interpretar, decidir y crear— deja de residir exclusivamente en el sujeto humano y pasa a ser extraída, formalizada y encapsulada en sistemas técnicos.

Este proceso da lugar a lo que puede definirse como fuerza de trabajo cognitiva objetivada: una capacidad intelectual que, una vez separada de su portador humano, se fija en un objeto técnico (modelo, sistema, agente) capaz de ejecutar tareas cognitivas de manera autónoma, repetible y escalable.

Cuando esta fuerza objetivada entra en circuitos de producción, intercambio y rentabilización, deja de ser únicamente una abstracción técnica y se convierte en un activo cognitivo productivo. Es decir, en un bien económico capaz de generar valor de forma sostenida, ya no mediante la presencia directa del trabajador, sino a través de su representación técnica.

Desde esta perspectiva, los modelos de IA especializados no funcionan solo como herramientas, sino como instancias productivas que concentran y despliegan conocimiento humano cristalizado. Su valor no radica únicamente en el código o la infraestructura que los soporta, sino en la capacidad cognitiva incorporada: saber experto, criterios de decisión, lenguaje técnico, heurísticas y estilos de razonamiento.

La diferencia fundamental con formas históricas de explotación del trabajo no reside en la ausencia de coerción física, sino en la despersonalización completa de la fuerza de trabajo. El conocimiento ya no se alquila a través del tiempo del sujeto, sino que se licencia, vende o renta como un activo autónomo, desligado de la biografía, la voluntad o la identidad de quienes lo produjeron.

Así, la fuerza de trabajo cognitiva objetivada constituye el sustrato técnico, mientras que el activo cognitivo productivo representa su forma económica madura. Ambos conceptos describen un mismo fenómeno desde ángulos distintos: uno desde la transformación del trabajo, el otro desde la lógica del capital.

miércoles, 10 de diciembre de 2025

Ajuste fino de un modelo de lenguaje (SLM) de pequeña escala

Ajuste Fino de Gemma 270M con Datos Dolly-15k

Este proyecto culminó con éxito el entrenamiento de un modelo de lenguaje de pequeña escala para mejorar su capacidad de seguir instrucciones, utilizando un flujo de trabajo optimizado y recursos limitados de Google Colab.

Resultado (Hugging Face Hub)  /  Cuaderno de trabajo (Colab)

Visualización del proceso de fine-tuning del modelo Gemma.


Objetivo Principal

El objetivo fue realizar el Ajuste Fino de Instrucciones (Instruction Fine-Tuning) del modelo [2B-270M] (variante eficiente de Google) utilizando la técnica LoRA (Low-Rank Adaptation) sobre un conjunto de datos público de alta calidad para tareas conversacionales.


I. Fases y Logros Clave del Preprocesamiento

La fase más desafiante fue el preprocesamiento del dataset para adaptarlo al formato específico de chat requerido por el modelo Gemma.

1. Carga y Selección del Dataset

  • Dataset utilizado: databricks/databricks-dolly-15k. Más de 15000 registros únicos de pares de instrucción/respuesta.
  • Ajuste por limitaciones de memoria: El dataset fue reducido a un subconjunto viable para garantizar la estabilidad de la sesión.
  • Logro: Se confirmó la carga correcta del dataset inicial sin errores.

El dataset Databricks Dolly 15k es un corpus clave para el Ajuste Fino de Instrucciones (Instruction Fine-Tuning). Sus principales usos son:

  • Ajuste Fino de Instrucciones: Permite entrenar LLMs para exhibir un comportamiento conversacional.
  • Generación de Datos Sintéticos: Los prompts pueden usarse para generar un corpus de millones de ejemplos adicionales (método Self-Instruct).
  • Aumento de Datos (Data Augmentation): Mejora la solidez del modelo mediante la reformulación de instrucciones.

2. Conversión al Formato ChatML (Conversational Format)

El formato original de Dolly fue transformado al formato de conversación (ChatML) requerido por el framework de entrenamiento:

  • Función clave: convert_to_chatml.
  • Estructura creada: Nueva columna conversations con pares {"role": "user", "content": ...} y {"role": "assistant", "content": ...}.
  • Logro: Se resolvió el error inicial de KeyError alineando correctamente los nombres de las columnas.

3. Formateo y Optimización de Memoria

Esta etapa fue crítica para superar los fallos recurrentes de RAM:

  • Función clave: formatting_prompts_func.
  • Propósito: Usar el tokenizer de Gemma para aplicar la plantilla de chat (e.g., <start_of_turn>user\n...\n<end_of_turn>) a la columna conversations.
  • Técnicas de estabilidad aplicadas: Limpieza explícita de memoria, optimización del mapeo usando batched=True, y resolución de KeyError e IndexError.
  • Logro: Se generó la columna final text sin desbordar la memoria del sistema.

II. Logros del Entrenamiento y Despliegue

El entrenamiento se ejecutó utilizando el framework Unsloth para una optimización superior en el entorno de Google Colab.

1. Configuración de Entrenamiento

  • Método: Ajuste Fino de Instrucciones (SFT) con LoRA.
  • Clase utilizada: SFTTrainer (librería trl).
  • Optimización de memoria: Se configuró packing = True y se usó un per_device_train_batch_size bajo junto con gradient_accumulation_steps.
  • Logro: El modelo ejecutó el bucle completo de entrenamiento; la pérdida (*loss*) mostró una disminución progresiva, confirmando el aprendizaje efectivo.

2. Reto Final: Fallo en la Exportación

El proyecto encontró su principal limitación al intentar la **exportación a GGUF** y la **subida al Hugging Face Hub**.

  • Problema: La fusión de pesos (LoRA + modelo base) y la conversión a formato GGUF (Q8_0) agotaron la RAM del sistema Colab a pesar de las optimizaciones.
  • Estado final: El modelo afinado existe correctamente, pero no pudo ser exportado ni subido en formato GGUF directamente desde Colab.

3. Verificación de la Afinación

  • Resultado del modelo: El éxito del *fine-tuning* se verificó empíricamente al observar la adopción del estilo de respuesta del dataset Dolly.
  • El modelo afinado ahora responde a instrucciones complejas con formatos estructurados (listas, viñetas) y con un tono conversacional consistente, a diferencia del comportamiento del modelo base.

Ver o correr el modelo afinado en: Hugging Face


III. Conclusión y Próximos Pasos Recomendados

El proyecto fue un éxito desde el punto de vista del entrenamiento, demostrando la capacidad para manejar flujos de trabajo avanzados con SLM en entornos con recursos limitados.

  • Logro principal: Modelo Gemma 270M ajustado con éxito para el seguimiento de instrucciones usando el dataset **Dolly-15k**.
  • Recomendación de despliegue: Para asegurar la preservación del trabajo, el siguiente paso debe ser:
    1. Subir el modelo fusionado en formato estándar de Hugging Face (merged_16bit).
    2. Realizar posteriormente la conversión final a GGUF (Q8_0) de forma local en una máquina con mayor capacidad de memoria o en un servidor dedicado.

Propiedad Intelectual (indiscutible) de: RJCG

sábado, 6 de diciembre de 2025

Los tokens en la Inteligencia Artificial

En los modelos de Lenguaje Grande (LLM) como ChatGPT, LLaMA, Mistral, Qwen u Ollama, el concepto más importante no son las palabras, sino los tokens. Comprender qué son los tokens, cómo se calculan y cómo varían entre idiomas es clave para:

  • Diseñar mejores prompts.
  • Reducir costos en APIs comerciales.
  • Optimizar el rendimiento en modelos locales.
  • Evitar errores por desbordamiento de contexto.

Este artículo explica todo esto de forma clara y aplicada.


1. ¿Qué es un token?

Un token es una unidad mínima de texto que utiliza un modelo para procesar información. Un token no necesariamente es una palabra completa. Puede ser:

  • Una palabra completa
  • Parte de una palabra
  • Un signo de puntuación
  • Un espacio
  • Una sílaba

Por ejemplo, la frase:

El gato duerme plácidamente

Puede dividirse internamente en algo parecido a:

["El", " gato", " duer", "me", " pl", "áci", "da", "mente"]

Aunque para un humano son solo 4 palabras, para el modelo pueden ser 8 tokens o más.


2. Por qué los modelos usan tokens y no palabras

Los modelos de lenguaje utilizan técnicas de sub-palabras estadísticas (como BPE o SentencePiece), porque:

  • Permiten manejar cualquier idioma.
  • Detectan patrones frecuentes.
  • Reducen el tamaño del vocabulario.
  • Mejoran la generalización del modelo.

Esto explica por qué palabras con acentos, conjugaciones o poco uso suelen dividirse en varios tokens.


3. Cómo estimar el número de tokens en textos largos

Aunque el conteo exacto se hace con tokenizadores automáticos, se puede usar una estimación muy precisa para el trabajo diario.

Reglas prácticas

Tipo de texto Estimación
Inglés 1 token ≈ 0,75 palabras
Español 1 token ≈ 0,9 palabras
Texto técnico 1 token ≈ 0,6 palabras
Código 1 token ≈ 0,4 palabras
Desde caracteres tokens ≈ caracteres / 4

Fórmulas rápidas

Para español:

tokens ≈ palabras × 1,3

Para inglés:

tokens ≈ palabras × 1,1

Desde caracteres (muy confiable):

tokens ≈ caracteres / 4

4. Ejemplo real de cálculo

Supongamos un artículo de:

  • 1.200 palabras
  • 7.000 caracteres

Cálculo:

Por palabras: 1.200 × 1,1 ≈ 1.320 tokens
Por caracteres: 7.000 / 4 ≈ 1.750 tokens

Resultado realista:

Entre 1.400 y 1.700 tokens

5. Diferencias entre tokenización en español e inglés

Los modelos modernos están entrenados mayoritariamente en inglés, por lo que:

  • El inglés tokeniza mejor.
  • El español se fragmenta más.
  • Los acentos y conjugaciones aumentan el número de tokens.
  • El mismo mensaje cuesta más tokens en español.

Ejemplo comparativo simple

Español:

El gato duerme plácidamente

Tokens aproximados:

["El", " gato", " duer", "me", " pl", "áci", "da", "mente"]

Total: 8 tokens

Inglés:

The cat sleeps peacefully

Tokens:

["The", " cat", " sleeps", " peacefully"]

Total: 4 tokens


6. Ejemplo técnico comparativo

Español:

El microcontrolador ejecuta instrucciones en tiempo real

Tokens aproximados:

["El", " micro", "control", "ador", " ejecut", "a", " instruc", "ciones", " en", " tiempo", " real"]

Total: 11 tokens

Inglés:

The microcontroller executes real-time instructions

Tokens:

["The", " microcontroller", " executes", " real", "-", "time", " instructions"]

Total: 7 tokens


7. Impacto real de los tokens en costos, memoria y velocidad

En servicios comerciales de IA

  • Más tokens = mayor costo.
  • El español suele costar más que el inglés (por mayor fragmentación).
  • Prompts largos se facturan por miles de tokens.

En modelos locales (Ollama, LLaMA, etc.)

  • Más tokens = mayor consumo de RAM.
  • Más tokens = mayor latencia.
  • Más tokens = menos espacio disponible para el historial de conversación.

Ejemplo aproximado:

Tokens en prompt RAM usada Tiempo de respuesta
512 ≈ 1 GB Muy rápido
2.048 ≈ 2–3 GB Medio
8.000 ≈ 7–10 GB Lento

8. Buenas prácticas para optimizar el uso de tokens

Especialmente al trabajar con n8n, Ollama y automatizaciones locales:

  • Usar prompts cortos y precisos.
  • Evitar repeticiones innecesarias.
  • Resumir antes de reenviar texto al modelo.
  • Usar identificadores en lugar de textos largos.
  • Guardar contexto fuera del prompt cuando sea posible.

Ejemplo eficiente:

Contexto: Cliente solicita cita de cardiología

Ejemplo ineficiente:

El cliente ha realizado una solicitud detallada explicando que desea...

Conclusión

Los tokens son la verdadera moneda de cambio de la inteligencia artificial moderna. Quien domina los tokens:

  • Reduce costos.
  • Mejora la velocidad de respuesta.
  • Optimiza el uso de memoria.
  • Diseña mejores agentes y flujos de automatización.
  • Aprovecha al máximo sus modelos locales y en la nube.

Comprender los tokens no es opcional: es una habilidad técnica esencial en la era de la IA.

Qué es el Fine-Tuning

 El Concepto Fundamental

El fine-tuning (o afinación) no es crear un modelo de IA desde cero, sino ajustar los pesos de un modelo base que ya ha sido entrenado con datos masivos y generales.

  • Objetivo Principal: Mejorar el rendimiento del modelo en tareas específicas. Esto permite que modelos relativamente pequeños y bien afinados puedan superar a modelos mucho más grandes y genéricos (como los de GPT) en el contexto de un nicho particular.
  • La Ventaja Clave: La afinación es la puerta de entrada a la creación de modelos especializados que son más baratos de ejecutar y pueden ser desplegados de manera más eficiente que las grandes APIs comerciales.




La Oportunidad de Negocio y las Implicaciones Éticas

El fine-tuning no es solo una habilidad técnica, sino una oportunidad de mercado crucial.

Creación de una Ventaja Competitiva (Moat)

  • Se cita a la aceleradora Y Combinator, que busca activamente startups centradas en modelos afinados.
  • La mayoría de las startups de IA son fácilmente reemplazables, ya que dependen de la tecnología de OpenAI u otros gigantes.
  • Crear su propio modelo afinado le proporciona un "moat" (una ventaja competitiva o barrera de entrada) que no puede ser replicado con una simple llamada a una API pública.

Modelos Sin Censura y Despolarización

  • El fine-tuning es el método utilizado para crear modelos "sin censura".
  • Esto se vuelve cada vez más importante, ya que los modelos comerciales están sujetos a filtros de contenido y propaganda por parte de empresas y gobiernos.
  • Afinar su propio modelo le permite entrenarlo con sus propios intereses y valores, evitando los sesgos inherentes a los modelos predefinidos.

El Desafío de los Datos

  • El principal obstáculo en el proceso de afinación no es el código, sino la obtención de conjuntos de datos de alta calidad (datasets) que sirvan para entrenar el comportamiento deseado.

El Tutorial Práctico: Herramientas y Metodología

El video utiliza un workflow moderno y optimizado para hacer la afinación accesible y gratuita.

Herramientas Utilizadas

  1. Google Colab: Es un notebook basado en la nube que proporciona GPUs gratuitas (Tesla T4), esenciales para el entrenamiento.
  2. Unsloth: Una biblioteca de código abierto que acelera significativamente el proceso de fine-tuning y reduce el uso de la memoria de la GPU, permitiendo que modelos grandes se ejecuten en hardware gratuito.
  3. Modelo Base: Se elige el modelo GPT-OSS 20B, que es pequeño pero potente, ideal para esta demostración.

Nota:  ver el siguiente enlace

https://colab.research.google.com/drive/1XamvWYinY6FOSX9GLvnqSjjsNflxdhNc?usp=sharing

Proceso de Entrenamiento (Pasos Clave)

  • Optimización LoRA: Para evitar reentrenar miles de millones de parámetros, el proceso añade adaptadores LoRA (Low-Rank Adaptation). Esta técnica solo entrena una pequeña fracción de los pesos del modelo, logrando un entrenamiento rápido y eficiente en la GPU gratuita.
  • Preparación del Dataset: Se carga un dataset específico. En el ejemplo del video de referencia, se utiliza un dataset diseñado para convertir el LLM en un "agente" capaz de planificar, razonar y usar herramientas (comportamiento agentivo), similar a lo que podría usar OpenAI para sus propios agentes.
  • Entrenamiento: Se inicia el entrenamiento real utilizando la GPU, proceso que se completa en aproximadamente 10 a 15 minutos gracias a las optimizaciones de Unsloth.
  • Inferencia: Una vez que el modelo ha sido afinado, se realiza la inferencia (es decir, se chatea con el modelo) para observar cómo ha cambiado su comportamiento y si ahora responde según el dataset de entrenamiento.
  • Guardado: El modelo puede guardarse localmente (para máxima privacidad) o subirse a Hugging Face para su uso en aplicaciones web completas.

 

Nota: "MOA"

El término proviene de los fosos que rodeaban los castillos medievales. Estos fosos servían como una barrera defensiva que protegía el activo valioso (el castillo) de los atacantes. En el contexto empresarial, un moat es una ventaja competitiva duradera que hace que sea extremadamente difícil para otras empresas (competidores) robar cuota de mercado a una compañía establecida, permitiéndole generar altos rendimientos de capital a largo plazo.

 

Referencia: 

viernes, 5 de diciembre de 2025

Laboratorio local de IA

Laboratorio de Inteligencia Artificial

 

Un entorno funcional de inteligencia artificial completamente local, integrando n8n como motor de automatización y Ollama como servidor de modelos de lenguaje, distribuidos deliberadamente en dos equipos de características muy distintas: una máquina remota de generaciones anteriores y una estación local de uso cotidiano. Ollama corre en el equipo remoto, denominado Cubagua, una máquina fabricada en la generación de los Intel i3 de cuarta generación, con un Core i3-4150 a 3.50 GHz, 8 GB de memoria RAM, disco duro mecánico de 466 GB y gráficos integrados Intel HD 4400. Se trata de un computador que, en términos comerciales actuales, podría considerarse obsoleto, pero que en la práctica ha demostrado ser plenamente capaz de ejecutar modelos de lenguaje ligeros de forma estable dentro de un entorno de investigación.

El nodo de control y automatización, por su parte, se ejecuta en el equipo local, Nagasaki, bajo Ubuntu sobre WSL2 en Windows 11, equipado con un AMD Ryzen 5 3400G a 3.70 GHz y 12 GB de RAM. Esta máquina cumple la función de orquestador central, recibiendo eventos externos, coordinando los flujos de n8n y comunicándose directamente con el servidor Ollama a través de una red privada segura. La exposición al exterior se resolvió mediante Tailscale Funnel, permitiendo disponer de una URL pública con HTTPS válido sin abrir puertos ni depender de infraestructuras comerciales, habilitando así la integración directa con Telegram como interfaz de interacción.

El resultado de esta arquitectura es un micro-laboratorio local de inteligencia artificial distribuido, construido íntegramente con hardware preexistente, de distintas generaciones y sin soluciones empresariales dedicadas. Una máquina remota i3 de arquitectura antigua ejecuta modelos de lenguaje, mientras una estación local de uso general gobierna la automatización. Esta combinación demuestra que la IA aplicada no está reservada a centros de datos ni a equipos de alto costo, sino que puede desarrollarse con medios accesibles, promoviendo un enfoque realista de experimentación técnica, formación, soberanía tecnológica e innovación sostenible con recursos propios.

 

 

 

Páginas

Entrada destacada

Clasificación Humana vs Inteligencia Artificial

Análisis Comparativo de Clasificación Humana vs Inteligencia Artificial en Dinámicas Conversacionales Digitales Rommel Contreras ...

Entradas populares

Visitas: