domingo, 1 de marzo de 2026

Análisis Comparativo de Clasificación Humana vs IA

Análisis Comparativo de Clasificación Humana vs Inteligencia Artificial en Dinámicas Conversacionales Digitales

HAY UNA VERSIÓN MÁS RECIENTE DE ESTE TRABAJO.

VER: 

https://tecnologiacumanesa.blogspot.com/2026/03/clasificacion-humana-vs-inteligencia.html 

Rommel Contreras / Laboratorio IA, Logos & Contexto

Correo: rommeljose@gmail.com

Cumaná, Marzo 1 de 2026


Resumen

Este estudio presenta un análisis comparativo entre dos metodologías de clasificación aplicadas a un conjunto de datos de 5.313 mensajes provenientes de un grupo de chat durante un periodo de un año. Se evaluaron dos enfoques: (1) evaluación humana basada en inferencia pragmática personal y (2) clasificación automatizada mediante una Inteligencia Artificial (IA) basada en análisis léxico-semántico. Se diseñaron métricas cuantitativas para medir la utilidad comunicacional, el ruido estructural, la toxicidad latente y la calidez social. Los resultados evidencian divergencias críticas, particularmente en la detección de la categoría pasivo-agresiva (26,6% frente a 2,8%). El estudio discute las limitaciones de los modelos de lenguaje (LLMs) para capturar subtextos emocionales y propone un modelo híbrido de integración ponderada para futuros diagnósticos sociales digitales. Finalmente, se plantea la necesidad de desarrollar modelos LLMs adaptados a la realidad sociocultural de cada escenario específico que se pretenda analizar con asistencia de IA.

Palabras clave: Análisis conversacional, clasificación automática, toxicidad latente, dinámica social digital, modelos híbridos, evaluación comparativa.

1. Introducción

La medición de las dinámicas comunicacionales en entornos digitales enfrenta un desafío ontológico: la brecha entre el significado denotativo (lo que se dice) y el connotativo (lo que se quiere decir). Mientras que los evaluadores humanos integran el contexto emocional, la historia interaccional y las inferencias pragmáticas (Walters, 2023), los modelos de Inteligencia Artificial (IA) priorizan patrones semánticos explícitos y probabilidades estadísticas (Morales et al., 2023).

El objetivo de esta investigación es someter un mismo conjunto de datos a ambos filtros interpretativos para cuantificar cómo la mediación algorítmica transforma la percepción de la salud comunicacional de un grupo.

2. Metodología


Los indicadores y fórmulas presentados en este estudio (UB, R, IRU, CTL, ICS) constituyen una propuesta metodológica original del autor. Esta metodología fue diseñada específicamente para abordar las carencias de los modelos de clasificación estándar en la detección de matices pragmáticos y socioculturales en entornos de mensajería instantánea.

Dichos indicadores se proponen debido a que las métricas tradicionales de la Inteligencia Artificial (IA) no logran capturar los subtextos que los humanos detectamos de inmediato en una interacción cotidiana. Para cuantificar estas diferencias, se formalizaron indicadores basados en la relación señal/ruido y en las funciones del lenguaje. No se presentan como métricas comerciales, sino como una propuesta de modelado para medir la eficiencia comunicativa y la fricción social en comunidades digitales.

2.1 Procedimiento


Se analizó un conjunto de datos compuesto por N = 5.313 mensajes recolectados durante un periodo ininterrumpido de un año (2025). El corpus proviene de un grupo de WhatsApp integrado por ciudadanos venezolanos, específicamente de la región oriental (predominantemente de Cumaná y el estado Sucre), conformado por cultores e intelectuales. Cada mensaje fue clasificado en seis categorías mutuamente excluyentes: Informativo, Cortesía/Social, Ornamental, Pasivo-agresivo, Religioso y SPAM/Cadenas.

2.2 Fundamentación de las Métricas


Las métricas presentadas a continuación no pretenden establecerse como estándares universales de la industria, sino como una herramienta original para formalizar el análisis de la salud comunicacional en redes sociales. El diseño de estos indicadores se fundamenta en la Teoría de la Información (Shannon) para la distinción entre señal y ruido, y en las Funciones del Lenguaje (Jakobson) para valorar la utilidad fática e informativa de los mensajes.

Esta formalización resulta necesaria debido a que los modelos de clasificación automática actuales (LLMs) suelen operar bajo una lógica léxica explícita, ignorando la toxicidad latente que solo una evaluación situada contextualmente puede detectar con precisión.

  • Utilidad Bruta (UB): Representa la proporción de mensajes con contenido puramente informativo. Fórmula: UB = Mensajes Informativos / N 

  • Ruido Total (R): Suma de categorías que no aportan a la funcionalidad operativa del grupo (ornamental + religioso + spam). Fórmula: R = M. Ornamental + M. Religioso + M. Spam 

  • Índice Ruido/Utilidad (IRU): Relación que determina la eficiencia comunicativa del entorno digital. Fórmula: IRU = Ruido Total / Utilidad Bruta

  • Coeficiente de Toxicidad Latente (CTL): Medida diseñada para cuantificar la fricción social indirecta (sarcasmo y pasivo-agresividad). Fórmula: CTL = Mensajes Pasivo-agresivos / N 

  • Índice de Calidez Social (ICS): Mide la cohesión del grupo a través de la cortesía y el adorno social. Fórmula: ICS = M. Cortesía + M. Ornamental    

Aunque los nombres (UB, IRU, CTL, ICS) fueron asignados para este estudio, su lógica se basa en conceptos académicos reales:
  • Utilidad Bruta (UB) y Ruido (R): Se basan en la Teoría de la Información de Shannon, que diferencia entre "señal" (información útil) y "ruido" (datos que no cambian el estado de conocimiento del receptor). 

  • Índice Ruido/Utilidad (IRU): Es una adaptación de la Relación Señal/Ruido (SNR) utilizada en ingeniería y telecomunicaciones, aplicada aquí a la eficiencia de la comunicación humana. 

  • Coeficiente de Toxicidad Latente (CTL): Se fundamenta en los estudios de Pragmática de Walters (2023) sobre la intención implícita. La fórmula busca cuantificar lo que la lingüística llama "atenuación" o "cortesía negativa" (donde entra la pasivo-agresividad). 

  • Índice de Calidez Social (ICS): Se apoya en la Función Fática de Jakobson, que explica cómo ciertos mensajes no transmiten información, sino que sirven para mantener abierto el canal social y fortalecer el vínculo. 

2.3 Clasificación Automatizada

Para la clasificación automatizada del corpus de 5.313 mensajes, se utilizó el modelo de lenguaje Claude (Anthropic, https://claude.ai). La herramienta fue empleada para el análisis léxico-semántico de los datos, aplicando los mismos criterios de categorización que el equipo humano. El uso de esta IA permitió procesar el volumen total del corpus bajo patrones semánticos explícitos y probabilidades estadísticas para su posterior comparación con la inferencia pragmática humana.

3. Resultados

La clasificación humana y la automatizada arrojaron visiones contrapuestas sobre la naturaleza del grupo.

3.1 Distribución de Categorías

La Tabla 1 resume los porcentajes obtenidos por ambos métodos. La diferencia más radical se observa en la categoría Pasivo-agresiva, donde la sensibilidad humana detectó casi diez veces más incidencia que la IA.

Tabla 1.Comparativa de Clasificación de Mensajes (%)

Categoría

Clasificación Humana

Clasificación IA

Informativo

37,5

63,7

Pasivo-agresivo

26,6

2,8

Cortesía/Social

17,6

18,0

Ornamental

14,1

13.9

Religioso

2,6

1,2

SPAM

1,6

0,3

 

3.2 Indicadores Derivados

Al aplicar las métricas, el diagnóstico estructural cambia drásticamente según el observador.

     Enfoque Humano: El sugiere un grupo donde el ruido supera a la utilidad, con una toxicidad latente significativa .

     Enfoque IA: El  describe un ecosistema altamente eficiente (4 veces más utilidad que ruido) y virtualmente libre de toxicidad ( ).

4. Discusión y Análisis Comparativo 

4.1 La Brecha de la Toxicidad Latente y el Sesgo Cultural

La divergencia crítica de  revela que la Inteligencia Artificial (IA) tiende a "neutralizar" los mensajes procesados. Al carecer de una teoría de la mente completa aplicada al contexto histórico del grupo, la IA clasifica erróneamente como "Informativos" aquellos mensajes que un evaluador humano interpreta como sarcásticos o pasivo-agresivos. Esta limitación técnica coincide con las observaciones de Chaka (2023) sobre la incapacidad de los detectores de contenido actuales para captar matices humanos de alta complejidad.

Este fenómeno subraya una debilidad estructural: los modelos de lenguaje actuales (LLMs) operan bajo parámetros léxicos globales que, con frecuencia, ignoran la realidad sociocultural de escenarios específicos. En las dinámicas conversacionales digitales, elementos como la ironía y la fricción social dependen estrictamente de códigos locales que la IA, en su configuración estándar, no logra decodificar con la precisión necesaria.

4.2 Hacia un Modelo Adaptado

Más allá de la integración ponderada establecida (0,6×IA+0,4×Humano), los resultados obtenidos sugieren la necesidad imperativa de desarrollar o ajustar modelos LLMs que reconozcan las particularidades dialécticas y culturales de cada entorno analizado. Solo mediante la implementación de una IA situada contextualmente será posible reducir la brecha entre el significado denotativo de los mensajes y la intención pragmática real del usuario.

5. Conclusiones

Este estudio demuestra que el diagnóstico comunicacional en entornos digitales no es un proceso neutral, sino que está mediado por el marco interpretativo del observador. La discrepancia estadística encontrada revela que un mismo ecosistema digital puede ser diagnosticado como "socialmente friccionado" por un analista humano o como "operativamente eficiente" por una inteligencia artificial estándar.

La conclusión fundamental de esta investigación es que la integración de ambos enfoques es imperativa para obtener una analítica que sea estadísticamente robusta pero sociológicamente válida. Sin embargo, no basta con una combinación aritmética de resultados; el futuro del análisis de datos sociales requiere de una IA situada contextualmente.

Se concluye que los modelos de lenguaje deben evolucionar de una arquitectura léxica global hacia una capacidad de procesamiento que reconozca la realidad sociocultural y dialéctica de cada escenario. Solo mediante el entrenamiento o ajuste de modelos que comprendan los códigos locales y las sutilezas de la ironía regional, podrá la inteligencia artificial actuar como una herramienta de mediación y análisis verdaderamente efectiva en la gestión de comunidades digitales complejas.

Agradecimientos

El autor expresa su gratitud a los colaboradores, cuya dedicación en la categorización manual del corpus de mensajes fue fundamental para establecer la base comparativa de este estudio. Su capacidad para identificar matices pragmáticos y subtextos emocionales permitió contrastar con precisión las limitaciones léxicas de la inteligencia artificial.  

Declaración de uso de Tecnologías de IA Generativa

En la preparación de este estudio, el autor utilizó la herramienta Claude (Anthropic) con el fin de realizar la clasificación masiva del corpus de datos y asistir en el refinamiento del estilo del manuscrito. De la misma manera, se deja constancia de que para el diseño y elaboración de las herramientas de clasificado se usó Gemini (Google). Tras el uso de esas herramientas, el autor revisó y editó el contenido para asegurar la precisión científica y se hace responsable del contenido final de la investigación.  

Referencias

     Chaka, C. (2023). AI content detectors seem not yet fully ready to accurately and convincingly detect AI-generated content from machine-generated texts. Journal of Applied Learning and Teaching, 6(1), 94-106.

     Contreras, R. (2026, marzo). Radiografía Conversacional: Clasificación Humana vs IA.Tecnología Cumanesa. https://tecnologiacumanesa.blogspot.com/2026/03/clasificacion-humana-vs-ia.html

     Contreras, R. (2026, 28 de febrero). Análisis con datos reales de un grupo de WhatsApp. Tecnología Cumanesa. https://tecnologiacumanesa.blogspot.com/2026/02/analisis-con-datos-reales-de-un-grupo.html

     Morales, L. E., Barrios, E., & Pinto, D. (2023). Artificial Intelligence-Based Text Classification: Separating Human and Computer-Generated Texts. IberLEF 2023.

     Newman, A., & Gopalkrishnan, K. (2023). AI communication styles and decision making: A framework for digital interaction.

     Walters, W. H. (2023). The accuracy of 16 publicly available AI text detectors in discriminating between AI-generated and human-generated writing. Scientific Reports, 13(1), 1-12.


DESCARGAR EN PDF

5 comentarios:

  1. CB: "La conclusión fundamental de esta investigación es que la integración de ambos enfoques es imperativa para obtener una analítica que sea estadísticamente robusta pero sociológicamente válida. Sin embargo, no basta con una combinación aritmética de resultados; el futuro del análisis de datos sociales requiere de una IA situada contextualmente."
    Voy aquí con esta conclusión esencial: ¿ Cómo hacer que lo estadístico y lo sociológico puedan "armonizarse" para validar esto último? Hay, a mi modo de ver, un paralelismo conceptual entre una cosa y otra. Tal vez por eso la divergencia numérica entre lo que señalaron los humanos en la validación de mensajes " irónico-agresivos" y cómo los vio la IA. ¿ pudiera considerarse que la divergencia no es por lo meramente s…

    Valoro lo que puede hacerse mediante IA, para bien. Creo que es importante. Me llama la atención que hay valores bien cercanos en algunos items. En su valoración. ¿ Será porque son menos factibles a la duda?

    Bueno, estas cosas las digo desde mi ignorancia tecnológica. Me ciño a lo que entendí en la lectura de tu paper. Interesante por demás.

    ResponderBorrar
  2. JM: En una rápida primera lectura:
    1) Me gusta el tema, aún cuando me confieso un resistido por intuición a él " endiosamiento dominante de la IA", la entiendo como una herramienta muy útil y poderosa, pero no como un fín en si misma para " sustituir "...o..." Complementar hasta donde sea posible la inteligencia humana, bajo el potente argumento de que la inteligencia y sus conceptos conexos: conciencia, razón, logos, ideas, pensamientos, juicios y otros, son raigalmente humanos...de hecho...aún no uso IA, voluntariamente, para mis actuaciones creativas, sin duda, soy sujeto de la imposición de su uso en las aplicaciones de uso común en la vida cotidiana.
    2) Son interesantes y sorprendentes para mí, los análisis contrapuestos en algunas categorías del análisis, lo cual refleja de manera cuantificada, con el apoyo de las herramientas de análisis utilizadas, que tal contraste entre algo que los humanos poseemos y que es una fuerte herramienta , que pudiera explicar tal resultado: La compleja capacidad de interpretación del ser humano, la cual, hasta donde conozco y tengo información, no ha podido lograr la IA, de hecho el CEO de IA de Google dice, palabras más palabras menos, que el próximo paso de la IA generativa, es lograr llevar la conciencia humana al ordenador...lo cual es un ambicioso y complejo reto en desarrollo.
    3) La conclusión principal del estudio en : "...capacidad de procesamiento de la IA que reconozca la realidad sociocultural y dialéctica...para que la IA pueda actuar como una herramienta de mediación y análisis verdaderamente efectiva en la gestión de comunidades complejas"..se constituye en un reto de proporciones similares, en el contexto e intencionalidad del trabajo, al expresado en el punto 3 anterior sobre la IAg para llevar la conciencia al ordenador.
    Finalmente no deja de asombrarme los avances y capacidad creativa de la mente humana...adelante pues...!!!

    ResponderBorrar
  3. He leído con atención el trabajo “Análisis Comparativo de Clasificación Humana vs Inteligencia Artificial en Dinámicas Conversacionales Digitales”. El estudio aborda un problema altamente relevante en el campo del análisis sociocomunicacional asistido por IA: la brecha entre inferencia pragmática humana y clasificación automatizada basada en modelos de lenguaje.
    El manuscrito presenta hallazgos significativos, especialmente en la categoría pasivo-agresiva, y propone una línea de investigación prometedora hacia modelos híbridos y contextualizados. No obstante, considero que existen algunos aspectos conceptuales y metodológicos que podrían fortalecerse para robustecer la validez y el alcance del estudio.
    A continuación, te presento observaciones y recomendaciones estructuradas.
    1. Sobre la operacionalización de constructos cuantitativos
    El artículo introduce métricas como: Utilidad Comunicacional, Ruido Estructural, Índice Ruido/Utilidad (IRU),Coeficiente de Toxicidad Latente (CTL) e Índice de Calidez Social (ICS)
    Si bien la formalización matemática aporta claridad estructural, los constructos subyacentes son altamente interpretativos. Conceptos como “calidez social” o “ruido” no constituyen variables observables directas, sino categorías teóricas que requieren validación operacional rigurosa.
    Sabemos que existen fronteras y limites, para un análisis humano vs uno de las IAs... Términos como "utilidad comunicacional", "ruido estructural", y sobre todo "calidez social" ... que según el autor son evaluados " cuantitativamente", me confunden.. quizás análisis cualitativos, y fenomenológicos, hubieran sido más significantes, o complementarios, o un buen punto de partida para ampliar esta excelente investigación
    Desde el punto de vista cuantitativo, creo que las varianzas en las respuestas de nosotros como humanos, podría ser un elemento importante para evaluar, en este trabajo. Los criterios de caracterización, que a mi juicio son altamente interpretativos, generaran seguramente diferencias de acuerdos, en la clasificaciones que es importante sean medidas. Seguramente habrá diferencias conceptuales entre los evaluadores humanos para definir que es : Pasivo-agresivo, Cortesía/Social, Ornamental ,Religioso e incluso SPAM. Esa varianza de las clasificaciones, es un dato, para mi muy importante. La posible divergencia conceptual entre evaluadores en categorías como “pasivo-agresivo”, “ornamental” o “cortesía/social” no debe considerarse únicamente ruido metodológico, sino un dato empírico relevante que podría enriquecer el análisis.
    Sugerencias:
    - Explicitar con mayor detalle las definiciones operativas de cada categoría.
    - Reportar la varianza entre clasificadores humanos.

    ResponderBorrar
  4. Cont., comentario anterior:
    2. Ampliación del marco ontológico: lo no dicho y los silencios comunicacionales
    El estudio plantea acertadamente la brecha entre lo denotativo (lo que se dice) y lo connotativo (lo que se quiere decir). Sin embargo, podría ampliarse el marco analítico incorporando una tercera dimensión: “Lo no dicho”. En dinámicas digitales, los silencios, omisiones, tiempos de respuesta, exclusiones implícitas o reacciones diferidas constituyen fenómenos comunicacionales significativos. Desde una perspectiva fenomenológica, estos elementos forman parte integral de la experiencia intersubjetiva del grupo. La IA textual, en su configuración estándar, no accede a esta capa de significado contextual-relacional.
    Sugerencias:
    - Incorporar una sección teórica sobre silencios ontológicos y comunicación implícita.
    - Considerar metodologías cualitativas complementarias (análisis fenomenológico o hermenéutico).
    - Explorar, en investigaciones futuras, datos multimodales o históricos del grupo.
    Esto permitiría enriquecer la discusión sobre los límites actuales de los LLM más allá del plano léxico-semántico.
    3. Reinterpretación de la categoría “Informativo”
    A mi juicio el contraste más llamativo, no es únicamente la diferencia en pasivo-agresividad (26,6% vs 2,8%), sino la divergencia en la categoría “Informativo” (36,5% humanos vs 63,7% IA). Esta diferencia sugiere que la IA clasifica como informativos mensajes que los humanos interpretan como cargados de subtexto o fricción social. No obstante, esto abre una cuestión epistemológica relevante: ¿Informativo desde qué marco?
    Puedo estar de acuerdo en que las IAs, priorizan patrones semántico explícitos y probabilidades estadísticas, con más facilidad qué los humanos. Sin embargo, me llama la atención, la gran diferencia en los valores de clasificación de que es informativo 36,5% para humanos vs 63,7 de IAs. Esta diferencia en "informativo" ¡Es brutal¡ Sugiere que la IA está clasificando como "informativos" muchos mensajes que los humanos ven como algo más (quizás pasivo-agresivos, irónicos, etc.).
    Esto puede reforzar la idea de que la IA se queda en el significado literal y no capta bien el subtexto,.. pero, también puede indicar otra razón. ¿Es que acaso, lo expuesto en el material analizado, no es información interesante para un investigador? Considero, que este análisis debe ser explotado con mayor argumentos por el investigador.
    Un mensaje pasivo-agresivo, irónico o manipulador contiene información social valiosa. Desde una perspectiva sociológica o estratégica, el conflicto también es información.
    Yo pienso que todo el material, es informativo y digno de análisis, excepto aquellos mensajes manipulados, para desinformar.. pero incluso esa data, es información clave para evaluar, verificar y sobre todo. Ubicar o precisar, porque se quiere manipular y desinformar... ¿qué es lo que se quiere ocultar?.. ¡Eso es información!

    ResponderBorrar
  5. cont 2, comentario anterior:

    Sugerencias:
    - Problematizar la categoría “informativo” en términos epistemológicos.
    - Diferenciar entre “información literal” e “información relacional”.
    - Explorar si la IA está aplicando una definición restringida del término frente a una definición analítica más amplia utilizada implícitamente por los evaluadores humanos.
    Esta reflexión podría fortalecer significativamente la discusión teórica del artículo.
    4. Sobre la premisa de ”superioridad” del humano, respecto a la IAs. El artículo tiende a asumir implícitamente que la clasificación humana representa el estándar interpretativo correcto y que la divergencia de la IA constituye una limitación.
    Sin embargo, también es posible que:
    - Exista sobredetección humana de fricción.
    - Operen sesgos emocionales o históricos del grupo.
    - Se produzcan fenómenos de hiperinterpretación contextual.
    Entiendo que los modelos de lenguaje actuales, como los desarrollados por Anthropic o Google, no operan únicamente de forma literal, sino mediante modelado estadístico avanzado que puede capturar patrones pragmáticos complejos si el entrenamiento lo permite.
    La diferencia no necesariamente implica error, sino arquitectura cognitiva distinta.
    Sugerencias:
    - Incluir una discusión crítica sobre posibles sesgos humanos.
    - Evitar una dicotomía implícita humano = profundo / IA = superficial.
    Saludos hermano y felicitaciones para el autor del Trabajo.

    ResponderBorrar

Páginas

Entrada destacada

Túnel Guamacán: Entre tecnología LiDAR y Realidade

El Túnel Guamacán: Entre tecnología LiDAR y Realidades 🔍 Túnel Guamacán: Entre la tecnología LiDAR y la real...

Entradas populares

Visitas: