Análisis Comparativo de Clasificación Humana vs Inteligencia Artificial
en Dinámicas Conversacionales Digitales
HAY UNA VERSIÓN MÁS RECIENTE DE ESTE TRABAJO.
VER:
https://tecnologiacumanesa.blogspot.com/2026/03/clasificacion-humana-vs-inteligencia.html
Rommel Contreras / Laboratorio IA, Logos & Contexto
Correo: rommeljose@gmail.com
Cumaná, Marzo 1 de 2026
Resumen
Este estudio presenta un análisis comparativo entre dos metodologías de clasificación aplicadas a un conjunto de datos de 5.313 mensajes provenientes de un grupo de chat durante un periodo de un año. Se evaluaron dos enfoques: (1) evaluación humana basada en inferencia pragmática personal y (2) clasificación automatizada mediante una Inteligencia Artificial (IA) basada en análisis léxico-semántico. Se diseñaron métricas cuantitativas para medir la utilidad comunicacional, el ruido estructural, la toxicidad latente y la calidez social. Los resultados evidencian divergencias críticas, particularmente en la detección de la categoría pasivo-agresiva (26,6% frente a 2,8%). El estudio discute las limitaciones de los modelos de lenguaje (LLMs) para capturar subtextos emocionales y propone un modelo híbrido de integración ponderada para futuros diagnósticos sociales digitales. Finalmente, se plantea la necesidad de desarrollar modelos LLMs adaptados a la realidad sociocultural de cada escenario específico que se pretenda analizar con asistencia de IA.
Palabras clave: Análisis conversacional, clasificación automática,
toxicidad latente, dinámica social digital, modelos híbridos, evaluación
comparativa.
1. Introducción
La medición de las dinámicas comunicacionales en
entornos digitales enfrenta un desafío ontológico: la brecha entre el
significado denotativo (lo que se dice) y el connotativo (lo que se quiere
decir). Mientras que los evaluadores humanos integran el contexto emocional, la
historia interaccional y las inferencias pragmáticas (Walters, 2023), los
modelos de Inteligencia Artificial (IA) priorizan patrones semánticos
explícitos y probabilidades estadísticas (Morales et al., 2023).
El objetivo de esta investigación es someter un mismo conjunto de datos a ambos filtros interpretativos para cuantificar cómo la mediación algorítmica transforma la percepción de la salud comunicacional de un grupo.
2. Metodología
2.1 Procedimiento
2.2 Fundamentación de las Métricas
Utilidad Bruta (UB): Representa la proporción de mensajes con contenido puramente informativo.
Fórmula: UB = Mensajes Informativos / N Ruido Total (R): Suma de categorías que no aportan a la funcionalidad operativa del grupo (ornamental + religioso + spam).
Fórmula: R = M. Ornamental + M. Religioso + M. Spam Índice Ruido/Utilidad (IRU): Relación que determina la eficiencia comunicativa del entorno digital.
Fórmula: IRU = Ruido Total / Utilidad Bruta Coeficiente de Toxicidad Latente (CTL): Medida diseñada para cuantificar la fricción social indirecta (sarcasmo y pasivo-agresividad).
Fórmula: CTL = Mensajes Pasivo-agresivos / N Índice de Calidez Social (ICS): Mide la cohesión del grupo a través de la cortesía y el adorno social.
Fórmula: ICS = M. Cortesía + M. Ornamental
Utilidad Bruta (UB) y Ruido (R): Se basan en la Teoría de la Información de Shannon, que diferencia entre "señal" (información útil) y "ruido" (datos que no cambian el estado de conocimiento del receptor)
. Índice Ruido/Utilidad (IRU): Es una adaptación de la Relación Señal/Ruido (SNR) utilizada en ingeniería y telecomunicaciones, aplicada aquí a la eficiencia de la comunicación humana
. Coeficiente de Toxicidad Latente (CTL): Se fundamenta en los estudios de Pragmática de Walters (2023) sobre la intención implícita
. La fórmula busca cuantificar lo que la lingüística llama "atenuación" o "cortesía negativa" (donde entra la pasivo-agresividad) . Índice de Calidez Social (ICS): Se apoya en la Función Fática de Jakobson, que explica cómo ciertos mensajes no transmiten información, sino que sirven para mantener abierto el canal social y fortalecer el vínculo
.
2.3 Clasificación Automatizada
Para la clasificación automatizada del corpus de
5.313 mensajes, se utilizó el modelo de lenguaje Claude (Anthropic, https://claude.ai). La herramienta fue empleada para el análisis
léxico-semántico de los datos, aplicando los mismos criterios de categorización
que el equipo humano. El uso de esta IA permitió procesar el volumen total del
corpus bajo patrones semánticos explícitos y probabilidades estadísticas para
su posterior comparación con la inferencia pragmática humana.
3. Resultados
La clasificación humana y la automatizada
arrojaron visiones contrapuestas sobre la naturaleza del grupo.
3.1 Distribución de Categorías
La Tabla 1 resume los porcentajes obtenidos por ambos métodos. La diferencia más radical se observa en la categoría Pasivo-agresiva, donde la sensibilidad humana detectó casi diez veces más incidencia que la IA.
Tabla 1.Comparativa de Clasificación de Mensajes (%)
|
Categoría |
Clasificación
Humana |
Clasificación
IA |
|
Informativo |
37,5 |
63,7 |
|
Pasivo-agresivo |
26,6 |
2,8 |
|
Cortesía/Social |
17,6 |
18,0 |
|
Ornamental |
14,1 |
13.9 |
|
Religioso |
2,6 |
1,2 |
|
SPAM |
1,6 |
0,3 |
3.2 Indicadores Derivados
Al aplicar las métricas, el diagnóstico
estructural cambia drásticamente según el observador.
●
Enfoque
Humano: El
● Enfoque IA: El
4. Discusión y Análisis Comparativo
4.1 La Brecha de la Toxicidad Latente y el Sesgo Cultural
La divergencia crítica
de
Este fenómeno subraya una debilidad estructural:
los modelos de lenguaje actuales (LLMs) operan bajo parámetros léxicos globales
que, con frecuencia, ignoran la realidad sociocultural de escenarios
específicos. En las dinámicas conversacionales digitales, elementos como la
ironía y la fricción social dependen estrictamente de códigos locales que la
IA, en su configuración estándar, no logra decodificar con la precisión
necesaria.
4.2 Hacia un Modelo Adaptado
Más allá de la
integración ponderada establecida (0,6×IA+0,4×Humano), los resultados obtenidos sugieren la necesidad imperativa
de desarrollar o ajustar modelos LLMs que reconozcan las particularidades
dialécticas y culturales de cada entorno analizado. Solo mediante la
implementación de una IA situada contextualmente será posible reducir la
brecha entre el significado denotativo de los mensajes y la intención
pragmática real del usuario.
5. Conclusiones
Este estudio demuestra que el diagnóstico
comunicacional en entornos digitales no es un proceso neutral, sino que está
mediado por el marco interpretativo del observador. La discrepancia estadística
encontrada revela que un mismo ecosistema digital puede ser diagnosticado como
"socialmente friccionado" por un analista humano o como
"operativamente eficiente" por una inteligencia artificial estándar.
La conclusión fundamental de esta investigación
es que la integración de ambos enfoques es imperativa para obtener una
analítica que sea estadísticamente robusta pero sociológicamente válida. Sin
embargo, no basta con una combinación aritmética de resultados; el futuro del
análisis de datos sociales requiere de una IA situada contextualmente.
Se concluye que los modelos de lenguaje deben
evolucionar de una arquitectura léxica global hacia una capacidad de
procesamiento que reconozca la realidad sociocultural y dialéctica de
cada escenario. Solo mediante el entrenamiento o ajuste de modelos que
comprendan los códigos locales y las sutilezas de la ironía regional, podrá la
inteligencia artificial actuar como una herramienta de mediación y análisis
verdaderamente efectiva en la gestión de comunidades digitales complejas.
Agradecimientos
El autor expresa su gratitud a los colaboradores, cuya dedicación en la categorización manual del corpus de mensajes fue fundamental para establecer la base comparativa de este estudio. Su capacidad para identificar matices pragmáticos y subtextos emocionales permitió contrastar con precisión las limitaciones léxicas de la inteligencia artificial.
Declaración de uso de Tecnologías de IA Generativa
Referencias
● Chaka, C. (2023). AI
content detectors seem not yet fully ready to accurately and convincingly
detect AI-generated content from machine-generated texts. Journal of Applied Learning and Teaching, 6(1), 94-106.
● Contreras, R. (2026, marzo). Radiografía
Conversacional: Clasificación Humana vs IA.Tecnología Cumanesa. https://tecnologiacumanesa.blogspot.com/2026/03/clasificacion-humana-vs-ia.html
● Contreras, R. (2026, 28 de febrero). Análisis
con datos reales de un grupo de WhatsApp. Tecnología Cumanesa. https://tecnologiacumanesa.blogspot.com/2026/02/analisis-con-datos-reales-de-un-grupo.html
● Morales, L. E., Barrios, E., & Pinto, D.
(2023). Artificial
Intelligence-Based Text Classification: Separating Human and Computer-Generated
Texts.
IberLEF 2023.
●
Newman, A., & Gopalkrishnan, K. (2023). AI
communication styles and decision making: A framework for digital interaction.
● Walters, W. H. (2023).
The accuracy of 16 publicly available AI text detectors in discriminating
between AI-generated and human-generated writing. Scientific Reports, 13(1), 1-12.


CB: "La conclusión fundamental de esta investigación es que la integración de ambos enfoques es imperativa para obtener una analítica que sea estadísticamente robusta pero sociológicamente válida. Sin embargo, no basta con una combinación aritmética de resultados; el futuro del análisis de datos sociales requiere de una IA situada contextualmente."
ResponderBorrarVoy aquí con esta conclusión esencial: ¿ Cómo hacer que lo estadístico y lo sociológico puedan "armonizarse" para validar esto último? Hay, a mi modo de ver, un paralelismo conceptual entre una cosa y otra. Tal vez por eso la divergencia numérica entre lo que señalaron los humanos en la validación de mensajes " irónico-agresivos" y cómo los vio la IA. ¿ pudiera considerarse que la divergencia no es por lo meramente s…
Valoro lo que puede hacerse mediante IA, para bien. Creo que es importante. Me llama la atención que hay valores bien cercanos en algunos items. En su valoración. ¿ Será porque son menos factibles a la duda?
Bueno, estas cosas las digo desde mi ignorancia tecnológica. Me ciño a lo que entendí en la lectura de tu paper. Interesante por demás.
JM: En una rápida primera lectura:
ResponderBorrar1) Me gusta el tema, aún cuando me confieso un resistido por intuición a él " endiosamiento dominante de la IA", la entiendo como una herramienta muy útil y poderosa, pero no como un fín en si misma para " sustituir "...o..." Complementar hasta donde sea posible la inteligencia humana, bajo el potente argumento de que la inteligencia y sus conceptos conexos: conciencia, razón, logos, ideas, pensamientos, juicios y otros, son raigalmente humanos...de hecho...aún no uso IA, voluntariamente, para mis actuaciones creativas, sin duda, soy sujeto de la imposición de su uso en las aplicaciones de uso común en la vida cotidiana.
2) Son interesantes y sorprendentes para mí, los análisis contrapuestos en algunas categorías del análisis, lo cual refleja de manera cuantificada, con el apoyo de las herramientas de análisis utilizadas, que tal contraste entre algo que los humanos poseemos y que es una fuerte herramienta , que pudiera explicar tal resultado: La compleja capacidad de interpretación del ser humano, la cual, hasta donde conozco y tengo información, no ha podido lograr la IA, de hecho el CEO de IA de Google dice, palabras más palabras menos, que el próximo paso de la IA generativa, es lograr llevar la conciencia humana al ordenador...lo cual es un ambicioso y complejo reto en desarrollo.
3) La conclusión principal del estudio en : "...capacidad de procesamiento de la IA que reconozca la realidad sociocultural y dialéctica...para que la IA pueda actuar como una herramienta de mediación y análisis verdaderamente efectiva en la gestión de comunidades complejas"..se constituye en un reto de proporciones similares, en el contexto e intencionalidad del trabajo, al expresado en el punto 3 anterior sobre la IAg para llevar la conciencia al ordenador.
Finalmente no deja de asombrarme los avances y capacidad creativa de la mente humana...adelante pues...!!!
He leído con atención el trabajo “Análisis Comparativo de Clasificación Humana vs Inteligencia Artificial en Dinámicas Conversacionales Digitales”. El estudio aborda un problema altamente relevante en el campo del análisis sociocomunicacional asistido por IA: la brecha entre inferencia pragmática humana y clasificación automatizada basada en modelos de lenguaje.
ResponderBorrarEl manuscrito presenta hallazgos significativos, especialmente en la categoría pasivo-agresiva, y propone una línea de investigación prometedora hacia modelos híbridos y contextualizados. No obstante, considero que existen algunos aspectos conceptuales y metodológicos que podrían fortalecerse para robustecer la validez y el alcance del estudio.
A continuación, te presento observaciones y recomendaciones estructuradas.
1. Sobre la operacionalización de constructos cuantitativos
El artículo introduce métricas como: Utilidad Comunicacional, Ruido Estructural, Índice Ruido/Utilidad (IRU),Coeficiente de Toxicidad Latente (CTL) e Índice de Calidez Social (ICS)
Si bien la formalización matemática aporta claridad estructural, los constructos subyacentes son altamente interpretativos. Conceptos como “calidez social” o “ruido” no constituyen variables observables directas, sino categorías teóricas que requieren validación operacional rigurosa.
Sabemos que existen fronteras y limites, para un análisis humano vs uno de las IAs... Términos como "utilidad comunicacional", "ruido estructural", y sobre todo "calidez social" ... que según el autor son evaluados " cuantitativamente", me confunden.. quizás análisis cualitativos, y fenomenológicos, hubieran sido más significantes, o complementarios, o un buen punto de partida para ampliar esta excelente investigación
Desde el punto de vista cuantitativo, creo que las varianzas en las respuestas de nosotros como humanos, podría ser un elemento importante para evaluar, en este trabajo. Los criterios de caracterización, que a mi juicio son altamente interpretativos, generaran seguramente diferencias de acuerdos, en la clasificaciones que es importante sean medidas. Seguramente habrá diferencias conceptuales entre los evaluadores humanos para definir que es : Pasivo-agresivo, Cortesía/Social, Ornamental ,Religioso e incluso SPAM. Esa varianza de las clasificaciones, es un dato, para mi muy importante. La posible divergencia conceptual entre evaluadores en categorías como “pasivo-agresivo”, “ornamental” o “cortesía/social” no debe considerarse únicamente ruido metodológico, sino un dato empírico relevante que podría enriquecer el análisis.
Sugerencias:
- Explicitar con mayor detalle las definiciones operativas de cada categoría.
- Reportar la varianza entre clasificadores humanos.
Cont., comentario anterior:
ResponderBorrar2. Ampliación del marco ontológico: lo no dicho y los silencios comunicacionales
El estudio plantea acertadamente la brecha entre lo denotativo (lo que se dice) y lo connotativo (lo que se quiere decir). Sin embargo, podría ampliarse el marco analítico incorporando una tercera dimensión: “Lo no dicho”. En dinámicas digitales, los silencios, omisiones, tiempos de respuesta, exclusiones implícitas o reacciones diferidas constituyen fenómenos comunicacionales significativos. Desde una perspectiva fenomenológica, estos elementos forman parte integral de la experiencia intersubjetiva del grupo. La IA textual, en su configuración estándar, no accede a esta capa de significado contextual-relacional.
Sugerencias:
- Incorporar una sección teórica sobre silencios ontológicos y comunicación implícita.
- Considerar metodologías cualitativas complementarias (análisis fenomenológico o hermenéutico).
- Explorar, en investigaciones futuras, datos multimodales o históricos del grupo.
Esto permitiría enriquecer la discusión sobre los límites actuales de los LLM más allá del plano léxico-semántico.
3. Reinterpretación de la categoría “Informativo”
A mi juicio el contraste más llamativo, no es únicamente la diferencia en pasivo-agresividad (26,6% vs 2,8%), sino la divergencia en la categoría “Informativo” (36,5% humanos vs 63,7% IA). Esta diferencia sugiere que la IA clasifica como informativos mensajes que los humanos interpretan como cargados de subtexto o fricción social. No obstante, esto abre una cuestión epistemológica relevante: ¿Informativo desde qué marco?
Puedo estar de acuerdo en que las IAs, priorizan patrones semántico explícitos y probabilidades estadísticas, con más facilidad qué los humanos. Sin embargo, me llama la atención, la gran diferencia en los valores de clasificación de que es informativo 36,5% para humanos vs 63,7 de IAs. Esta diferencia en "informativo" ¡Es brutal¡ Sugiere que la IA está clasificando como "informativos" muchos mensajes que los humanos ven como algo más (quizás pasivo-agresivos, irónicos, etc.).
Esto puede reforzar la idea de que la IA se queda en el significado literal y no capta bien el subtexto,.. pero, también puede indicar otra razón. ¿Es que acaso, lo expuesto en el material analizado, no es información interesante para un investigador? Considero, que este análisis debe ser explotado con mayor argumentos por el investigador.
Un mensaje pasivo-agresivo, irónico o manipulador contiene información social valiosa. Desde una perspectiva sociológica o estratégica, el conflicto también es información.
Yo pienso que todo el material, es informativo y digno de análisis, excepto aquellos mensajes manipulados, para desinformar.. pero incluso esa data, es información clave para evaluar, verificar y sobre todo. Ubicar o precisar, porque se quiere manipular y desinformar... ¿qué es lo que se quiere ocultar?.. ¡Eso es información!
cont 2, comentario anterior:
ResponderBorrarSugerencias:
- Problematizar la categoría “informativo” en términos epistemológicos.
- Diferenciar entre “información literal” e “información relacional”.
- Explorar si la IA está aplicando una definición restringida del término frente a una definición analítica más amplia utilizada implícitamente por los evaluadores humanos.
Esta reflexión podría fortalecer significativamente la discusión teórica del artículo.
4. Sobre la premisa de ”superioridad” del humano, respecto a la IAs. El artículo tiende a asumir implícitamente que la clasificación humana representa el estándar interpretativo correcto y que la divergencia de la IA constituye una limitación.
Sin embargo, también es posible que:
- Exista sobredetección humana de fricción.
- Operen sesgos emocionales o históricos del grupo.
- Se produzcan fenómenos de hiperinterpretación contextual.
Entiendo que los modelos de lenguaje actuales, como los desarrollados por Anthropic o Google, no operan únicamente de forma literal, sino mediante modelado estadístico avanzado que puede capturar patrones pragmáticos complejos si el entrenamiento lo permite.
La diferencia no necesariamente implica error, sino arquitectura cognitiva distinta.
Sugerencias:
- Incluir una discusión crítica sobre posibles sesgos humanos.
- Evitar una dicotomía implícita humano = profundo / IA = superficial.
Saludos hermano y felicitaciones para el autor del Trabajo.