Análisis Comparativo de Clasificación Humana vs Inteligencia Artificial en Dinámicas Conversacionales Digitales
Rommel Contreras / Laboratorio IA, Logos & Contexto
Correo: rommeljose@gmail.com
Cumaná, Marzo 1 de 2026
Resumen
Este estudio presenta un análisis comparativo entre dos metodologías de clasificación aplicadas a un conjunto de datos de 5.313 mensajes provenientes de un grupo de chat durante un periodo de un año. Se evaluaron dos enfoques: (1) evaluación humana basada en inferencia pragmática personal y (2) clasificación automatizada mediante una Inteligencia Artificial (IA) basada en análisis léxico-semántico. Se diseñaron métricas cuantitativas para medir la utilidad comunicacional, el ruido estructural, la toxicidad latente y la calidez social. Los resultados evidencian divergencias críticas, particularmente en la detección de la categoría pasivo-agresiva (26,6% frente a 2,8%). El estudio discute las limitaciones de los modelos de lenguaje (LLMs) para capturar subtextos emocionales y propone un modelo híbrido de integración ponderada para futuros diagnósticos sociales digitales. Finalmente, se plantea la necesidad de desarrollar modelos LLMs adaptados a la realidad sociocultural de cada escenario específico que se pretenda analizar con asistencia de IA.
Palabras clave: Análisis conversacional, clasificación automática, toxicidad latente, dinámica social digital, modelos híbridos, evaluación comparativa.
1. Introducción
La medición de las dinámicas comunicacionales en entornos digitales enfrenta un desafío ontológico: la brecha entre el significado denotativo (lo que se dice) y el connotativo (lo que se quiere decir). Mientras que los evaluadores humanos integran el contexto emocional, la historia interaccional y las inferencias pragmáticas (Walters, 2023), los modelos de Inteligencia Artificial (IA) priorizan patrones semánticos explícitos y probabilidades estadísticas (Morales et al., 2023).
El objetivo de esta investigación es someter un mismo conjunto de datos a ambos filtros interpretativos para cuantificar cómo la mediación algorítmica transforma la percepción de la salud comunicacional de un grupo.
2. Metodología
Los indicadores y fórmulas presentados en este estudio (UB, R, IRU, CTL, ICS) constituyen una propuesta metodológica original del autor. Esta metodología fue diseñada específicamente para abordar las carencias de los modelos de clasificación estándar en la detección de matices pragmáticos y socioculturales en entornos de mensajería instantánea.
Dichos indicadores se proponen debido a que las métricas tradicionales de la Inteligencia Artificial (IA) no logran capturar los subtextos que los humanos detectamos de inmediato en una interacción cotidiana. Para cuantificar estas diferencias, se formalizaron indicadores basados en la relación señal/ruido y en las funciones del lenguaje. No se presentan como métricas comerciales, sino como una propuesta de modelado para medir la eficiencia comunicativa y la fricción social en comunidades digitales.
2.1 Procedimiento y Corpus
Se analizó un corpus de N = 5.313 mensajes recolectados durante un período ininterrumpido de un año (2025), provenientes de un grupo de WhatsApp integrado por ciudadanos venezolanos de la región oriental —predominantemente de Cumaná y el estado Sucre—, conformado por cultores e intelectuales. Cada mensaje fue despojado de metadatos de identidad (nombre, fecha, hora) para preservar el anonimato de los participantes y garantizar que la clasificación respondiera exclusivamente al contenido lingüístico del mensaje.
Este procedimiento de decapitación del mensaje asegura que el patrón conceptual clasificado no sea atribuible a un individuo en particular, diluyendo la parcialidad que podría introducir el reconocimiento del emisor. Cada mensaje fue clasificado en seis categorías mutuamente excluyentes: Informativo, Cortesía/Social, Ornamental, Pasivo-agresivo, Religioso y SPAM/Cadenas.
2.1.1 Protocolo de Clasificación Humana: Anotación Distribuida No Supervisada
La clasificación humana del corpus se realizó mediante un proceso de anotación distribuida no supervisada. Se convocaron N = 55 colaboradores a través de una plataforma de acceso público, quienes clasificaron los mensajes de forma independiente, sin recibir inducción previa, sin acceso a definiciones operativas de las categorías y sin conocimiento entre sí. La mayoría de los colaboradores preservaron su anonimato bajo alias, garantizando la independencia de los juicios respecto al grupo analizado.
Esta decisión metodológica fue deliberada y responde a un objetivo de diseño específico: capturar la varianza interpretativa natural del contexto sociocultural del corpus, en lugar de imponer un marco categorial externo que pudiera sesgar el resultado hacia la definición de un único anotador experto. Este enfoque es metodológicamente comparable al crowdsourcing de anotación, práctica ampliamente documentada en la literatura sobre procesamiento de lenguaje natural (Gilardi, Alizadeh y Kubli, 2023).
En estudios de anotación masiva de texto, el acuerdo entre anotadores no entrenados se sitúa típicamente entre el 50% y el 65% (Gilardi et al., 2023), lo que implica que la varianza observada no es un artefacto metodológico, sino una característica inherente a la naturaleza ambigua de las categorías pragmáticas analizadas. Esa varianza es, en sí misma, un dato empírico relevante que refuerza la necesidad del modelo híbrido propuesto.
Tabla A. Comparativa de protocolos de anotación
| Característica | Este estudio | Estándar académico tradicional |
|---|---|---|
| N.° de anotadores | 55 colaboradores | 3–7 expertos |
| Entrenamiento previo | Sin inducción (deliberado) | Sí, con guía de codificación |
| Anonimato | Alias (mayoría) | Identificados |
| Interacción entre anotadores | Nula (independientes) | Variable |
| Objetivo | Capturar varianza sociocultural natural | Maximizar consistencia formal |
| Método equivalente | Crowdsourcing de anotación | Inter-rater agreement clásico |
2.1.2 Definición Operativa de Categorías
Para garantizar la replicabilidad del estudio, se explicitan a continuación las definiciones operativas de cada categoría, reconstruidas a partir del criterio observado en la clasificación humana:
| Categoría | Definición operativa | Ejemp: Definición operativa |
|---|---|---|
| Informativo | Mensajes cuya función primaria es la transmisión de contenido factual, referencial o propositivo orientado al grupo. | Noticias, datos, anuncios, convocatorias. |
| Cortesía/Social | Mensajes cuya función es mantener el vínculo social (función fática de Jakobson), sin contenido informativo primario. | Saludos, agradecimientos, despedidas. |
| Ornamental | Expresiones afectivas, reacciones emocionales o contenido sin valor informativo ni fático claro. Incluye emojis aislados. | "Qué bueno", "Exacto", emojis sueltos. |
| Pasivo-agresivo | Mensajes que expresan fricción social, crítica indirecta, ironía o sarcasmo de forma velada. | Comentarios ambiguos, ironías contextuales. |
| Religioso | Mensajes cuyo contenido central es de naturaleza religiosa o espiritual, independientemente de su función social. | Oraciones, citas bíblicas, bendiciones explícitas. |
| SPAM/Cadenas | Mensajes reenviados de origen externo, publicidad no solicitada o cadenas de difusión masiva. | Cadenas de WhatsApp, noticias virales, publicidad. |
2.1.3 Nota Epistemológica sobre la Categoría «Informativo»
El contraste más pronunciado entre ambos métodos —36,5% (humano) frente a 63,7% (IA)— se observa en la categoría Informativo. Esta divergencia no debe interpretarse únicamente como una limitación de la IA, sino que abre una cuestión epistemológica relevante: ¿informativo desde qué marco interpretativo?
En este estudio, «Informativo» fue operacionalizado como mensajes con contenido denotativo explícito y función referencial primaria (Jakobson, 1960). Esta decisión implica una distinción entre información proposicional e información relacional: los mensajes pasivo-agresivos o religiosos son sociológicamente informativos —revelan tensiones, valores y dinámicas del grupo—, pero su función pragmática primaria no es la transmisión de contenido factual. La IA, al operar bajo patrones léxicos explícitos, tiende a clasificar como «informativos» mensajes que un evaluador contextualizado interpreta como portadores de subtexto emocional.
La distinción entre información literal e información relacional se propone como una limitación explícita del modelo de clasificación presentado y como línea de investigación futura.
2.1.4 Limitaciones y Posibles Sesgos de la Clasificación Humana
Es metodológicamente necesario reconocer que la clasificación humana, si bien sociológicamente rica, no está exenta de sesgos sistemáticos. Los 55 colaboradores comparten, en su mayoría, un marco cultural y generacional con los emisores del corpus, lo que puede generar dos fenómenos contrapuestos:
- Hiperinterpretación contextual: sobredetección de fricción social o pasivo-agresividad en mensajes que un observador externo clasificaría como neutros, por el conocimiento implícito de los códigos comunicacionales del grupo.
- Normalización cultural: subdetección de patrones que serían llamativos para un analista externo, por su naturaleza cotidiana dentro del contexto sociocultural específico.
Estas limitaciones son inherentes a cualquier estudio de análisis conversacional situado culturalmente y, lejos de invalidar los resultados, refuerzan la necesidad del modelo híbrido propuesto.
2.2 Fundamentación de las Métricas
Las métricas presentadas a continuación no pretenden establecerse como estándares universales de la industria, sino como una herramienta original para formalizar el análisis de la salud comunicacional en redes sociales. El diseño de estos indicadores se fundamenta en la Teoría de la Información (Shannon) para la distinción entre señal y ruido, y en las Funciones del Lenguaje (Jakobson) para valorar la utilidad fática e informativa de los mensajes.
Esta formalización resulta necesaria debido a que los modelos de clasificación automática actuales (LLMs) suelen operar bajo una lógica léxica explícita, ignorando la toxicidad latente que solo una evaluación situada contextualmente puede detectar con precisión.
Utilidad Bruta (UB): Representa la proporción de mensajes con contenido puramente informativo.
Ruido Total (R): Suma de categorías que no aportan a la funcionalidad operativa del grupo (ornamental + religioso + spam).
Índice Ruido/Utilidad (IRU): Relación que determina la eficiencia comunicativa del entorno digital.
Coeficiente de Toxicidad Latente (CTL): Medida diseñada para cuantificar la fricción social indirecta (sarcasmo y pasivo-agresividad).
Índice de Calidez Social (ICS): Mide la cohesión del grupo a través de la cortesía y el adorno social.
Aunque los nombres (UB, IRU, CTL, ICS) fueron asignados para este estudio, su lógica se basa en conceptos académicos reales:
- Utilidad Bruta (UB) y Ruido (R): Se basan en la Teoría de la Información de Shannon, que diferencia entre "señal" (información útil) y "ruido" (datos que no cambian el estado de conocimiento del receptor).
- Índice Ruido/Utilidad (IRU): Es una adaptación de la Relación Señal/Ruido (SNR) utilizada en ingeniería y telecomunicaciones, aplicada aquí a la eficiencia de la comunicación humana.
- Coeficiente de Toxicidad Latente (CTL): Se fundamenta en los estudios de Pragmática de Walters (2023) sobre la intención implícita. La fórmula busca cuantificar lo que la lingüística llama "atenuación" o "cortesía negativa" (donde entra la pasivo-agresividad).
- Índice de Calidez Social (ICS): Se apoya en la Función Fática de Jakobson, que explica cómo ciertos mensajes no transmiten información, sino que sirven para mantener abierto el canal social y fortalecer el vínculo.
2.3 Antecedentes y Posicionamiento Respecto a Estudios Previos
El presente estudio se inscribe en una línea de investigación creciente sobre el análisis computacional de conversaciones en plataformas de mensajería instantánea. La siguiente tabla resume los trabajos más directamente relacionados y el posicionamiento diferencial de esta investigación:
| Estudio | Objeto | Método | Diferencia con este trabajo |
|---|---|---|---|
| Roy & Das (2023). Social Network Analysis and Mining, 13. | Chats grupales de WhatsApp estudiantiles. | Análisis de sentimientos en espacio VAD (Valencia, Activación, Dominancia). | Este estudio añade categorías pragmáticas (pasivo-agresividad, ornamental) ausentes en modelos VAD estándar. |
| Pituk et al. (2024). IEEE ICETSIS. | Chats de WhatsApp personales y profesionales. | NLP para clasificación temática y patrones conductuales. | Este estudio introduce la comparación humano vs IA como variable central, no solo la clasificación automática. |
| Gilardi, Alizadeh & Kubli (2023). PNAS, 120(35). | Tareas diversas de anotación de texto. | Comparación crowd workers vs LLM (ChatGPT). | Este estudio usa la divergencia humano-IA como hallazgo sustantivo sobre sensibilidad pragmática cultural. |
La contribución diferencial de este estudio reside en: (1) la incorporación de categorías pragmáticas que trascienden el análisis de sentimientos estándar, especialmente la pasivo-agresividad como categoría de toxicidad latente; (2) la aplicación al contexto sociocultural venezolano, escasamente representado en la literatura existente; y (3) el uso de la divergencia cuantitativa entre clasificación humana e IA no como error a minimizar, sino como dato empírico sustantivo.
2.4 Clasificación Automatizada
Para la clasificación automatizada del corpus de 5.313 mensajes, se utilizó el modelo de lenguaje Claude (Anthropic, https://claude.ai). La herramienta fue empleada para el análisis léxico-semántico de los datos, aplicando los mismos criterios de categorización que el equipo humano. El uso de esta IA permitió procesar el volumen total del corpus bajo patrones semánticos explícitos y probabilidades estadísticas para su posterior comparación con la inferencia pragmática humana.
3. Resultados
La clasificación humana y la automatizada arrojaron visiones contrapuestas sobre la naturaleza del grupo.
3.1 Distribución de Categorías
La Tabla 1 resume los porcentajes obtenidos por ambos métodos. La diferencia más radical se observa en la categoría Pasivo-agresiva, donde la sensibilidad humana detectó casi diez veces más incidencia que la IA.
| Categoría | Clasificación Humana | Clasificación IA |
|---|---|---|
| Informativo | 37,5 | 63,7 |
| Pasivo-agresivo | 26,6 | 2,8 |
| Cortesía/Social | 17,6 | 18,0 |
| Ornamental | 14,1 | 13,9 |
| Religioso | 2,6 | 1,2 |
| SPAM | 1,6 | 0,3 |
3.2 Indicadores Derivados
Al aplicar las métricas, el diagnóstico estructural cambia drásticamente según el observador.
| Indicador | Enfoque Humano | Enfoque IA |
|---|---|---|
| Utilidad Bruta (UB) | 0,375 | 0,637 |
| Ruido Total (R) | 0,183 | 0,154 |
| Índice Ruido/Utilidad (IRU) | 0,488 (ruido > utilidad) | 0,242 (4× más utilidad que ruido) |
| Coef. Toxicidad Latente (CTL) | 0,266 (significativa) | 0,028 (virtualmente nula) |
| Índice Calidez Social (ICS) | 0,317 | 0,319 |
- Enfoque Humano: sugiere un grupo donde el ruido supera a la utilidad, con una toxicidad latente significativa (CTL = 0,266).
- Enfoque IA: describe un ecosistema altamente eficiente (4 veces más utilidad que ruido) y virtualmente libre de toxicidad (CTL = 0,028).
4. Discusión y Análisis Comparativo
4.1 La Brecha de la Toxicidad Latente y el Sesgo Cultural
La divergencia crítica en el CTL (0,266 vs 0,028) revela que la Inteligencia Artificial tiende a "neutralizar" los mensajes procesados. Al carecer de una teoría de la mente completa aplicada al contexto histórico del grupo, la IA clasifica erróneamente como "Informativos" aquellos mensajes que un evaluador humano interpreta como sarcásticos o pasivo-agresivos. Esta limitación técnica coincide con las observaciones de Chaka (2023) sobre la incapacidad de los detectores de contenido actuales para captar matices humanos de alta complejidad.
Este fenómeno subraya una debilidad estructural: los modelos de lenguaje actuales (LLMs) operan bajo parámetros léxicos globales que, con frecuencia, ignoran la realidad sociocultural de escenarios específicos. En las dinámicas conversacionales digitales, elementos como la ironía y la fricción social dependen estrictamente de códigos locales que la IA, en su configuración estándar, no logra decodificar con la precisión necesaria.
4.2 Hacia un Modelo Adaptado
Más allá de la integración ponderada establecida (0,6×IA + 0,4×Humano), los resultados obtenidos sugieren la necesidad imperativa de desarrollar o ajustar modelos LLMs que reconozcan las particularidades dialécticas y culturales de cada entorno analizado. Solo mediante la implementación de una IA situada contextualmente será posible reducir la brecha entre el significado denotativo de los mensajes y la intención pragmática real del usuario.
5. Conclusiones
Este estudio demuestra que el diagnóstico comunicacional en entornos digitales no es un proceso neutral, sino que está mediado por el marco interpretativo del observador. La discrepancia estadística encontrada revela que un mismo ecosistema digital puede ser diagnosticado como "socialmente friccionado" por un analista humano o como "operativamente eficiente" por una inteligencia artificial estándar.
La conclusión fundamental de esta investigación es que la integración de ambos enfoques es imperativa para obtener una analítica que sea estadísticamente robusta pero sociológicamente válida. Sin embargo, no basta con una combinación aritmética de resultados; el futuro del análisis de datos sociales requiere de una IA situada contextualmente.
Se concluye que los modelos de lenguaje deben evolucionar de una arquitectura léxica global hacia una capacidad de procesamiento que reconozca la realidad sociocultural y dialéctica de cada escenario. Solo mediante el entrenamiento o ajuste de modelos que comprendan los códigos locales y las sutilezas de la ironía regional, podrá la inteligencia artificial actuar como una herramienta de mediación y análisis verdaderamente efectiva en la gestión de comunidades digitales complejas.
Agradecimientos
El autor expresa su gratitud a los colaboradores, cuya dedicación en la categorización manual del corpus de mensajes fue fundamental para establecer la base comparativa de este estudio. Su capacidad para identificar matices pragmáticos y subtextos emocionales permitió contrastar con precisión las limitaciones léxicas de la inteligencia artificial.
Referencias Bibliográficas
Chaka, C. (2023). AI content detectors seem not yet fully ready to accurately and convincingly detect AI-generated content from machine-generated texts. Journal of Applied Learning and Teaching, 6(1), 94–106.
Contreras, R. (2026, marzo). Radiografía Conversacional: Clasificación Humana vs IA. Tecnología Cumanesa. https://tecnologiacumanesa.blogspot.com/2026/03/clasificacion-humana-vs-ia.html
Contreras, R. (2026, 28 de febrero). Análisis con datos reales de un grupo de WhatsApp. Tecnología Cumanesa. https://tecnologiacumanesa.blogspot.com/2026/02/analisis-con-datos-reales-de-un-grupo.html
Gilardi, F., Alizadeh, M., & Kubli, M. (2023). ChatGPT outperforms crowd workers for text-annotation tasks. Proceedings of the National Academy of Sciences, 120(35). https://doi.org/10.1073/pnas.2305016120
Morales, L. E., Barrios, E., & Pinto, D. (2023). Artificial Intelligence-Based Text Classification: Separating Human and Computer-Generated Texts. IberLEF 2023.
Newman, A., & Gopalkrishnan, K. (2023). AI communication styles and decision making: A framework for digital interaction.
Pituk et al. (2024). WhatsApp Chat Analysis Using Machine Learning. IEEE ICETSIS 2024.
Roy, B., & Das, S. (2023). Perceptible sentiment analysis of students' WhatsApp group chats in valence, arousal, and dominance space. Social Network Analysis and Mining, 13, 9. https://doi.org/10.1007/s13278-022-01016-1
Walters, W. H. (2023). The accuracy of 16 publicly available AI text detectors in discriminating between AI-generated and human-generated writing. Scientific Reports, 13(1), 1–12.


Inclusión cultural: Tu ayuda permite que la IA entienda nuestras realidades sociales, la idiosincrasia y la diversidad de nuestra forma de comunicarnos, evitando la discriminación y los sesgos.
.png)
