Laboratorios académicos analizan lo lingüístico de los textos que publican los usuarios en sus perfiles y en sus actualizaciones
la huella del signo lingüístico revela detalles de la vida personal
Haga click para ampliar imagen
Todo indica que expresar información, de modo individual o colectivo, ha variado de la psiquis humana en el campo de la cultura a la inteligencia natural y artificial en el campo biológico-digital, pues la digitalización de todo el acervo de la información mediada con tecnología ha llevado menos de 30 años.
De modo que el corpus de la tecnología digital ha venido desafiando la restricción humana y es considerado un organismo vivo, auto-organizado por su adaptación, transformador de energía debido a que produce, consume e intercambia energía con el medio ambiente y autopoiético ya que auto-produce nueva tecnología a partir de sus propias partes, al tiempo que aumenta su eficiencia mediante el reemplazo y el crecimiento diferencial de sus partes constituyentes.
Escriben los Biólogos de la universidad Macquarie de Australia, Michael Gillings y Darrell Kemp, acompañados por el profesor de comunicación de la universidad de California, Martin Hilbert, en su artículo "Information in the Biosphere: Biological and Digital Worlds" (2016), publicado en Previously Published Works, que “Después que los genomas de ARN fueran reemplazados por ADN, se necesitaron mil millones de años para que aparecieran las células eucariotas, y aproximadamente otros dos mil millones para los organismos multicelulares con sistema nervioso. Luego se necesitaron otros 500 millones de años para desarrollar sistemas neuronales capaces de formar lenguajes. A partir de ahí, se necesitaron solo cien mil años para desarrollar el lenguaje escrito y otros 4.500 años antes de la invención de las imprentas capaces de replicar rápidamente la información escrita.”
Algunos ejemplos estructurados de robótica e Inteligencia Artificial (IA) se localizan en diversos entornos del universo: en el planeta Marte recorren su superficie vehículos autónomos, los sistemas de crédito anti-fraude se bloquean con tarjetas autónomas, los sistemas masivos de transporte están controlados por IA que utilizan algoritmos genéticos, redes neuronales artificiales o aprendizaje profundo.
Personalidad en Facebook
La información digital, en términos generales, se puede ver como una réplica con propiedades similares a las que tienen los replicadores biológicos (ARN y ADN) al observar los fuertes paralelismos entre lenguaje y genes, especialmente si las palabras se consideran estructuras informativas autónomas. Al respecto, el equipo de académicas de la universidad de Maryland conformado por Jennifer Golbeck, Cristina Robles y Karen Turner intentó “cerrar la brecha entre las redes sociales y la investigación de la personalidad mediante el uso de la información que las personas revelan al interaccionar en sus perfiles en línea”.
Ese trabajo publicado en 2011 se considera el primer estudio que analiza la relación entre la información del perfil proporcionado en medios sociales y los rasgos de la personalidad de su usuario. En consecuencia, recopilaron datos a través de la creación de una aplicación para Facebook con dos funciones: una para administrar una versión con 45 preguntas sobre el inventario de las Cinco Grandes Personalidades y otra, también para recopilar todos los textos sobre el perfil del usuario que estaban disponibles. Compilaron, entonces, 161 estadísticas en total de la lista de amigos para comprender la densidad de la red del usuario egocéntrico (muestrearon 2.000 pares únicos de amigos) y de la información de los enlaces entre los amigos del usuario.
Al respecto, las académicas afirman que “Los usuarios proporcionan gran cantidad de información personal.” Por ejemplo, de 279 usuarios 111 mencionaron una religión a través de 82 entradas diferentes, lo que revela disposición para compartir información a pesar del espacio demasiado escaso para hacer cualquier análisis estadístico. Otra exposición pública que el usuario de medios sociales proporciona es su lista de actividades personales o de asuntos favoritos como programas de televisión, películas, música, libros y citas, así como sus afiliaciones políticas y organizativas. Aun así, los usuarios también pueden compartir más información personal en sus perfiles al escribir textos “Acerca de mí”, “blurb” (“propaganda”), datos característicos y actualizaciones de estado.
Luego de combinaciones, eliminaciones, promedios de palabras publicadas, se realizó el estudio de análisis lingüístico con 167 sujetos que tenían al menos diez palabras entre todos sus campos de texto con un promedio de 42,6 palabras por persona. La información demográfica fue extraída de sus perfiles, siendo la edad promedio 31,2 años (desviación estándar de 8,7), 68 mujeres y 61 hombres (38 no informaron), y su localización Estados Unidos (138 usuarios), India (8), Australia (7), Italia (7) y otros (7).
El método de estudio para analizar el texto fue emplear la herramienta de software "Linguistic Inquiry and Word Count (LIWC)", que produce estadísticas sobre 81 diferentes características de texto en cinco categorías. Estas incluyen recuentos estándar (conteo de palabras, de palabras de más de seis letras, de la cantidad de preposiciones, etc.), procesos psicológicos (recursos emocionales, cognitivos, sensoriales y sociales), relatividad (palabras sobre el tiempo, el pasado, el futuro), preocupaciones personales (como ocupación, problemas financieros, salud) y otras dimensiones (recuentos de varios tipos de puntuación, de palabrotas).
Las mayores correlaciones estadísticamente significativas se localizaron en las características lingüísticas, así: el rasgo de personalidad Concienciación (responsable, organizado, perseverante) se relaciona con la mayor cantidad de correlaciones positivas y negativas. Las positivas se emparentan con los procesos sociales −compañero, niño, ellos, hablar− y con palabras que vinculan a humanos −bebé, hombre−. A su vez, las negativas guardan afinidad con las palabrotas y con los procesos de percepción (ver, oír, sentir), incluido el subconjunto de palabras específicas sobre ver. Lo anterior sugiere que las personas más conscientes hablan sobre otras personas pero callan sobre asuntos que vieron o escucharon.
Los demás rasgos de personalidad, Amabilidad (cooperativo, servicial, cariñoso) presenta relaciones positivas con los procesos biológicos y afectivos, incluidas las palabras que expresan emoción positiva; Neuroticismo (ansioso, inseguro, sensible) presenta palabras frecuentes relacionadas con ansiedad e indigestión; Extroversión (comunicativo, amistoso, asertivo) expone una relación positiva con palabras para el trabajo y negativa, con los procesos perceptuales; y Apertura a la Experiencia (curioso, inteligente, imaginativo) se relaciona negativamente con las palabras sobre dinero.
La escala medible fue normalizada entre 0 a 1, siendo el Error Absoluto Medio para cada factor de la personalidad de un usuario de Facebook aproximadamente 11% lo que significa que la predicción presenta una precisión de poco más de una décima parte de su valor real en ciertas características o experiencias del usuario. Según el tipo de personalidad expuestas en el laboratorio de Maryland se “mostró que los usuarios preferían las interfaces diseñadas para representar sus personalidades que más se asemejaban a las suyas” lo que amplía el filtro de burbuja o aislamiento intelectual y sensible.
Rasgos privados
Dos años después, en la universidad de Cambridge, el equipo formado por Michal Kosinski, David Stillwell y Thore Graepel, publicó el artículo "Private traits and attributes are predictable from digital records of human behavior", editado en 2013 por la Universidad de California, mostrando “los registros digitales fácilmente accesibles del comportamiento subjetivo a través de la función 'Me Gusta' de Facebook, para predecir de forma automática y precisa una gama de atributos personales altamente sensibles, que incluyen: edad, género, orientación sexual, etnia, inteligencia, felicidad, rasgos de personalidad, uso de sustancias adictivas, separación de los padres y puntos de vista religioso y político.”
El laboratorio en concreto seleccionó las citadas peculiaridades de los usuarios escogidos que revelaron precisión pero son potencialmente intrusivas al realizar el análisis predictivo. Por ello advierten que, “predecir la información personal para mejorar productos, servicios y orientación de compras puede dar lugar a peligrosas invasiones de la privacidad.”
Aun cuando las personas optan por ocultar cierta información sobre sus vidas −orientación sexual o edad− esa información puede ser predecible en estadísticas frente a otros aspectos de sus vidas que sí revelan. Por ejemplo, una importante red minorista de EE. UU. utilizó registros de compras de sus clientas para predecir los embarazos y enviarles ofertas oportunas y adecuadamente dirigidas.
Para los académicos del Reino Unido mercancías, música, libros, deportes, restaurantes o sitios Web populares activados desde la función 'Me Gusta' de Facebook −que expresa asociación positiva con el contenido en línea− representan una clase muy genérica, relativamente básica del comportamiento humano, cuyos registros digitales son similares a las consultas de búsqueda Web, los historiales de navegación Web y las compras en línea empleando tarjeta de crédito.
Con base en la cantidad de datos disponibles y en la precisión de la predicción a los productos lograron medir dos variables: dicotómica y numérica. La cantidad de datos disponibles fue respaldada con personas para las que había disponibles entre 1 y 700 'Me Gusta', siendo la media de tal función 68 por sujeto. Por lo tanto, ¿cuál es la precisión esperada dado un individuo al azar? y ¿cómo cambia la precisión de la predicción con el número de 'Me Gusta' observado?
Utilizaron entonces una sub-muestra igual a 500 usuarios para los que había al menos 300 'Me Gusta' disponibles y ejecutaron modelos predictivos basados en subconjuntos seleccionados al azar de los n 'Me Gusta'. Los resultados muestran que incluso conocer un solo 'Me Gusta' aleatorio para un usuario determinado puede alcanzar una precisión no despreciable de predicción. De modo concluyente: conocer más 'Me Gusta' aumenta la precisión pero con rendimientos decrecientes en cada pieza de información adicional.
En cuanto la variable dicotómica ésta fue expresada en términos del área bajo la curva característica operativa del receptor, que es equivalente a la probabilidad de clasificar correctamente a dos usuarios seleccionados al azar, uno de cada clase (por ejemplo, hombre y mujer). En consecuencia, las precisiones más altas de las predicciones se lograron para el origen étnico −afroamericano y americano caucásico− (95%) y para el género −hombre y mujer− (93%). Los porcentajes sugieren que los patrones del comportamiento en línea expresados con la función 'Me Gusta' difieren significativamente entre esos grupos, lo que permite una clasificación casi perfecta. Por su parte, la precisión más baja fue inferir si los padres permanecieron juntos antes que los usuarios cumplieran 21 años de edad (60%). Los usuarios con padres separados tienen mayor probabilidad que les gusten las declaraciones preocupadas por las relaciones, como “Si estoy contigo, entonces estoy contigo; no quiero a nadie más”.
Según las preferencias por una religión, cristianos y musulmanes (82%) se clasificaron también correctamente, y por las de partidos políticos se lograron resultados similares para Demócratas y Republicanos (85%). Igualmente se logró acertada precisión de predicción para el estado civil y el consumo de sustancias psicoactivas (entre 65% y 73%). La orientación sexual fue más fácil de distinguir entre los hombres (88%) que entre las mujeres (75%), lo que puede sugerir una división más amplia de la conducta, como se observa en el comportamiento en línea, entre los hombres heterosexuales y homosexuales.
Así mismo, con base en la variable numérica, la precisión de la predicción fue expresada por el coeficiente de correlación producto-momento de Pearson entre los valores reales y los predichos. La mayor correlación se obtuvo para la edad (0,75), seguida de la densidad de la red (0,52) y el tamaño de la amistad en Facebook (0,47). Le siguieron de cerca los rasgos de la personalidad Apertura a la Experiencia (0,43) y Extroversión (0,40). Esto indica que para el rasgo Apertura, la observación de los 'Me Gusta' del usuario es más o menos tan informativa como el uso de la puntuación de su prueba de personalidad.
La precisión de la predicción relativamente más baja para el atributo satisfacción con la vida puede atribuirse a la dificultad de separar la felicidad a largo plazo de los cambios de humor, que varían con el tiempo. Por lo tanto, aunque la puntuación a la satisfacción con la vida incluye la variabilidad atribuible al estado de ánimo, los 'Me Gusta' de los usuarios se acumulan durante un período más largo y, por lo tanto, pueden ser adecuados solo para predecir la felicidad a largo plazo.
En relación con el poder predictivo de la función que se viene citando, el resultado del experimento en Facebook arrojó como mejores predictores de la inteligencia alta los temas “Tormentas eléctricas”, “Informe Colbert”, “Ciencia” y “Papas fritas rizadas” (cuya conexión no es obvia), mientras la inteligencia baja incluyen “Sephora”, “Me encanta ser mamá”, “Harley Davidson” y “Lady Antebellum”. Los magníficos predictores de la homosexualidad masculina incluyeron asuntos como “No H8 Campaign”, “Mac Cosmetics” y “Wicked The Musical”, mientras que los fuertes predictores de la heterosexualidad masculina incluyeron “Wu-Tang Clan”, “Shaq” y “Being Confused After Waking Up From Naps (Estoy confundido después de despertarme de la siesta)”.
La predicción de la función de la red tuvo en cuenta a los pocos usuarios que revelaron explícitamente sus atributos. Por ejemplo, menos del 5% de los usuarios etiquetados como homosexuales estaban conectados a grupos explícitamente homosexuales, como “No H8 Campaign”, “Ser homosexual”, “Matrimonio homosexual”, “Me encanta ser homosexual”, “No elegimos ser homosexuales, fuimos elegidos”. En consecuencia, las predicciones menos informativas pero más populares se basan en Me Gusta "Britney Spears" o "Desperate Housewives" (ambas moderadamente indicativas de ser homosexual).
Cada 'Me Gusta' atrae a usuarios con una personalidad promedio y un perfil demográfico diferente y, por lo tanto, la función puede usarse para predecir esos atributos. Por ejemplo, los usuarios a los que les gustaba la marca “Hello Kitty” tendían a ser altos en el rasgo de personalidad Apertura y bajos en Concienciación y Amabilidad. También era más probable que tuvieran opiniones políticas Demócratas y que fueran de origen afroamericano, predominantemente cristianos y ligeramente estar por debajo de la edad promedio. Por ejemplo, aunque el gusto por Barack Obama está claramente relacionado con ser Demócrata, también es relativamente popular entre cristianos, afroamericanos y personas homosexuales.
Predicción desde Twitter
También el equipo de académicas de la universidad de Maryland, formado por Jennifer Golbeck, Cristina Robles, Michon Edmondson y Karen Turner, presentó en 2011 su artículo "Predicting Personality from Twitter", “un método mediante el cual se puede predecir con precisión la personalidad de un usuario a través de la información disponible públicamente en su perfil de Twitter.”
En efecto, a través de una aplicación de Twitter, administraron el inventario de las Cinco Grandes Personalidades con 279 sujetos y reunieron sus 2.000 tweets públicos más recientes. Las investigadoras aclaran que los 140 caracteres de Twitter (hasta el 26 septiembre 2017) son “más un flujo de pensamientos inconexos que una narrativa coherente”. Aun así los textos cortos se filtraron a través de la herramienta de análisis de texto LIWC para obtener un conjunto de características. El modelo pudo predecir la personalidad en cada uno de los cinco factores de personalidad con una precisión de entre 11% y 18% de los valores reales.
Para cada usuario incluyeron los siguientes componentes: número de followers, de following, de @menciones, de respuestas, de hashtags, de enlaces, palabras por tweet y densidad de la red social. Para la cantidad de @menciones, de respuestas, de hashtags y de enlaces, usaron los números sin procesar y el promedio por tweet. Hubo un promedio de 1.914 palabras por usuario siendo el número de palabras entre 50 y 5.724, que provinieron de un promedio de 142.2 tweets entre un máximo de 350 y un mínimo de 4.
Luego de haber ejecutado un análisis de correlación de Pearson entre las puntuaciones de la personalidad de los sujetos y cada una de las características obtenidas del análisis a los tweets los resultados muestran relaciones positivas significativas con al menos un rasgo de la personalidad, así: Extroversión por la relación de procesos sociales, incluida la familia. Amabilidad y Concienciación por las características del lenguaje y los procesos biológicos incluidos, en su orden, ingestión y trabajo. Neuroticismo por los procesos perceptuales como oír y sentir y el rasgo Apertura a la Experiencia por las características del lenguaje, los procesos sociales humanos y los mecanismos cognitivos de causalidad y certeza.
Las relaciones negativas significativas con al menos un rasgo de la personalidad resultaron ser: Extroversión por la relación de procesos biológicos que involucran salud. Amabilidad por el mecanismo cognitivo de causalidad y los procesos biológicos que incluyen logro y dinero. Concienciación por las características del lenguaje, las emociones negativas incluida la tristeza, los mecanismos cognitivos incluida la discrepancia, los procesos perceptuales como sentir y los biológicos como muerte, “quiero decir”, “tu sabes”. Apertura a la Experiencia por los procesos biológicos incluido el cuerpo.
Argumentan las investigadoras que en este análisis encontraron resultados mixtos y comparados con el anterior estudio de la personalidad en línea (efectuado dentro de Facebook con 167 sujetos), donde se tenía menos correlaciones y más débiles, lograron predecir todos los rasgos de la personalidad con una precisión aproximada del 11%.
Estos tres laboratorios para predecir los rasgos de la personalidad en medios sociales se apoyan en la huella del signo lingüístico que revela detalles de la vida personal. Por su parte, con todos los datos del perfil de usuario, como conjunto de funciones, se entrenan algoritmos de aprendizaje automático que abren muchas oportunidades al marketing para personalizar las interfaces y la información en línea para las ventas correctamente dirigidas.
Aún así no está aclarado todo pues la fuerza de los enlaces, la confianza y otros factores relacionados todavía es un espacio abierto para la investigación. No obstante, la predicción enfatiza amenazas potenciales cuando se trata de usuarios emocionalmente estables como invadir la privacidad sin consentimiento, afectar negativamente la experiencia personal con las tecnologías digitales, disminuir la seguridad en los servicios en línea, disuadir por completo del uso de la tecnología digital, entre otras.