Ventajas de usar datos de búsquedas en Google para la investigación social
POST Nº619
En un post anterior expliqué por qué el buscador de Google se ha convertido en un gran confesionario dado que es ahí donde paradójicamente interactuamos y preguntamos con más sinceridad. En éste voy a obviar los riesgos que eso implica para la privacidad y centrarme en lo positivo que puede ser el uso de los datos generados por esas búsquedas para hacer investigación social.
Para eso vamos a retomar el interesante libro “Everybody lies”, de Seth Stephens-Davidowitz, publicado en su versión original en 2017. Fue traducido al español por la editorial Capitán Swing con el título: “Todo el mundo miente: lo que Internet y el big data pueden decirnos sobre nosotros mismos”. Te recuerdo que el autor trabajó una temporada como científico de datos en Google y ha sido profesor visitante en la Escuela Wharton de la Universidad de Pennsylvania. En la actualidad es columnista y periodista de datos para New York Times.
Una tesis de ese libro es algo que ya sabemos: a menudo el mundo no es lo que parece, así que el análisis de datos nos puede ayudar a desmontar estereotipos y prejuicios muy arraigados que responden a creencias equivocadas o a escenarios obsoletos que han cambiado con el tiempo. Entre las muchas fuentes que se pueden usar para capturar esos datos, una de las más interesantes son las búsquedas en Internet.
A más sensible, delicado o íntimo es un tema, a más se presta a que la gente guarde secretos, más útiles pueden ser los datos que se obtienen de los buscadores. Por ejemplo, los datos que genera el uso generalizado de pornografía pueden contribuir de manera única a entender la sexualidad humana. Por eso dice el autor que cada vez que sospecha que la gente sufre por algo, que se está dando alguna tendencia importante que no capturan las mediciones tradicionales, ni las estadísticas oficiales (por ejemplo, el abuso infantil), recurre a los datos de búsqueda de Google a ver si hay pistas.
Voy a resumir a continuación las cuatro ventajas que aporta esta fuente de captura de datos para la investigación social:
1. Acceder a nuevos tipos de datos:
Las estadísticas de búsquedas por Internet son, en muchos casos, fuentes únicas de datos que antes no existían. Podemos encontrar ahí nuevos tipos de datos que nunca han estado disponibles para la investigación. Por ejemplo, la posibilidad de digitalizar y tabular inmensos conjuntos de documentos o analizar cuantitativamente el lenguaje contenido en ellos. No hablamos solo de textos, sino también de imágenes que también se convierten en datos.
2. Proporcionar datos honestos:
Los patrones de búsquedas permiten saber qué quiere, qué le preocupa y qué hace la gente en realidad, y no qué dice que quiere o que hace. Esta es una diferencia muy significativa entre trabajar con los datos generados por los buscadores y los que se obtienen de redes sociales como Twitter o Facebook.
El autor llama “suero de la verdad digital” a los datos del buscador de Google mientras que cuestiona que se pueda decir lo mismo de Facebook como fuente de datos. En el primero, según Stephens-Davidowitz, hay “incentivos para decir la verdad” mientras que en Facebook o incluso en las encuestas (aquí contamos por qué las encuestas fallan tanto) los incentivos pueden funcionar en sentido contrario porque estimulan a que la gente se presente mejor de lo que es o está debido a que su presencia en línea no es anónima, como sí ocurre en principio cuando alguien reclama alguna información en los buscadores.
Facebook (yo añadiría Twitter, entre otras redes sociales) se usan bastante para presumir y presentar una realidad falseada, lo que pone en duda la fiabilidad de esas fuentes para desvelar las verdaderas inquietudes y deseos de la gente. Por el contrario, los textos de las búsquedas, los tipos de vídeos que se ven y los clics que se pulsan son datos mucho más reales sobre lo que realmente piensa o le preocupa a la gente.
En general, hay mucha hipocresía y postureo en las redes sociales. Como cuenta Stephens-Davidowitz: “la gente puede decir que está furiosa, denunciar algo por desagradable y, sin embargo, seguir haciendo clic para visionar, una y otra vez, ese contenido que denuncia”. Aún más: las personas dicen que “no quieren juzgar a sus amigos” pero, en la realidad, “pocas cosas les interesan más que estar al tanto de lo que hacen los amigos y juzgarlos”. Lo mismo ocurre cuando afirman en las redes sociales que “no quieren comprar productos fabricados en talleres explotadores” al mismo tiempo que visitan webs para “comprar productos bonitos a precios razonables” que casi siempre equivale a hacer lo contrario de lo que predican. Ocurre más de lo mismo cuando reclaman públicamente que “los políticos definan sus posiciones en materias relevantes” pero, después, a la hora de informarse para votar, quieren que los políticos les ahorren los detalles y se fijan más en lo duros y seguros que parecen.
En definitiva, la fuente alternativa de datos que parece más fiable es aquella que te permite saber lo que la gente hace, y no lo que dice que hace. Un ejemplo claro de esto es lo que hizo Netflix cuando dejó de pedir a los usuarios que dijeran lo que querían ver y apostó por un modelo basado en los clics y visionados del usuario y clientes similares. Se dio cuenta que era mucho más fiable guiarse por lo que la gente realmente veía y no por lo que decía que le gustaba ver.
Por ese camino podemos llegar a un escenario en el que, como decía un excientífico de datos de Netflix, “los algoritmos llegan a conocernos mejor de lo que nos conocemos a nosotros mismos”, descifrando nuestros verdaderos deseos e inquietudes (a partir de nuestras acciones) en vez del relato que nos decimos (o contamos) en la superficie para, tal vez, sentirnos mejor. Esto a título individual da miedo, pero agregado colectivamente puede ser de gran utilidad para diseñar buenas políticas públicas.
3. Enfocar pequeños subgrupos de personas:
La cantidad ingente de datos (y sobre todo, metadatos) que generan las búsquedas ayudan a concentrar el análisis de tendencias y comportamientos, enfocando a pequeños subgrupos por variables diversas como pueden ser: edades, distribución geográfica, género, fechas e incluso horas del día, entre otras. Como dice el autor: “igual que se necesitan muchos píxeles en una foto para poder ampliar una parte y verla con claridad, se necesitan muchas observaciones en un conjunto de datos para ver con claridad un subgrupo de esos datos”.
4. Hacer experimentos sobre relaciones causales:
Ya hemos insistido mucho por aquí que el sentido común suele obviar que “correlación” no implica “causalidad”. Pues bien, Internet nos permite realizar experimentos rápidos y controlados para poner a prueba relaciones causales, y no solo correlaciones. Son los llamados “ensayos aleatorios controlados” o Test A/B, que funcionan así: (1) se forman dos grupos de personas al azar que sean equivalentes, (2) a uno, el grupo sujeto del análisis, se le incita a hacer algo mientras que al otro, el llamado “grupo de control”, se deja tal cual, (3) se compara cómo responde cada grupo. La diferencia en los resultados refleja el efecto causal de lo que se ha cambiado.
O sea, si queremos saber si existe causalidad entre A y B, un grupo deja fijo A y el otro lo cambia, para ver entonces qué efecto tienen ambos escenarios en el factor B que se quiere estudiar. Un ejemplo sencillo de esto puede ser modificar el titular de una noticia en Internet (introduciendo algún matiz que prime el mensaje en la dirección de cierta preferencia) para solo uno de los dos grupos y ver cuál de los dos titulares recibe más clics o qué tipos de reacciones generan las dos opciones.
El autor pone como ejemplo un análisis que hizo de un discurso de Obama sobre la islamofobia, en el que pudo comprobar que los pasajes en los que el expresidente defendía más el respeto a los musulmanes con expresiones de lección moral, las búsquedas que se hacían en Google eran “más enfurecidas”. Sin embargo, el fragmento que desencadenó las mejores reacciones, o sea, el tipo de respuesta que buscaba Obama, fue el que decía esto: “los musulmanes estadounidenses son nuestros amigos, y vecinos, nuestros compañeros de trabajo, nuestros héroes deportivos y, sí, nuestros hombres y mujeres uniformados…”, porque después de ese pasaje, por primera vez en un año, el término más buscado en Google después de “musulmán” dejó de ser “terrorista”, “extremista” o “refugiado”, sino “atleta” o “soldado”. Estas revelaciones sugieren, según Stephens-Davidowitz, que dar lecciones morales en política funciona bastante peor que provocar sutilmente la curiosidad de la gente proporcionando información e imágenes nuevas, positivas, sobre el grupo que suscita rechazo o desconfianza.
En resumen, estas pistas que nos regalan los buscadores, si se hacen estudios estadísticos fiables y utilizando datos agregados que no pongan en peligro la privacidad de las personas, pueden ayudarnos a “asomarnos como nunca antes a los rincones más oscuros de la psique humana” y descubrir las verdaderas motivaciones que nos mueven, porque solo entendiendo eso es posible diseñar buenas políticas públicas y promover comportamientos que sumen socialmente.