Sociedad cuantificada y Darwinismo de Datos (post-553)

votar

Om Malik acuñó el término de Darwinismo de datos para referirse a aquellas situaciones en las que la reputación digital, basada en datos, se convierte en el principal mecanismo de selección y puerta de acceso a las oportunidades.  Según esa lógica, los datos, y los algoritmos que los procesan, asignan una reputación que puede determinar que algunas ofertas, servicios, empresas u oportunidades desaparezcan, como ocurre con la selección natural de Darwin. Si alguien consigue bajas estadísticas en las valoraciones agregadas que dan los algoritmos, es castigado/a y queda fuera del juego.

Si esos dispositivos matemáticos fueran capaces de generar filtros sin sesgos, que optimicen el resultado, no tendríamos razones para quejarnos. Pero eso casi nunca ocurre. Esos “filtros evolutivos” no son tan objetivos como parecen, y pueden llegar a ser muy arbitrarios. Un algoritmo puede servir de criterio para castigar o privar a una persona de un derecho de forma injusta. La supervivencia del más apto deja de ser un asunto puramente meritocrático, y las víctimas de ese darwinismo carecen de protección porque los filtros de selección son opacos e incontestables.

Cathy O’Neill es autora de un libro bastante provocador, que abunda en esa tesis: “Weapons of Math Destruction: how big data increases inequality and threatens democracy”. En él advierte que los algoritmos pueden perpetuar la discriminación, porque “usan las matemáticas para camuflar los sesgos”. Centra sus críticas en varios inconvenientes de estos mecanismos de filtrado, de los que yo destacaría tres:

  1. Los creadores de estos algoritmos definen el éxito con unos criterios cuestionables, y probablemente no compartidos, por los colectivos afectados.
  2. Son opacos, no públicos, así que los grupos hacia los que apuntan no saben cómo funcionan.
  3. Generan perniciosos bucles de retroalimentación.

Hay un video TED de Cathy O’Neill que lo explica bien, desvelando el lado oscuro del Big Data y cómo los algoritmos pueden reforzar sesgos preexistentes. Ella usa el calificativo de data laundering” (“lavado de datos”) para referirse al proceso mediante el cual “los tecnólogos esconden verdades feas en cajas negras llamadas algoritmos y que presentan como objetivos y supuestamente meritocráticos”.

Su charla comienza diciendo esto, que redunda en la tesis del Darwinismo de Datos:

Los algoritmos, que están en todos los sitios, separan y clasifican los ganadores de los perdedores. Los ganadores obtienen el trabajo y los perdedores ni siquiera acceden a la entrevista (…) Estamos siendo calificados con fórmulas secretas que no entendemos y que a menudo no tienen sistemas de apelación. Eso plantea una pregunta: ¿Qué pasa si los algoritmos están equivocados?

A ver, repasemos este asunto. Los algoritmos funcionan como modelos predictivos: los datos entran, ocurre algún cálculo según una fórmula que pondera factores, y después sale una predicción. Así que necesitan, como mínimo, dos cosas: 1) datos, lo que pasó en el pasado, 2) una definición de éxito, o sea, lo que buscamos como comportamiento o resultado deseado. Pero OJO, cualquier definición de éxito ya implica opiniones.

O’Neill entra en casos concretos para que se entienda por qué, según ella: “los algoritmos son opiniones embebidas en códigos”. Por ejemplo, si un algoritmo evalúa a los maestros según los resultados obtenidos por sus alumnos en los exámenes, estaría dando por hecho que un maestro exitoso es aquel que aumenta las calificaciones medias de sus alumnos. Asimismo, si la confiabilidad de un conductor para obtener un seguro se predice a partir de su historial de crédito, se está sentando la premisa de que es más probable que los buenos pagadores de sus deudas sean conductores más responsables. Estos argumentos de “A indica B” son muy discutibles, pero una vez integrados en los algoritmos sirven para tomar decisiones de apariencia objetiva, porque se basan en datos.

Según O`Neill, es posible arreglar esas desviaciones a través de “auditorías algorítmicas”, que incluyen tareas como las siguientes:

  • Verificar la integridad de los datos, para saber si hay sesgos en su captura
  • Revisar, de forma crítica, la definición de éxito que se usa para el modelo
  • Comprobar la precisión o fiabilidad, es decir, en qué medida predice realmente lo que promete
  • Considerar los efectos a largo plazo de los algoritmos con el fin de evitar posibles bucles de retroalimentación.

Hay cierta arrogancia, y temeridad, en los big-daters cuando creen que las matemáticas pueden ser siempre los árbitros definitivos en escenarios complejos de decisión. Incluso tienden a menospreciar el reclamo de que haya al menos una segunda opinión “humana” que verifique y corrija posibles errores de esos modelos. Una solución a ese dilema podría ser este precioso ejemplo de “inteligencia híbrida”.

Me gustaría insistir en que el impacto negativo de los algoritmos no responde necesariamente a una actitud de mala fe. Ese efecto puede darse también cuando se diseñan con buenas intenciones, porque como dice O’Neill: “Con lo sesgados que somos de base, ¿cómo podemos esperar que los algoritmos salgan ilesos? No podemos. Tenemos que revisarlos. Tenemos que comprobar su imparcialidad”.

Tengo muy claro que a medida que más situaciones de nuestra vida sean escudriñadas a través de los datos, que es una tendencia que se antoja inevitable, más vamos a necesitar aprender a examinarlos desde una mirada crítica, y para eso es imprescindible alfabetizarse en pensamiento estadístico básico. Hoy se habla mucho de aprender a programar, de que la programación se introduzca en la educación más básica, pero yo colocaría primero en mi lista de prioridades a la “alfabetización estadística” porque es una herramienta esencial para el ejercicio del pensamiento crítico.

Por ejemplo, un error muy común de estos modelos matemáticos es sustituir los datos que realmente importan, los que son relevantes y significativos para una predicción objetiva, por los que se pueden conseguir con más facilidad, o simplemente, los únicos que son accesibles. Parece que actuáramos así: “no tengo los datos que verdaderamente necesito para una predicción correcta porque son imposibles de conseguir, pero en su lugar tengo estos que seguro que me sirven como aproximación”.

Estos datos “proxies” se dan por buenos para hacer predicciones fiables y completas, cuando en realidad son sólo aproximaciones parciales y muchas veces asociadas a opiniones. Esto ocurre muchísimo, y quienes cometen ese fallo a menudo no son todo lo honestos que deberían a la hora de explicar las limitaciones de su hermoso modelo predictivo. Parecen excusarse tras el siguiente razonamiento: “una predicción aproximada es mejor que ninguna”, que es a todas luces un craso error, y muy peligroso.

Es mejor reconocer que algo NO SE PUEDE predecir a partir de X datos, que hacer predicciones poco fiables que después se usen como argumento para tomar decisiones desde una supuesta certeza matemática que no existe. De esto ya escribí extensamente en este post: “La falacia de los indicadores que no miden lo que prometen”.

Un ejemplo de esos modelos son los que se utilizan para crear todo tipo de rankings que, en teoría, sintetizan atributos de calidad de cualquier cosa. Un caso grave es el que pretende evaluar la educación usando modelos cargados de opiniones, y en particular, los que se utilizan para elaborar rankings de las universidades. Se diseña un algoritmo que pondera una serie de variables según determinadas premisas ideológicas, técnicas, etc. que alguien ha decidido que correlacionan con la calidad educativa, y a partir de ese modelo “se sabe” qué universidades “son mejores” que otras. A mí eso me parece una manipulación temeraria.

Una consecuencia aún más peligrosa de hacer un uso acrítico de estos algoritmos es el reforzamiento de modelos del pasado. Lo explico mejor. Si una ecuación “predice” que el éxito futuro (output) depende de una determinada combinación de factores (inputs), y ese modelo se ha construido desde aprendizajes (correlaciones) estimadas a partir de datos inputs/output del pasado, entonces usar ese algoritmo para priorizar qué tenemos que hacer a partir de ahora genera un comportamiento recursivo, un círculo vicioso, que solo refuerza el modelo de actuación anterior: ¿y si resulta que lo que produjo el éxito en el pasado ya no sirve para el futuro?

O’Neill avisa que, por ese camino, los algoritmos pueden convertirse de facto en tiranos estratégicos, que es algo que en mi opinión ocurre muy a menudo con los rankings. Sin ir más lejos, véase el comportamiento tan inercial y encorsetado de la mayoría de las escuelas de negocio cuyas decisiones bailan exclusivamente al ritmo que marcan los rankings, que son, para colmo, de una naturaleza muy conservadora.

El resultado de esa tendencia genera una especie de círculo vicioso porque impide construir la solución adoptando un nuevo paradigma de solución diferente al del pasado. Sería el caso de que queramos recrear un futuro que se parezca menos al pasado. En esa circunstancia, es mejor que el modelo de decisión (el dichoso algoritmo, sea analógico o digital) rompa con las premisas que han servido antes para definir el éxito, porque si no, “se repiten las prácticas pasadas que automatizan el statu quo”, dice O’Neill. Un caso perfecto para ilustrar ese peligro es este: si en el éxito pasado había pocas mujeres triunfando, entonces el algoritmo va a reforzar esa desventaja, a menos que eso se corrija desde una visión transformadora.

Sé que ningún sistema de toma de decisiones va a ser perfecto así que, dado el caso, tendremos que elegir el menos malo. Por eso también tengo cosas favorables que decir de los algoritmos, si se usan como lo que son: aproximaciones humildes a la realidad que pueden ayudar a corregir sesgos o decisiones demasiado subjetivas si se hacen acompañar de la interpretación humana.

Opino que en algunos tipos de problemas sigue siendo más efectiva la intuición, la empatía y la interpretación compleja de los humanos; mientras que, en otros, los datos ya tienen mucho que decir y es posible construir algoritmos que nos ayuden a decidir mejor basados en evidencias. De hecho, para ciertos desafíos, los algoritmos pueden ser más justos, y sinceros, que otras formas de decisión basadas en el juicio (casi siempre subjetivo) de personas. Los algoritmos, como alguien dijo, “no tienen amigos”, y pueden ser un buen mecanismo para evitar razonamientos arbitrarios. Pero esto, de nuevo, con reservas, porque la arbitrariedad puede estar embebida en el propio diseño del algoritmo.

NOTA:  La imagen de la entrada pertenece al album de PeterThoeny en Flickr. Si te ha gustado el post, puedes suscribirte para recibir en tu buzón las siguientes entradas de este blog. Para eso solo tienes que introducir tu dirección de correo electrónico en el recuadro de “suscribirse por mail” que aparece en la esquina superior derecha de esta página. También puedes seguirme por Twitter o visitar mi otro blog: Blog de Inteligencia Colectiva.

About the author

Amalio Rey

Related Posts Plugin for WordPress, Blogger...

, , , , , , , ,

votar

Deja un comentario

2 Respuestas a Sociedad cuantificada y Darwinismo de Datos (post-553)

  1. Julen Iturbe-Ormaetxe 23/10/2017 06:30 #

    Amalio, aquí tenemos uno de los grandes asuntos “contra los que luchar”. Absolutamente de acuerdo con lo que escribes. Hace un tiempo me pidieron una colaboración para la revista Texturas precisamente en torno a esta cuestión. Causa inquietud seguir la línea de las predicciones que surgen del pasado. Sobre todo si el pasado es lo que queremos cambiar.

    • Amalio Rey 23/10/2017 07:45 #

      Desde luego, Julen. Leí tu colaboración en Texturas, y me gustó mucho. Esto de decidir el futuro según modelos del pasado merece una repensada.