La falacia de los indicadores que no miden lo que prometen (post-496)
Este tema se me atraviesa una y otra vez. No hace mucho tuvimos un largo debate en torno a este asunto mientras impartíamos un taller al equipo de Innobasque. En aquella ocasión prometí escribir un post sobre esto, y aquí estamos.
Nadie me verá demonizando los indicadores. Por si hay duda, dejaré bien claro que me encanta la estadística, que mi forma de pensar está muy influida por los datos, y que tengo claro que un análisis con rigor suele necesitar números. Esto es verdad tanto para el diseño de buenas políticas públicas como para la gestión de organizaciones, e incluso para la vida personal. Así que espero que nadie me acuse de frivolizar la grandeza de la estadística. De hecho, aviso que pronto voy a publicar un seriado sobre la importancia de desarrollar un adecuado pensamiento estadístico.
En esta entrada quiero airear mi frustración con los excesos pseudo-estadísticos. Ya sabéis que me dedico a una cosa incierta y gelatinosa que se llama “gestión de la innovación”, así que podéis imaginaros la tensa relación que tengo con los datos en esta profesión, donde cuesta tanto medir todo y los indicadores que se manejan son mayoritariamente ambiguos.
Por ejemplo, en el ámbito de la innovación suele ser difícil (a veces imposible) desvelar con certeza las relaciones entre inputs y outputs, porque hay muchos otros factores, no controlados estadísticamente, que pueden influir en el resultado y ponen en entredicho cualquier pretensión de extraer conclusiones rotundas de un dato. La premisa básica de que “correlación no implica causalidad” suele obviarse por muchos fans de los indicadores en mi campo, y ya ni te digo por la prensa que se hace eco de las estadísticas.
Mi principal crítica tiene que ver con esa obsesión que tienen alguno/as de cuantificar lo cualitativo con ratios que no son fiables, ni pueden medir lo que prometen. La lógica que hay detrás de esto parece decir: “Necesitamos (nos piden) indicadores así que los vamos a tener, sean o no correctos”.
Los sistemas de calidad, y la propia “cultura de la calidad”, han hecho mucho bien en los procesos de mejora continua de productos y servicios que responden a patrones estables, con referentes de excelencia técnica cuantificables. También para generar hábitos de documentar procedimientos y actividades que realmente lo necesitan. Pero su lado oscuro, la “burocracia-de-la-calidad”, funciona a veces como una maquina perversa de parir datos, informes e indicadores que solo sirven para obtener normas y certificados, y generar una sensación falsa de control.
En contraposición al coleccionismo de datos e indicadores, lo que yo digo es que debe medirse sólo lo que pueda medirse con un grado razonable de fiabilidad. Creo que con esta afirmación podía terminar el post, pero voy a seguir aportando más argumentos.
Hay indicadores flipantes por lo bien que sintetizan problemáticas complejas; pero si sabes que los datos para calcular un indicador solo pueden obtenerse de mala manera, que el propio indicador es confuso y se presta a lecturas ambiguas, y que no tiene un rigor estadístico para extraer relaciones de causa-efecto, entonces no me hagas perder el tiempo con chorradas, y lo que es más grave, no se te ocurra sacar conclusiones de impacto basándote en esos datos como suele ocurrir cuando estos artefactos caen en manos de “metodólogos de salón” que los convierten en un fin en sí mismo.
Digo eso porque los números tienen un extraño efecto “validador” de cualquier propuesta que se haga, por descabellada que sea. A estas alturas doy por hecho que sabes que las estadísticas sirvan (y se manipulan) para avalar lo que haga falta. Así que lo mejor que podemos hacer es desarrollar un sano hábito de escepticismo al consumir datos e indicadores para tomar decisiones. Ahí van algunas ideas en esa línea:
- Alguien dijo que la mayoría de los indicadores son como las salsas, que si te enteras cómo se han hecho, se te quitan las ganas de comértelas. Esto aplica sobre todo al examinar la forma en que se recogen los datos y cómo se ponderan las variables.
- Interesan tanto los indicadores “de resultados” como los “de esfuerzo”. Esto es importante porque a menudo los segundos no solo son más relevantes, sino también más fiables que los primeros. En muchos proyectos de consultoría en los que he participado me he dado cuenta que sólo podía medir bien el esfuerzo, lo que se invertía en el proceso, porque el resultado vendría a más largo plazo. Y si un determinado dato no captura con justicia, en espacio/tiempo, la calidad y eficacia de mi trabajo, entonces no voy a permitir que se me aplique.
- El indicador puede tener un diseño estupendo, y tener todo lo que podemos pedirle a un cacharro de esos: sencillo, elegante y riguroso. Pero si usa datos que son difíciles de recoger y uno sabe que lo más probable es que esos inputs se recojan de aquella manera, entonces el indicador ya no me sirve. Cabe plantearse las mismas dudas si el procedimiento para la recogida de datos es pringoso, de esos que diseñan los consultores de salón por los que cobran mucha pasta y salen corriendo. Si el mecanismo de captura es engorroso, entonces eso termina viciando los datos. A veces es mejor usar un indicador deliberadamente incompleto, cuya interpretación maticemos por esa razón, que intentar uno tan perfeccionista que obligue a un proceso insufrible de recogida de datos que contamine la naturaleza de los mismos. En fin, aplicar sentido común: “garbage IN, garbage OUT” (basura entra, basura sale).
- El diseño de buenos indicadores necesita de empatía. Primero hay que entender muy bien la complejidad del problema que se quiere medir, y cómo las personas (que son en última instancia el principal objeto de estudio en las organizaciones) van a interactuar con los datos. Por ejemplo, tendríamos que preguntarnos si ese indicador, por el tipo de información que quiere sintetizar y el modo en que se usará para la toma de decisiones, puede generar incentivos a distorsionar o manipular los datos. Esto ocurre bastante. Sin ir más lejos, el otro día, en un proyecto importante con el que colaboro, me obligaron a introducir unas preguntas para medir ciertas cosas que, obviamente, todos sabíamos que generarían unos datos muy sesgados positivamente y con escasa credibilidad. Aun así, se hizo porque lo pedía Calidad, y porque así quedaba bien 🙁
- A menudo lo único que podemos hacer es echar mano de buena información cualitativa. En estos casos no te empeñes en cuantificar (lo incuantificable) porque es puro embuste. En vez de exigir a los indicadores que se alineen con la realidad que intentan medir, lo que se hace es constreñir caprichosamente la realidad a los indicadores que podemos (y queremos) medir, bien por ignorancia, o bien por pereza.
- Reconozco que los “datos cualitativos” parecen, por su propia naturaleza, muy débiles para avalar decisiones. Pero para ciertos análisis, sobre todo en el ámbito de la innovación, lo cualitativo basta. Me pasa a veces que descubro más oportunidades de innovación en frases literales que me dicen los usuarios, o mediante la observación activa, que a partir de tablas de datos. Por otra parte, hay formas de enriquecer la información cualitativa y aportarle más rigor. Por ejemplo, taxonomizando y tabulando las opciones, o accediendo a muestras grandes.
- Las encuestas como inputs para los indicadores: Podría extenderme en la reflexión sobre cómo fallan las encuestas sobre las que después se construyen los datos, pero para eso ya tienes un post en este blog: ¿Por qué preguntar con encuestas no suele funcionar?
- Si el indicador se utiliza para la rendición de cuentas (accountability) y, por lo tanto, sirve de criterio para juzgar lo bien o mal que ha trabajado una organización, entonces agudiza tu suspicacia a la hora de usarlo para sacar conclusiones. A más influyente es un indicador, más incentivos existirán para manipularlo o mal interpretarlo.
Alfonso Romay
Un tema candente donde haces un análisis muy certero, Amalio.
Es uno de los temas que tratamos de analizar en Gestión Relativa. Parece que una buena gestión necesite mantener un control absoluto sobre todo aquello que sucede a nuestro alrededor. Y no. “Lo que no puedes medir, no lo puedes gestionar” repetimos como un mantra…
Personalmente, creo que la raíz del problema no está únicamente en los indicadores, es más profunda. Simplemente buscamos eliminar los inconvenientes relacionados con la subjetividad que se deriva de un proceso de evaluación cualitativa, porque la facilidad para obtener y manejar datos la deja en segundo plano.
Recurrimos a la simpleza de un dato numérico, fácil de obtener e interpretar, como sustituto de una valoración más compleja. Y cuanto más complejo es el proceso de cálculo del dato, más relevancia le damos.
Y, como bien apuntabas, para terminar de empeorarlo rápidamente transformamos los indicadores en objetivos. Como decía Goodhart, “cuando una medida se convierte en objetivo, deja de ser una buena medida”. Se corre el peligro de que medir termine convirtiéndose en algo obsesivo, un objetivo per sé, y no en un medio que nos ayude a evaluar y tomar decisiones.
Amalio Rey
Hola, Alfonso:
Ese mantra de que “Lo que no puedes medir, no lo puedes gestionar” es una simplificación absurda. Está bien medir, y vale la pena hacerlo siempre que se pueda y los datos sirvan para algo, o sea, para tomar decisiones. Pero si no se puede medir, sigue siendo posible gestionar.
Es cierto, hay mucho empeño en suprimir la subjetividad en los procesos de evaluación, y eso no está mal siempre que no nos engañemos a nosotros mismos con una falsa objetividad. Y lo peor de todo es que basta con que aparezca un número o un indicador, para que empiecen a tomarse decisiones (o a legitimar las que se tomarían de todos modos) en base a ese guarismo, y nadie se pregunta seriamente si ese dato es fiable y sirve para sacar conclusiones.
Gian-Lluís Ribechini
Amplio.
Con respecto al tema de los indicadores:
http://www.sintetia.com/indicadores-equivocados-para-definir-la-politica-de-innovacion-en-europa/
Pueden ser útiles, pero hay que ir con cuidado.
Saludos.
Gian-Lluis
Amalio Rey
Gracias, Gian-Lluis. Le echo un vistazo al enlace de Sintetia.
un saludo
David Soler
Estoy de acuerdo en el espíritu de tu post pero hay algún detalle del que no podemos escapar:
– Un cliente y un jefe quieren entender que pasa, o que funciona, lo que prefieras. Y la mayoría de veces sólo se entiende vía números. O, dicho de otro modo, lo primero que entienden son los números y luego ya puedes entrar con los comentarios.
– Es verdad que los comentarios o la información cualitativa es muchas veces mejor incluso que la cuantitativa pero el problema que presenta es ¿cuan mayoritario es ese comentario? ¿Quien está más dispuesto a comentar, el que tiene más tiempo o el que realmente consume el producto del que estás tratando de sacar información?
Digo esto porque estoy justamente en una reanálisis de un proyecto en el que llevo metido 5 años y he sacado ambas informaciones y según la que tomes puedes decidir distinto pero lo mejor, o lo que más me ha sorprendido, es que al implicar a personas ajenas al proyecto a participar del brainstorming la mayoría sólo se han fijado en la parte cuantitativa. Y supongo que lo hacían porque era más digeribles y entendibles… y te exigían menos tiempo de lectura. Eso nos lleva a que el problema somos nosotros, los que leemos, que nos falta tiempo para desarrollar razonamientos más críticos y más allá de un frío número.
Pero me encanta el debate que has sacado hoy.
Amalio Rey
David, a mí me encanta que te pases por aquí para dejarnos tu opinión.
Respecto del primer argumento, lo entiendo, pero solo tienen sentido los numeros si sirven realmente para medir lo que prometen. Es el titulo del post. A mí me consta que muchos indicadores utilizados no sirven para medir con justicia la eficacia y/o la calidad del trabajo realizado. Se apela a ellos para generar una falsa sensación de control => “Tengo numeros, pues estoy controlando”.
En el segundo punto, quiero diferenciar muy bien los estudios/proyectos que consisten en retratar una situación lo más fiel posible (por ejemplo, medir la intención de voto en unas futuras elecciones) de los que se dedican a identificar oportunidades de innovación. En este ultimo caso, la información cualitativa es poderosa, porque no es imprescindible trabajar con muestras estadísticamente representativas, dado que lo que se hace a menudo es explorar en los extremos de la campana de gauss, que es donde habitan las ideas disruptivas. Por otra parte, las oportunidades de innovación más sutiles no caben (casi nunca) en una tabla de Excel.
Ya dije al inicio del post que nadie me va a ver demonizando los indicadores. Me gustan los datos, pero solo los uso si dispongo de datos fiables. Si son ambiguos, prefiero la intuición.
Un abrazo
David Soler
Es verdad, no me expliqué bien, así que, con tu permiso, te explico el caso entero:
– Me he leído 10 encuestas de satisfacción del mismo producto que representan la opinión de unas 200 personas (el quid está en que no sabes quien hizo el comentario y cuantos opinan igual… es lo que decía en mi respuesta).
– He conseguido agrupar unos 300 comentarios en 4 grupos. Si haces un esfuerzo consigues hacerlo, diferiran en la forma de escribirlo o en un detalle concreto pero en el fondo expresan una opinión sobre la mejora del producto (sólo estaba investigando los comentarios negativos, eh? sólo me interesaba saber qué se podía mejorar).
– Al mismo tiempo esas 200 respuestas en 10 encuestas votan una serie de variables con una puntuación del 1 al 10… esas sí las responden todos. Y ahí empieza una parte del problema.
– En los debates/brainstorming sobre el producto la mayoría de comentarios de los que participábamos acabábamos en “sí, ok, dicen esto o lo otro pero fíjate que la puntuación que ponen a tal cosa es X”.
Bueno, es sólo un comentario, eh? Que conste que estoy de acuerdo con lo que dices en el post. Pero sólo quería compartir mi opinión porque es en lo que ando metido desde hace 3 meses.
Amalio Rey
Jo, qué lio, David. No me entero mucho del diseño de esa investigación. Empezando porque no entiendo bien qué quiere decir “10 encuestas de satisfacción del mismo producto que representan la opinión de unas 200 personas”. Si quieres datos cuantitativos fiables, necesitas un diseño consistente. Un saludo
David Soler
jaja… cierto, es un rollo. Pero para no dejarte con la duda: es en mi postgrado. Al final de cada edición, y llevo 10 hechas, pasamos una encuesta que responden una media de 20 alumnos. Por eso son 10 encuestas y 200 respuestas. Hay preguntas cerradas (valoraciones de 1 a 5) y preguntas abiertas. De las primeras responden el 100%, obvio. Las segundas no lo sé… Ahí estaba el tema. Na’ era por tener más debate. 😉
Celina
Amalio, agradezco tu interés de compartir tus reflexiones en los post.
Me encantan y me siento muy identificada en ellos.
Suelo compartirlos.
Saludos
Amalio Rey
Gracias, Celina 🙂