Pantheon Project: Lo que debes saber del Índice de Popularidad Global de personalidades
POST Nº 654
Imagina, por un momento, que estas debatiendo con tus amigos, o en familia, sobre quién es el personaje sevillano más famoso de toda la historia, o cuáles son las diez figuras políticas españolas más conocidas, o quiénes son los cinco músicos más célebres en el mundo, y seguramente habrá opiniones para todos los gustos. Será difícil ponerse de acuerdo. Es un juego de la memoria, muy tramposa por sesgada y selectiva. Pero resulta que hay una forma de responder a esas preguntas a partir de datos objetivos, mediante un método que -aunque tiene sus limitaciones- es más confiable que el juicio arbitrario.
Se llama Pantheon Project, un proyecto desarrollado por el Massachussets Institute of Technology (MIT) que identifica a los personajes más famosos por ocupaciones, épocas y ubicaciones. En lugar de hacerlo por el número de búsquedas en Google, que es un procedimiento mediado por el algoritmo además de cortoplacista y demasiado condicionado por la geolocalización; mide la “fama global” de cada personaje según el número de idiomas en que aparecen biografías suyas en la Wikipedia, además del número de visitas y otros datos de esa enciclopedia. El listón para entrar al “panteón” ha subido. A la fecha de publicar este post, para ingresar en esa suerte de “salón de la fama global” la persona tenía que haber sido incluida en al menos 25 ediciones de lenguas diferentes de la Wikipedia, mientras que antes -cuando se inició el proyecto- ese umbral era de 15, y por eso hoy aparecen en la web muchas entradas que satisfacen ese piso mínimo más bajo. Este requisito reduce esas celebridades a unas 85 mil biografías en toda la historia de la humanidad, que son las que documenta el proyecto.
Entremos en detalle, porque se trata de un proyecto apasionante y que engancha a las personas más curiosas. Aquí tienes un listado de los temas, por si quieres ir directamente a alguno de ellos:
- ¿Qué es y qué significa?
- ¿Quiénes están detrás del proyecto?
- Métricas que utiliza
- Un ejemplo para entenderlo
- Fiabilidad del índice
- Limitaciones
- Búsquedas curiosas que realicé
- En resumen
Veamos ahora cada tema por separado.
¿Qué es y qué significa?
El objetivo de Pantheon Project es “explorar la memoria colectiva humana”, aportando perspectiva histórica y sobre todo una mirada global de las figuras que han tenido una visibilidad más notoria. Esto es así porque en la gestión de los datos busca corregir el sesgo del inglés en Internet, utilizando estadísticas de visitas a páginas que están en otros idiomas y otorgando una especie de “prima” a las biografías que tienen presencia en varias lenguas y no concentran las visitas solo en alguna de ellas. Por eso se podría decir que es probablemente el único ranking de “personalidades globales” que existe, y lo es porque incluye individuos que han conseguido trascender los límites lingüísticos, temporales y geográficos.
Pantheon Project organiza las biografías que cumplen ese requisito multi-idiomas por países, ciudades, ocupaciones y épocas. Según explican sus creadores, con ello pretenden “celebrar nuestro patrimonio cultural global” identificando esos personajes “históricamente relevantes” que han dado forma a lo que somos y cómo nos reconocemos. Federico Leva, editor de Wikipedia, es más preciso y prefiere llamarlo: “índice de popularidad moderna de figuras históricas”.
Antes de seguir, dos advertencias importantes. La primera, cuando se habla de “índice de popularidad”, no significa el grado de aceptación en positivo que tiene una figura, sino simplemente su notoriedad, o sea, en qué medida se le recuerda y es conocida por mucha gente. Insisto, es notoriedad en la memoria de la gente y no reputación, que sí implica un juicio de valor. Quizás por eso el término “fama” explica mejor que “popularidad” lo que esta web captura. La segunda, que este directorio prima sobre todo el alcance o visibilidad global de cada personaje, y penaliza a aquellos que son fenómenos populares en pocos países.
¿Quiénes están detrás del proyecto?
Pantheon es una colaboración entre muchas personas. La versión 1.0 (2013-2018) fue un proyecto del grupo de Aprendizaje Colectivo del MIT, bajo la supervisión del profesor Cesar A. Hidalgo. Pantheon 2.0 (desde 2019 hasta hoy) se ha desarrollado por Datawheel, una empresa especializada en la creación de soluciones de distribución y visualización de datos, también bajo la supervisión de Hidalgo.
Cosas que permite hacer
Pantheon Project es un espacio de descubrimiento que, como dije, engancha. Se puede pasar uno jugando con las búsquedas un largo rato. A veces los resultados son los esperados, pero en otras bastante sorprendentes por contraintuitivos. Los listados que genera son, en apariencia, bastante robustos, dentro de las limitaciones que tiene el método (hablo de esto más adelante).
Permite realizar las búsquedas de personajes ilustres, personalizando los filtros por estas variables o dimensiones:
- Lugares: tanto por países como por ciudades, de nacimiento y donde murieron.
- Ocupaciones: según una extensa taxonomía de profesiones.
- Períodos de tiempo: fecha de nacimiento (y de defunción) desde 3501 AC hasta 2020.
- Género: hombres o mujeres.
A partir de esos filtros, es posible generar rankings de personas, sitios y ocupaciones, con interesantes visualizaciones. O sea, puedes averiguar quiénes son los personajes más populares del mundo, pero también cerrar la búsqueda buscando quiénes son los de un país (o ciudad) en concreto para determinado período y ocupación.
Hay una opción muy divertida de “profiles” (perfiles) que es impresionante y una especie de atajo que permite abrir monográficos con todos los datos recogidos por esta página para personalidades, países, ciudades, ocupaciones, combinación de países/ocupaciones y períodos de tiempo que llama épocas o “eras”. Al elegir esa opción del menú, te aparece por omisión el perfil de un personaje seleccionado de forma aleatoria, con todos sus datos. Pero puedes pulsar en el símbolo de búsqueda que aparece en el extremo superior derecho, y poner cualquier otro personaje, ciudad, ocupación, y la página te entrega un informe completo de lo que hayas pedido. Por ejemplo, probé con “diseñadores de juegos” (game designer), y me dio un ranking de: a) los más famosos que están vivos, b) entre los que ya han fallecido, c) los agregados recientemente en 2020, d) la distribución por países y ciudades, e) la concentración temporal, y un enlace a informes de ocupaciones relacionadas. ¡¡es fantástico!!
Otra función muy interesante es la de anuario, que proporciona un resumen de las celebridades nacidas cada año durante el siglo XX, ordenadas en un ranking por su popularidad histórica. Esto me permitió saber, por ejemplo, que los cuatro personajes más “famosos” del mundo nacidos en el año 1928 fueron, en este orden: 1º) Che Guevara, 2º) Ennio Morricone, 3º) Stanley Kubrick, 4º) Andy Warhol. Por cierto, Noam Chomsky aparece en el puesto 7º. Pasearse por estos anuarios es un ejercicio curioso porque permite darse cuenta de que algunos años fueron mucho más prolíferos y generosos que otros si se echa un vistazo a la calidad de los nacimientos 🙂
Métricas que utiliza
Ya sabes que siempre que presento algo en este blog, me gusta entrar en la cocina y explicar cómo se llega a un resultado. Importa el qué pero también el cómo, porque con el cómo es que realmente se aprende. Además, creo que este es un ejemplo bastante didáctico del tipo de cosas que se pueden hacer con los datos, y también de los sesgos en que se puede incurrir cuando se procesan a través de algoritmos, ¿a qué sí, Julen?
Voy a dedicar un momento a tratar de explicar las “métricas de memorabilidad” que usa el proyecto para construir sus rankings de popularidad global de los personajes que registra. A grandes rasgos, son estas variables:
- L: número de idiomas en los que una biografía está presente en Wikipedia => es una primera aproximación de su fama global porque apunta a individuos asociados con logros o eventos que se han observado a escala mundial.
- L*: Idiomas efectivos => distribución de las páginas vistas de un personaje en los distintos idiomas en que hay biografías (este factor ajusta “L” para castigar las páginas que concentran la mayoría de las visitas en unos pocos idiomas)
- PV: Número de páginas vistas de esa biografía de la Wikipedia en idiomas distintos del inglés -en los últimos 6 meses- para reducir aún más cualquier sesgo hacia ese idioma.
- CV: Coeficiente de variación => estabilidad de las páginas vistas a lo largo del tiempo para descontar personajes que tienen períodos muy cortos de popularidad.
- A: La “edad” del personaje teniendo en cuenta el tiempo transcurrido desde su nacimiento hasta el momento actual.
- HPI: Índice de Popularidad Histórica
Un ejemplo para entenderlo
Para que se entienda mejor, pondré un ejemplo del uso de estos datos comparando dos personajes de la política norteamericana (y global): Donald Trump y Barack Obama. Esta tabla resume los datos de cada uno, salvo la variable “A” (edad o antigüedad del personaje) que no aparece en los registros públicos, pero que en este caso es poco relevante porque se trata de dos figuras de la misma época. Para eso hice una búsqueda de “políticos” de “Estados Unidos” sin filtrar nada en el rango temporal, o sea, “de todos los tiempos”, y obtuve este resultado:
L | L* | PV | CV | HPI | Puesto | |
Donald Trump | 213 | 20.57 | 10M | 3.83 | 94.95 | 1º |
Barack Obama | 233 | 6.70 | 4.8M | 9.25 | 73.78 | 27º |
Repasemos los datos. Obama aparece en 233 ediciones/idiomas de la Wikipedia, mientras que Trump en veinte menos pero, en términos efectivos, el segundo recibe un número de visitas significativas en 20-21 idiomas, mientras que Obama en solo 6-7 de esas versiones. Por decirlo de otra manera, aunque el segundo merece biografías en más lenguas, la distribución de páginas vistas entre esas ediciones (L*) es mucho amplia en el primero, con estadísticas de “consultas efectivas” en distintos idiomas que son muy superiores. Lo mismo puede decirse del número de páginas vistas en idiomas distintos al inglés (PV), lo que refleja que Trump es un personaje más global que Obama, lo más seguro por el ruido y el daño que ha hecho. En ambos indicadores hay seguramente un efecto de actualidad que favorece a Trump, que se disipará a medida que nos alejemos del término de su mandato, y no sé bien cómo el algoritmo de Pantheon ajusta esto para que no sesgue demasiado. El coeficiente de variación (CV), en cambio, favorece mucho a Obama, lo que indica que se trata de una figura con más “fijador” en el tiempo, o sea, con una notoriedad que va a perdurar más, algo que es consistente con el comentario anterior. Al final, Trump consigue aparecer en el primer puesto entre los políticos norteamericanos de todos los tiempos, mientras que Obama en el 27, ¿sorprende, no? Este es un ejemplo para entender lo que significa “fama” o “notoriedad”, un concepto neutral que indica visibilidad, en vez de “popularidad” en términos positivos de aceptación. Sería interesante ver qué pasa con los puestos que ocupan ambos exmandatarios dentro de, por ejemplo, veinte años; y si el efecto Trump se va evaporando y desplomándose en posiciones. El tiempo dirá 🙂
Fiabilidad del índice
Para poder juzgar mejor la fiabilidad del resultado, echo en falta conocer el algoritmo que utiliza el sistema para calcular el HPI, y sobre todo los factores de ponderación que asigna a cada variable. Sin eso es difícil examinar su tendencia a los sesgos. Como aspecto positivo, la base de datos que usa Pantheon es robusta. Recoge los que genera de forma automática la Wikipedia, pero los enriquece con: (a) información demográfica verificada manualmente (lugar y fecha de nacimiento, género, etc.) (b) una taxonomía de ocupaciones que clasifica cada biografía en tres niveles de agregación.
Los resultados de una investigación publicada en la revista Nature (2016) revelan que las medidas de popularidad (L y HPI) mantienen una alta correlación con los éxitos individuales identificados a partir del libro de Charles Murray “Human Accomplishment”, que examina las contribuciones más sobresalientes a las artes y las ciencias desde la antigüedad hasta mediados del siglo XX. También han sido comparadas muy favorablemente con otras medidas externas de logro en juegos y deportes individuales como el tenis, natación, ajedrez, etc. Este contraste sugiere, según sus creadores, que las medidas de popularidad global utilizadas “representan el impacto histórico de esos individuos”.
Limitaciones
El método seguido por Pantheon Project para sus rankings tiene también algunas limitaciones, reconocidas por sus propios creadores:
1. El uso de Wikipedia como fuente de datos:
Los editores de la Wikipedia (que son los que deciden crear los artículos con las biografías) tienen sesgos como especialistas, y no pueden considerarse una muestra representativa de la población mundial. También tienen sesgos en el idioma (inglés), en su origen y educación occidental, en el género (mayoría hombres), y tienden a ser altamente educados y técnicamente orientados. También son más frecuentes entre los países desarrollados con un acceso más extendido a Internet. Finalmente, Wikipedia también tiene un sesgo de actualidad, ya que los eventos actuales y las personas contemporáneas suelen recordarse más y esto hace que sean sobrerrepresentadas por los editores de biografías si se comparan con figuras más antiguas.
2. El uso del lugar de nacimiento para asignar ubicaciones:
Los individuos fueron asignados a ubicaciones geográficas utilizando su lugar de nacimiento, según los límites políticos actuales. Existen sesgos que deben tenerse en cuenta al utilizar este método de asignación de ubicación. Un problema importante es la dificultad de detectar los casos de personas que se hicieron conocidas mundialmente después de emigrar a otro país. ¿Neruda, Picasso o Hemingway serían tan famosos si no hubieran participado de la escena artística parisina? El lugar donde nació una persona puede diferir del lugar donde esa persona hizo sus contribuciones más importantes. Por eso se intenta ajustar o corregir en parte este sesgo con la opción de hacer búsquedas también por el lugar donde fallecieron, pero aquí puede volver a pasar lo mismo: que la persona haya muerto en un sitio distinto a donde tuvo éxito.
Búsquedas curiosas que realicé
La exploración se me hizo bastante divertida, ¡¡un invento increíble para procrastinar!! Me puse a hacer búsquedas filtrando por pares de variables o desplegando rankings por países, ciudades y ocupaciones. Algunos rankings me resultaron chocantes, dándome la impresión de que contenían sesgos significativos, y los tiene, aunque siempre cabe la duda de que el de los sesgos sea yo por suponer resultados distintos a los reales.
A modo de ejemplo, estas son algunas búsquedas que hice:
- Por género se nota, como era de esperar, la representación hegemónica -casi absoluta- de los hombres dentro del imaginario histórico popular que aparece documentado en este tipo de soportes. De los cien primeros personajes del ranking mundial de todos los tiempos, ¡¡solo cuatro son mujeres!! La primera solo aparece en el puesto 40º, y es la reina Isabel II de Inglaterra.
- Pero la cosa cambia mucho, y da motivos para la esperanza, cuando hice la misma búsqueda para personas nacidas a partir de 2000, porque aparecen 3 mujeres entre los 5 jóvenes más populares a escala global, ocupando estos puestos: 1º) Billie Eilish, 2º) Greta Thunberg, 5º) Millie Bobby Brown.
- Los 5 personajes más populares a escala global según datos de 2020 son, en este orden: Mahoma, Genghis Khan, Leonardo Da Vinci, Isaac Newton y Beethoven. El primer español es un malagueño, Pablo Picasso, ocupando el puesto 51º.
- Los españoles nacidos a partir de 1970, que aparecen en más versiones de la Wikipedia, o sea, en más idiomas, y que por tanto se suponen más globales, son estos cinco (pongo entre paréntesis el número de versiones): 1º) Rafael Nadal (104), 2º) Fernando Alonso (99), 3º) Penélope Cruz (93), 4º) Andrés Iniesta (90), 5º) Iker Casillas (88).
- Algunos números uno por ocupaciones: 1º) Políticos: Napoleón, 2º) Músicos: Freddie Mercury, 3º) Cantantes: Elvis Presley, 4º) Periodistas: Robert Capa, 5º) Politólogos: Zygmunt Bauman.
- Las tres ocupaciones más representadas a nivel mundial (con bastante diferencia del resto) son: 1º) Políticos, 2º) Jugadores de futbol, 3º) Actores/actrices. Y en España: 1º) Jugadores de futbol, 2º) Políticos, 3º) Escritores, 4º) Actores, 5º) Ciclistas.
- Hay ocupaciones muy curiosas para hacer búsquedas. Comparto algunas, indicando en cada caso los número uno en su ranking. Actor pornográfico: Ilona Staller, Artistas de comic: Stan Lee, Celebridades: Wallis Simpson, Arbitro: Pierluigi Collina (el primer español, por cierto, es Luis Medina Cantalejo, en el puesto 26º), Mafiosos: Pablo Escobar, Diseñadores de juegos: Shigeru Miyamoto, Youtubers: PewDiePie, o Chef: Julia Child.
- Las figuras más populares globalmente de Málaga, mi ciudad, son: 1º) Pablo Picasso, 2º) Antonio Banderas, 3º) Solomon Ibn Gabirol (filósofo), 4º) Ibn Al-Baitar (biólogo), 5º) Jesús Franco (director de cine). El gran Chiquito de la Calzada ocupa el puesto 11º, y aparece en 28 versiones de la Wikipedia, cosa que me ha sorprendido mucho porque yo daba por hecho que era un personaje estrictamente local.
- Las cinco ciudades que tienen más biografías en el Panteón son: 1º) New York, 2º) Paris, 3º) Roma, 4º) Londres, 5º) Moscú. Y en cuanto a países, son estos diez los que ocupan los primeros puestos: 1º) Estados Unidos, 2º) Reino Unido, 3º) Alemania, 4º) Francia, 5º) Italia, 6º) Japón, 7º) Rusia, 8º) España, 9º) Brasil, 10º) Polonia.
- Una nota desconcertante: cuatro actores porno españoles como Nacho Vidal, Rebeca Linares, Jordi ENP y Toni Ribas ¡¡ya entraron al Panteón!! Rebeca, por ejemplo, aparece en nada menos que 29 ediciones de la Wikipedia, mientras que Vidal en 25. Sin embargo, busco funcionarios públicos, jueces o científicos computacionales y no hay todavía ningún español. Otro dato que puede incordiar a muchos es que, en el apartado de periodistas solo dos españoles han entrado en el Panteón, y resulta que una de ellos es -nada menos y nada más- que Sara Carbonero, cuya biografía aparece en ¡¡25 ediciones de la Wikipedia!! (el otro es Joaquín Navarro-Valls). Te puedes enfadar con ese resultado, incluso cuestionarte su fiabilidad, pero yo intuyo que refleja la cruda realidad de cómo el mundo elige a sus celebridades y estas ocupan un espacio en la memoria colectiva.
Hay muchas más posibilidades, pero ya he hecho bastante spoiler así que dejo que tú mismo/a pruebes por tu cuenta.
En resumen
Siendo consciente de la cantidad de sesgos que puede contener una fuente como esta, hasta el punto de que los creadores reconocen que no se trata de una aproximación científica con todo el rigor que merecería para tomarse los resultados al pie de la letra; tengo que decir que uno se pasa un rato muy divertido jugando con este juguetito, así que lo recomiendo. También pienso que aunque nos molesten algunos resultados, y tendamos a cuestionarnos el método de medir el índice cuando vemos algunos; opino que -visto en general- no están tan lejos de cómo nuestra cultura identifica a sus figuras más populares.
A pesar de esas limitaciones, se ha hecho mucha investigación utilizando esta base de datos, y seguramente habrá mucha más. Por ejemplo, ha permitido explorar el papel de los políglotas en la difusión global de la información generada por el hombre, la desigualdad de género, y los prejuicios presentes en la información histórica en línea. Un estudio que reseña El País evidencia cómo la llegada de cada nueva tecnología de la comunicación generó su propio “panteón de ilustres”. Los datos demuestran una relación entre la emergencia de la imprenta, la radio o la televisión con los cambios de patrón de las ocupaciones más destacadas. Por ejemplo, de los militares y profetas de la historia oral se pasó a los jugadores de fútbol, actores y cantantes de la era de la televisión.
NOTA: Si te ha gustado el post, puedes suscribirte para recibir en tu buzón las siguientes entradas de este blog. Para eso solo tienes que introducir tu dirección de correo electrónico en el recuadro de “suscríbete a este blog” que aparece a continuación. También puedes seguirme en Twitter o visitar mi otro blog: Blog de Inteligencia Colectiva
Julen
Se ve que te ha entusiasmado el juguete. Supongo que es evidente que todo está condicionado por la muestra de datos. De un tiempo a esta parte (el amigo Iván, tras tanto tiempo, me ha abierto los ojos) cada vez creo que desde Occidente nos estamos contando una historia para fortalecer el círculo vicioso en que vivimos. Desde luego que un juguete como este es fantástico para explicitar nuestros sesgos. La “fama” es algo que hoy forma parte del circo del capitalismo global. Parecería que la sociedad del espectáculo lo ha invadido todo. Futbolistas hombres que mueven masas de la mano de una hiperdivulgación de sus supuestas gestas. Es lo que hay.
Tras el inevitable refunfuño, creo que Pantheon Project pinta muy bien. Es el reflejo de nuestros tiempos. Esto incluye la perversi´ón de cuáles son las variables que se utilizan… porque no pueden ser otras. La fama se construye como se construye. Y en esto, no hay duda, las grandes instituciones de las que nos ¿fiamos?, sean el MIT, Harvard, The Economist, las big four o cualquier gran periódico, viven esclavas de su público y de sus patronos (explícitos o implícitos).
En resumen, me parece un fantástico juguete para hablar de sesgos. No me cabe la menor duda. Seguro que refleja el mundo del siglo XXI como nadie antes ha sido capaz de presentarlo: a partir de datos sesgados.
Amalio Rey
Sip, muchos resultados que genera este proyecto molestan, son tan incómodos que incluso crean dudas sobre el método, pero son “el reflejo de nuestros tiempos”. También, como dices, es una herramienta interesante para hablar de sesgos. Un saludo