Un nuevo set de datos de quince millones de registros permite conocer cómo es el uso de fuentes bibliográficas en Wikipedia rastreando por identificador y en todos los idiomas.
En la Wikipedia en español, al tope de la lista de las fuentes más citadas en los artículos, hay un \»catálogo de peces\», un diccionario de planetas menores, una enciclopedia de películas argentinas, una guía de los pájaros cantores de América del Sur y un atlas de la cultura popular española.
Las referencias son la base de la fiabilidad de Wikipedia: trazan la conexión entre el contenido agregado por nuestra comunidad de voluntarias/os y sus fuentes de información. Para las y los lectores, las referencias proporcionan un mecanismo para validar y verificar que lo que Wikipedia dice es sólido y confiable; actúan como una puerta de entrada hacia un ecosistema más amplio de conocimiento confiable. En un esfuerzo por impulsar más investigaciones sobre el origen de la información en Wikipedia y celebrar el Mes de las Referencias Abiertas, nos preguntamos: ¿cuáles son las fuentes más citadas en las Wikipedias en todos los idiomas?
Para responder a esta pregunta, publicamos un conjunto de datos de cada una de las referencias bibliográficas que incluye un identificador en la totalidad de las 297 ediciones de Wikipedia. El conjunto de datos desglosa las fuentes citadas en cada idioma por identificador: PMID o PMC (para artículos en la literatura biomédica), DOI (para artículos académicos), ISBN (para ediciones de libros) o ArXiV ID (para preimpresiones).
¿Qué hay en los datos?
El set completo de datos, extraído del volcado de contenidos en Wikipedia del 1 de marzo de 2018, incluye un total de 15 693 732 registros y muestra variaciones importantes entre los idiomas en el tipo de fuentes que citan las y los colaboradores voluntarios. Dicho conjunto de datos solo incluye referencias que tienen identificador, lo que significa que no todas las referencias en Wikipedia se reflejan en este set de datos. Más allá de los registros incluidos en este conjunto, se citan muchas más publicaciones que no tienen identificador alguno (y nuestro próximo análisis podrá indicar qué porcentaje de referencias totales representa este set de datos).
¿Qué tipos de fuentes son las más citadas por idioma?
En promedio, la mayoría de las publicaciones citadas por identificador en todas las Wikipedia son libros. La Wikipedia en alemán (una de las 5 principales por número de artículos) se basa principalmente en información obtenida de ediciones de libros, con el 87% de las referencias en la categoría de ISBN. Por el contrario, la Wikipedia en inglés obtiene su información por igual en publicaciones académicas y libros, mientras que Wikipedia en árabe usa más publicaciones académicas que libros.
Los repositorios de preimpresión, como ArXiv, representan una minoría de las publicaciones, con menos del 2% de referencias en cada idioma y se utilizan de forma destacada en Wikipedia en árabe. Al menos el 5% de las publicaciones en árabe e inglés son publicaciones biomédicas de acceso abierto de PubMedCentral.
¿Cuán rápido crecen las referencias por idioma?
Si observamos el porcentaje del total de referencias agregadas a lo largo del tiempo, observamos que algunos idiomas, como el árabe y el español, se encuentran en una trayectoria de crecimiento constante a principios de 2018, mientras que la tendencia general (línea negra) se está aplanando. Dado que la cantidad de artículos en todos los idiomas continúa creciendo, esto sugiere que en algunos idiomas el índice de referencias se está desacelerando.
¿Con qué frecuencia se citan y reutilizan las fuentes en los artículos y en los distintos idiomas?
Hay 4.5 millones de fuentes únicas en el conjunto de datos extraídos. Mientras que en promedio cada fuente se cita 3.5 veces, la gran mayoría de las fuentes en este conjunto de datos se utilizan menos de 500 veces en las wikis. Solo nueve \»súper publicaciones\» se usan más de 10 000 veces.
¿Cuáles son las fuentes más citadas?
Como era de esperar, las y los wikipedistas aman las obras de referencia. Las 10 fuentes más citadas en todos los idiomas de Wikipedia son libros de referencia o artículos científicos que describen grandes temas. Muchas de estas publicaciones han sido citadas por wikipedistas en una gran cantidad de artículos utilizando potentes bots y herramientas automatizadas.
- Updated world map of the Köppen-Geiger climate classification: 2 830 341 referencias [doi.org/10.5194/hess-11-1633-2007]
- Prediction of Hydrophobic (Lipophilic) Properties of Small Organic Molecules Using Fragment Methods: An Analysis of AlogP and CLogP Methods: 21 350 referencias [doi.org/10.1021/jp980230o]
- The status, quality, and expansion of the NIH full-length cDNA project: the Mammalian Gene Collection (MGC): 20 247 referencias [doi.org/10.1101/gr.2596504]
- The de Vaucouleurs Atlas of Galaxies: 19 068 referencias [ISBN: 9780521820486]
- The Complete New General Catalogue and Index Catalogues of Nebulae and Star Clusters by J. L. E. Dryer: 19 060 referencias [ISBN: 9780933346512]
- Galaxies and How to Observe Them: 19 058 referencias [ISBN: 9781852337520]
- A Concise History of Romania: 15 597 referencias [ISBN: 9780521872386]
- Catalog of Fishes California Academy of Sciences: 11 980 referencias [ISBN: 0940228475]
- Dictionary of Minor Planet Names: 10 651 referencias [ISBN: 9783540002383]
- National and religious composition of the population of Croatia, 1880-1991: By settlements: 8230 referencias [ISBN: 9789536667079]
¿Por qué importan estos datos?
En primer lugar, esto nos permite analizar a gran escala de dónde obtiene su información Wikipedia. Comprender la procedencia de la información utilizada por las y los wikipedistas también nos permite descubrir las brechas relacionadas con los tipos de fuentes, idiomas y perspectivas que no están representados, lo que a su vez puede resultar útil a los esfuerzos de la comunidad para mejorar la cobertura en áreas de contenido marginado. Los datos también pueden ser reutilizados por editores, instituciones académicas y proyectos de investigación para comprender mejor cómo el público usa y encuentra sus obras.
Dado que se trata de un conjunto de datos con licencia libre (CC0), esperamos que investigadores e instituciones reutilicen y analicen este corpus en busca de tendencias para sus campos de interés y proyectos de investigación. Desde una perspectiva crítica, una lista de las fuentes más citadas también permite a las personas e instituciones colaboradoras intentar hacerlas más accesibles para los lectores y lectoras. Podemos ayudar a impulsar la digitalización y los esfuerzos de acceso abierto orientados a hacer que las fuentes más comúnmente referenciadas estén bajo acceso libre y gratuito en línea.
Finalmente, usando las referencias como un indicador, saber cuáles son los trabajos que respaldan nuestro conocimiento compartido nos permite entrever la comprensión popular: cómo sabemos lo que sabemos y acerca de qué sabemos más.
Reacciones de amigos y colaboradores
Dado que este conjunto de datos debería facultar a otras personas e instituciones para hacer sus análisis propios y sumar perspectivas a partir de las referencias de Wikipedia, les preguntamos a algunos de nuestros amigos y colaboradores qué pensaban.
\»Wikipedia desempeña un papel crucial en la democratización del acceso al conocimiento y en el enriquecimiento de nuestra comprensión del mundo\» dijo Heather Joseph, directora ejecutiva de SPARC (Scholarly Publishing and Academic Resources Coalition). \»Este nuevo conjunto de datos sobre referencias proporciona un nivel más profundo de transparencia y confiabilidad a su contenido y abre nuevos y emocionantes caminos para que las personas aprendan, innoven y alimenten su curiosidad\».
Geoffrey Bilder, Director de Iniciativas Estratégicas en Crossref, dijo: \»Estamos encantados de ver a la Fundación Wikimedia lanzar este conjunto de datos que muestra qué investigaciones se utilizan como referencia con mayor frecuencia en los artículos de Wikipedia. En los últimos diez años, hemos estado monitoreando el rápido crecimiento de enlaces entre Wikipedia e investigaciones. Parece que Wikipedia está asumiendo cada vez más el papel de \’artículo de revisión\’ y se convertirá en el punto de partida de facto para que los investigadores exploren temas con los que no están familiarizados. Esto significa que Wikipedia se ha convertido en una puerta de entrada real que lleva a los usuarios y usuarias a leer artículos de investigación publicados y, como tal, se ha convertido en uno de los mejores divulgadores de DOI en el mundo\».
Brewster Kahle, bibliotecario digital, observó: \»En Internet Archive creemos en el valor de la información verificable. Planeamos usar los datos sobre referencias que la Fundación Wikimedia ha publicado para orientar nuestras prioridades de digitalización, haciendo que los libros más importantes estén disponibles para los investigadores e investigadoras de todo el mundo. Visualizamos un futuro en el que cada cita y referencia en Wikipedia será un enlace vivo a un repositorio de confianza como Internet Archive, lo que permitirá a todos los usuarios y usuarias de Wikipedia verificar la información que encuentran en línea \».
\»Este conjunto de datos es una nueva forma poderosa de rastrear cómo el conocimiento pasa de la vanguardia de la investigación científica a las mentes colectivas más amplias de la humanidad como un todo\», dijo Jason Priem, cofundador de ImpactStory. \»Lo usaremos para ayudarnos a afinar nuestros esfuerzos con Unpaywall en nuestro objetivo de hacer que los artículos académicos sean abiertos y accesibles para todas las personas\».
¿Qué sigue?
Este trabajo amplía y complementa los datos publicados por primera vez en 2015, creados con una librería de Python diseñada por Aaron Halfaker y extendida por Bahodir Mansurov. Si planeas utilizar este conjunto de datos, te alentamos a citarlo utilizando su referencia canónica \»Citations with identifiers in Wikipedia” (alojado en FigShare).
Esta publicación de datos es solo un primer paso entre muchos por venir para entender cómo se usan las referencias en Wikipedia. En los próximos meses, nos enfocaremos en análisis adicionales de citas y referencias en proyectos de Wikimedia, para comprender cómo acceden las y los lectores a ellas, ya que nos importa que el público pueda verificar la información que cita Wikipedia. También continuaremos trabajando con personas e instituciones colaboradoras para promover el uso de estos datos y profundizar nuestra investigación sobre prácticas en materia de citas en Wikipedia.
A medida que Wikipedia se vuelve cada vez más arraigada en el ecosistema de conocimiento del mundo, como un recurso que pretende proporcionar información neutra basada en hechos en la que las personas puedan confiar, debemos comprender y cultivar nuestra cultura de referencias y asegurarnos de que podamos examinarla constantemente para combatir prejuicios, lagunas y omisiones.
Traducción del artículo What are the ten most cited sources on Wikipedia? Let’s ask the data, escrito por:
Miriam Redi, Wikimedia Foundation
Jake Orlowitz, Wikimedia Foundation
Dario Taraborelli, Wikimedia Foundation
Ben Vershbow, Wikimedia Foundation
Licencia Creative Commons Attribution 3.0 Unported (CC BY 3.0).
Traducción al español: Paula Domínguez Font.
Imagen de encabezado por Patrick Tomasso vía Unsplash, CC0.