Cómo subimos más de 40 mil imágenes de Sala de Medios a Wikimedia Commons

Disponibilizamos en Wikimedia Commons fotos de Montevideo con licencia Creative Commons y la comunidad de Wikimedistas de Uruguay fue clave para este logro.

Contenido

La Sala de Medios de la Intendencia de Montevideo (SdM – IM) comparte en su web las imágenes que produce con una licencia Creative Commons – Atribución – Compartir Igual (CC BY SA) desde el año 2018. Esta licencia permite utilizar y adaptar obras (incluyendo imágenes) en cualquier medio o formato y con cualquier propósito, siempre que se cite a quien la creó. Esta licencia es compatible con los proyectos Wikimedia, por lo que podíamos incorporarlas a Wikimedia Commons, y así dejarlas disponibles para ilustrar artículos en Wikipedia. Esto amplía la difusión de las imágenes, y las imágenes a su vez enriquecen los artículos y mejoran la experiencia de aprendizaje de quienes los consultan.

A partir de este trabajo, se subieron alrededor de 45.000 fotos de actividades, paisajes y situaciones en Montevideo. Estas fotos comprenden todas las fotos desde que la SdM – IM cambió su política de licenciamiento en el año 2018. Alrededor de 150 imágenes han sido incorporadas en artículos de Wikipedia.

A continuación, les contamos cómo llevamos adelante este proceso y el rol que tuvo la comunidad de Wikimedistas de Uruguay para la subida.

De la web de Sala de Medios a una planilla para Wikimedia Commons

Todas las fotografías de la SdM – IM se encuentran en esta web. El índice de fotografías muestra una vista previa, el nombre de archivo, el título, la fecha, algunas palabras clave y el enlace de descarga de la fotografía. 

Como contamos en el post sobre la subida del archivo fotográfico del Centro de Fotografía de Montevideo, utilizamos OpenRefine para la subida masiva de datos a los proyectos Wikimedia. Para ello siempre necesitamos una planilla. En este caso, necesitamos una planilla que contenga el enlace de descarga del archivo y los metadatos con los que queremos describirlo.

Para crearla, programamos un script en Python con la librería BeautifulSoup. Este script realiza las siguientes tareas:

  1. Recorre las más de 2.000 páginas del índice de fotografías y guarda los datos sobre cada imagen.
  2. Provee una descripción por defecto a las fotos que no tienen título.
  3. Crea un nombre de archivo válido para Wikimedia Commons (único y descriptivo) a partir del título de la foto y el nombre del archivo original.
  4. Crea el wikitexto.

El wikitexto y los datos estructurados

El wikitexto es el texto de lenguaje marcado que indica a Wikimedia Commons cómo se verá el resumen que aparece debajo del archivo. Contiene también el recuadro de la licencia y las categorías de la imagen. Openrefine no permite subir archivos a Wikimedia Commons sin incluir un wikitexto.

https://commons.wikimedia.org/wiki/File:1_reunion_de_Ciudades_Solidarias_en_las_Americas_de_ACNUR_-ONU-_26042024divisionrelacionesinternacionalesje0002-15.jpg

La forma más potente de incluir metadatos en Wikimedia Commons es con datos estructurados: son multilingües y legibles por máquinas. También hablamos sobre datos estructurados en este post

Los datos estructurados son la forma más eficiente de incluir metadatos en Wikimedia Commons. Como son legibles por máquinas y multilingües, mejoran la accesibilidad de las imágenes y permiten búsquedas más avanzadas. Nos interesa especialmente capturar en datos estructurados propiedades como el autor de la foto, las personas o elementos representados, la fecha y la licencia de uso.

Cuando una imagen en Wikimedia Commons tiene suficientes datos estructurados no es necesario incluir estos datos explícitamente en el wikitexto. 

El wikitexto puede ser tan simple como una plantilla de información, que se encargará de mostrar los principales datos estructurados de la imagen en forma de tabla, que es un formato amigable y ya conocido por la comunidad editora de Wikimedia. 

Resumen de una imagen generado con la plantilla {{Information}}, a partir de los datos estructurados de la imagen.

Para las fotos de Sala de Medios complejizamos un poco el wikitexto para:

  • explicitar en el resumen de la fotografía que la foto pertenece a la colección “Sala de Medios”,
  • mostrar una plantilla de permisos creada por el usuario EZarate específicamente para estas fotos,
  • incluir las palabras clave con las que Sala de Medios describe sus fotografías (lo que en su web aparece como “categorías”).

Incluir estas palabras clave en el wikitexto mejora las chances de que las fotos sean encontradas en Wikimedia Commons, y nos facilitará en el futuro la tarea de representar esa información como categorías y como datos estructurados de Wikimedia Commons. 

Extracto del resultado de correr el script.

Corrimos el script varias veces, recorriendo alrededor de trescientas páginas por vez. Obtuvimos planillas que contenían una fila para cada imagen con su enlace de visualización y de descarga, y los metadatos que aparecían visibles en la web. Pero aún no contábamos con otro dato de interés: el autor de la fotografía, que en la web de Sala de Medios no aparece. Este dato es relevante porque una de las condiciones de la licencia Creative Commons que utiliza Sala de Medios es atribuir a la persona creadora de la obra. Nos parecía importante reconocer la labor de quienes producen las fotografías, más allá del autor institucional.

Si descargamos algunas fotos al azar de la web de Sala de Medios, podemos ver que la mayoría de ellas contienen el nombre del autor en los datos EXIF. Estos datos son automáticamente creados por la cámara al tomar la fotografía, o bien modificados o agregados en un software de edición de fotografías.

Si bien Wikimedia Commons muestra los datos EXIF de cada imagen en un recuadro, esto no es muy útil para hacer búsquedas y no es intuitivo ir a este recuadro a buscar esta información.

La manera más adecuada de representar este metadato en Wikimedia Commons es con datos estructurados. Al completar el dato de “creador” de la imagen, nuestro wikitexto lo mostrará también en el resumen de la imagen.

Entonces, descargamos todas las imágenes para procesarlas localmente, y utilizamos la librería exiftool para agregar a la planilla ya existente el nombre de los autores de las fotografías.

Una tarea comunitaria: selección y subida con OpenRefine

Con todo este trabajo previo de automatización, estábamos listos para repartir las tareas. El objetivo de este proyecto también era que otras personas voluntarias wikimedistas aprendieran a utilizar OpenRefine y comprendieran mejor cómo se pueden subir datos de manera masiva a Wikimedia Commons.

Para ello, diseñamos un pequeño manual de subida donde dimos las indicaciones técnicas para hacer el trabajo y definimos un criterio de selección de las imágenes. Si bien las fotos de Sala de Medios en su mayoría están tomadas en el espacio público, decidimos omitir aquellas imágenes donde aparecían infancias y menores de edad reconocibles, personas en situaciones de vulnerabilidad, patentes de auto legibles, entre otros criterios que buscaron resguardar la privacidad y respetar la autonomía de las personas. 

Para poder dividir el trabajo entre los 7 compañeros Wikimedistas que nos apuntamos a la tarea, partimos (con más código en Python) las planillas originales en 40 planillas de 1.500 fotos cada una. Además del manual, hicimos un taller sincrónico vía Zoom donde explicamos el proceso y los criterios de selección y resolvimos dudas.

Para hacer la selección de forma ágil, utilizamos la funcionalidad de Google Sheets que permite importar una imagen en una planilla a partir de una URL. De esta manera podíamos ver una vista previa de cada foto, junto a sus metadatos, y podíamos recorrer la planilla marcando las fotos a ser descartadas.

Esto también nos permitió paralelizar el trabajo, ya que mientras algunos wikimedistas seleccionaban fotos, otros subíamos con Openrefine las fotos de las plantillas ya revisadas.

Agradecemos a los integrantes de Wikimedistas de Uruguay: Pepe piton, BiblioJu, AdrianManera y LaDuvija, que se anotaron para trabajar en este proyecto. La manera en que distribuimos las tareas implicó que el trabajo de selección no quedara reflejado en contribuciones de usuario en Wikimedia Commons, pero el trabajo de selección fue indispensable para avanzar en la subida. ¡Doblemente gracias!

Algunas de acciones a realizar en Openrefine eran:

  • Abrir una planilla, luego de que ya haya sido revisada.
  • Aplicar un filtro para dejar por fuera las fotos que habían sido marcadas para descartar.
  • Limpiar los nombres de archivo y las descripciones de caracteres no aceptados, espacios repetidos, etc.
  • Cotejar los nombres de los autores contra Wikidata, para poder enlazar cada foto con su autor.

Openrefine necesita un esquema para poder identificar qué columnas contienen la información de qué datos de la imagen. El programa permite exportar e importar este esquema. Esta funcionalidad nos evitó trabajo repetido e hizo que fuera más fácil lograr homogeneidad en los metadatos de todas las fotos, aún cuando fuimos varias personas distintas quienes ejecutamos la subida.

Parte del esquema de Openrefine.

Una vez realizadas todas estas acciones de preprocesamiento, Openrefine se encargaba de subir las fotos con sus datos a Wikimedia Commons. Subir cada una de estas planillas podía tomarle a Openrefine alrededor de 4 horas.

La API de Wikimedia Commons devuelve una advertencia al intentar subir fotos que reconoce como duplicados de las fotos que ya existen en el repositorio.

Advertencia de posible duplicado en la consola mientras Openrefine ejecuta la subida.

Si bien Openrefine aún no muestra este tipo de errores de una manera muy amigable, esta restricción fue de gran ayuda, ya que varias las fotos de Sala de Medios habían sido subidas anteriormente por otras personas y no teníamos una forma práctica de identificarlas.

Sala de Medios en los proyectos Wikimedia

En esta subida inicial subimos 43.737 imágenes, que aparecen en esta categoría.

Más de 150 imágenes de Sala de Medios ya se están utilizando en las Wikipedias de distintos idiomas. Ilustrando artículos variados, algunos especialmente relevantes para Uruguay y otros de interés general. Algunas fotos son vistas cientos de veces al día.

Esta foto tomada durante una conmemoración del día de la nación Charrúa ilustra el artículo de Wikipedia Charrúas, que recibe unas 5.000 visitas al més. La fotografía tiene un promedio de 60 visualizaciones diarias y más de 3.000 visualizaciones en total.

La foto de Nery Pumpiro sosteniendo el trofeo en la final de la Copa Libertadores 2021 ilustra el artículo de Wikipedia Copa Libertadores de América, que recibe alrededor de 140.000 visitas al mes. La fotografía tiene un promedio de 225 visualizaciones diarias, y más de 12.000 visualizaciones en total.

El retrato de Peter Burke durante su declaración de visitante ilustre de Montevideo ahora completa la propiedad “imagen” de la ficha del historiador en Wikidata. Con esto, aparece en su biografía de Wikipedia en 9 idiomas, incluido español. La biografía recibe más de 600 visitas al mes en la Wikipedia en español y más de 1.800 en la Wikipedia en inglés. La imagen tiene un promedio de 50 visualizaciones diarias y en total fue vista más de 12.000 veces.

Conteos de visualizaciones extraídos del GLAM Wiki dashboard.

A partir de este trabajo, ya nos encontramos en condiciones de hacer este proceso mes a mes. La propuesta es continuar repartiéndonos las tareas de selección y subida de las imágenes con la comunidad wikimedista. Involucrarse en este proceso es una gran oportunidad para ganar experiencia en el manejo de Openrefine, aumentar rápidamente su cantidad de contribuciones e identificar algunas fotos que les interese incluir en artículos de Wikipedia de su interés. 

En 2025, estaremos realizando actividades para integrar estas fotografías a los artículos de Wikipedia y colaborar en la mejora de sus datos y descripciones en Wikimedia Commons. Si te interesa sumarte, suscribite a nuestro boletín mensual de novedades.

Imagen de portada: Explanada IM por el Día mundial de Concienciación del autismo. Autoría: Media Room Intendencia of Montevideo, CC BY-SA 4.0, vía Wikimedia Commons.