Hace 2 meses | Por TDI a blogs.lse.ac.uk
Publicado hace 2 meses por TDI a blogs.lse.ac.uk

Los repositorios de datos de investigación desempeñan un papel fundamental para garantizar que la investigación sea reproducible, replicable y reutilizable. Sin embargo, la infraestructura que los sustenta puede ser impermanente. A partir de un nuevo conjunto de datos, Dorothea Strecker, Heinz Pampel, Rouven Schabinger y Nina Leonie Weisweiler analizan la frecuencia con que se cierran los repositorios de datos y proponen medidas para garantizar su conservación a largo plazo.

Comentarios

g

En bioinformática se usan mucho, pero suele ser bastante lejos de ser ideal. Clasificar todos esos datos no es trivial, y muchas veces los metadatos fallan. Intentas reproducir los resultados de un artículo y es muy dificil. Falta información sobre las muestras, tratamientos y otros factores.
Lo que interesa a un autor de un artículo es publicar el mismo. La consistencia de los datos no influye en las posibilidades de publicación. Con subir los datos a un repositorio y conseguir un número de acceso vale. La consistencia de los mismos no importa mucho.
 

TDI

Los repositorios de datos de investigación, como Zenodo o el Archivo de Datos del Reino Unido, son infraestructuras de información especializadas que se centran en la conservación y difusión de datos de investigación. Una de las principales tareas de los repositorios es mantener sus colecciones a largo plazo; véanse, por ejemplo, los Principios TRUST o los requisitos de la organización de certificación CoreTrustSeal. La preservación a largo plazo también es un requisito previo para varias prácticas de datos que están recibiendo cada vez más atención, como la reutilización y la citación de datos.

Para que los datos sigan siendo utilizables, las infraestructuras que los albergan también deben mantenerse operativas. Sin embargo, el funcionamiento a largo plazo de los repositorios de datos de investigación es difícil y, a veces, por diversas razones y a pesar de los esfuerzos realizados, se cierran. Sabemos por investigaciones anteriores que hay que prever el cierre de repositorios, pero la investigación se limita actualmente a disciplinas y tipos de repositorios específicos.

Por ello, en un estudio reciente nos propusimos adoptar una perspectiva de infraestructura sobre la conservación a largo plazo de los datos de investigación investigando los repositorios de distintas disciplinas y tipos que habían cerrado. También intentamos estimar el impacto del cierre de repositorios en la disponibilidad de los datos.

Para obtener una perspectiva más amplia sobre el cierre de repositorios, basamos el muestreo en el registro re3data. re3data es actualmente la fuente de información más completa sobre repositorios de datos de investigación, con más de 3000 registros. Revisamos cada repositorio que el registro consideraba cerrado y, tras aplicar nuestros criterios de inclusión, identificamos 191 repositorios cerrados. Para recopilar información sobre el proceso de cierre, analizamos los sitios web de los repositorios, tanto la versión actual como las versiones archivadas por Internet Archive, así como recursos adicionales como documentos de datos que describen los repositorios. El conjunto de datos resultante está publicado y es de libre reutilización.

Descubrimos que el cierre de repositorios no era raro: el 6,2% de todos los repositorios listados en re3data habían cerrado. Desde el lanzamiento del registro en 2012, cada año se ha cerrado al menos un repositorio (véase la figura 1). La edad media de un repositorio en el momento de su cierre fue de 12 años.

Para la mayoría de los repositorios de la muestra (120), el motivo del cierre seguía siendo desconocido. Para el resto, los riesgos conocidos que provocaron el cierre fueron fallos organizativos (37), fallos económicos (27), obsolescencia del hardware y el software (5), ataques externos (2) y obsolescencia de los soportes (1).

También analizamos dos estrategias que pueden emplear los repositorios para evitar la pérdida de datos: El mantenimiento de un acceso limitado a los datos (por ejemplo, a través de una simple interfaz FTP), y la migración de datos (transferencia de la custodia de datos a otro repositorio). Los resultados mostraron que el 12% de los repositorios de la muestra mantenían un acceso limitado a los datos, y el 44% migraban los datos antes de cerrar. El 47,1% de los repositorios no indicaron utilizar ninguna de las dos estrategias, lo que significa que existe un alto riesgo de pérdida permanente de datos tras el cierre.

El cierre de repositorios no es infrecuente y debe planificarse con antelación. Sin embargo, planificar la conservación a largo plazo de los datos de investigación es un reto, ya que diversos factores pueden poner en peligro tanto los datos como el repositorio que los conserva. Sólo algo más de la mitad de los repositorios de datos de investigación de la muestra cuentan con estrategias detalladas que utilizan para mitigar la pérdida de datos. Es importante señalar que ninguna de las estrategias analizadas ofrece una solución permanente, sino que el mantenimiento de la infraestructura requiere esfuerzos continuos. Actualmente, la carga del mantenimiento de la infraestructura y la conservación de los datos recae únicamente en los repositorios individuales; los sistemas de conservación comparables a los de los textos académicos, como CLOCKSS, no están muy extendidos y pueden ser difíciles de realizar. La colaboración de los repositorios en este ámbito podría contribuir a reducir el riesgo de pérdida permanente de datos.

En general, el estudio reveló una falta de información sobre los procesos de cierre de repositorios. Este problema podría ser abordado por los registros, que se encuentran en una posición única para proporcionar información más detallada sobre el proceso de cierre, o por las páginas de transición de las bases de datos, que indican a los posibles reutilizadores de datos los nuevos lugares de almacenamiento tras la migración de los datos.

Los resultados demuestran que el cierre de repositorios es un hecho y puede provocar la pérdida permanente de datos. Se necesitan debates más amplios en la comunidad científica para determinar la gravedad de este problema. Las revistas, los financiadores y otras partes interesadas promueven cada vez más la reutilización y la citación de datos. Si estas prácticas se generalizan, la pérdida de datos podría suponer una amenaza para la permanencia de los registros académicos. Sin embargo, queda por ver cómo evoluciona la aplicación de estas prácticas y si se citan los conjuntos de datos que se han perdido de forma permanente. Es necesario seguir investigando, pero esperamos que nuestro artículo contribuya a estos debates tan necesarios.

RoterHahn

Nah, una copia en papel y punto.

Bolgo

Apliquemos la Ley de Betteridge al titular

TDI

#3 Esa ley falla más que una escopeta de feria. 😅 En este caso, sí, es una amenaza.

"Para la mayoría de los repositorios de la muestra (120), el motivo del cierre seguía siendo desconocido. Para el resto, los riesgos conocidos que provocaron el cierre fueron fallos organizativos (37), fallos económicos (27), obsolescencia del hardware y el software (5), ataques externos (2) y obsolescencia de los soportes (1)"

y

"Si estas prácticas se generalizan, la pérdida de datos podría suponer una amenaza para la permanencia de los registros académicos."

Bolgo

#5 Lo reconoces, me basta para sentirme meneante cargado de razones cual cuñado medio con palillo en el bar

c

El repositorio de Debian siempre está disponible.

https://www.debian.org/mirror/index.es.html