diumenge, 27 d’abril de 2014

Archivos, contexto y datos. El potencial de los archivos en las II Jornadas de Periodismo de datos y Open Data.

Vitalidad. Quizás sea ésta la mejor palabra para describir lo visto en las II Jornadas de Periodismo de Datos y Open Data en mi breve participación del pasado viernes 25. Fui invitado a participar como representante del sector profesional de la archivística y la gestión de documentos en un entorno plagado de periodistas y programadores. Había un fuerte interés en observar como otras profesiones interactuan con datos y los reutilizan para generar evolución positiva, información de calidad y nuevos recursos de interpretación de nuestra sociedad. Para mi fue una oportunidad de explicar en qué los archiveros somos fundamentales en la gestión, explotación y preservación de los datos, y quizás por el tiempo exiguo y por ciertas dudas propias ante el reto, me dio la sensación que no fui lo claro que debería haber sido. Por éste motivo aprovecho este espacio para tratar de aportar más claridad a mi discurso.


El Contexto

El concepto de memoria es insuficiente.


El concepto de Memoria debería ser apartado de una vez por todas del mundo de los archivos y la gestión de documentos. Por exceso de uso, por politización específica o por ser demasiado equívoco, la memoria de las sociedades es un valor restrictivo, patrimonialista y patrimonializado por ciertas estructuras públicas. En mi opinión el concepto Contexto debe ser utilizado, por ser más transversal, diacrónico e independiente a las interpretaciones. Así como la memoria es evocativa y explicativa, el contexto focaliza su objetivo en la comprensión de los hechos y la completitud de los datos necesarios para una interpretación mejor y exhaustiva. Entiendo que la propuesta es claramente poco archivística, pero la gestión de documentos ya opera con él con mayor claridad y sin tapujos. Contexto también es más comprensible por parte de otros colectivos profesionales y, sobretodo, por profesionales cercanos a la informática, la programación y a la explotación de datos. No es un azar que la gestión de documentos y la diplomática contemporánea hayan determinado el eje de comprensión de cualquier información en el resultado de una buena gestión de un contexto, una estructura y un contenido, y hayan apartado la memoria a un problema secundario. Hablemos de su aplicación y su dimensión ante el problema de los datos.



Contextualizar con datos las sociedades pasadas. 

Digitalizar y datificar lo manuscrito.


Los archivos hemos sido templos. Algunos, aún lo son. La percepción social que tienen los ciudadanos continua siendo la de templo. Y no podemos continuar así. Los archivos dejan de ser templos y esto implica apertura. Los archivos han tenido y tienen datos. Un montón de datos. Hablamos de una situación de brutal Big Data analógico. Pero no digital. O almenos no aun en grandes cantidades. Para contextualizar sociedades pasadas o para extraer datos que permitan comprender sociedades presentes, debemos datificar, es decir, convertir a dato digital todo aquello en analógico. Una tarea titánica. Muchos recursos se han invertido desde hace años a la digitalización de lo analógico, pero raras veces estos recursos han continuado en la conversión a dato digital de la documentación de archivo. Se ha provocado un gap brutal entre lo analógico y lo digital. Fractura digital, también es ésto. Y para la profesión riesgo de disrupción al no haber acompañado la digitalización de un proceso de comprensión de lo digitalizado. ¿Para qué conservamos los archivos? Para reutilizar la información. ¿Para qué digitalizamos?¿Para conservar una copia digital de lo que ya tenemos en analógico? No, para reutilizar la información. Nos falta el último paso y no estamos siendo acompañados por las políticas públicas y sus mentes pensantes. Ante esta falta de visión dramática, los depósitos de archivo parecen estar anclados en el pasado y no pueden competir, ni aportar datos significativos, relevantes, útiles y en cantidad, a las necesidades de los colectivos profesionales implicados en el uso de los datos.

Hay dos posibles interpretaciones para lograr ver qué motivos han provocado este distanciamiento de la explotación de datos analógicos de la explotación de datos en digital. Las dos interpretaciones son malas: a) desconocimiento y falta total de comprensión política e institucional; b) una voluntad voluntaria de dejación y de ocultación de la información. Los archivos viven en la supervivencia y son un ejemplo claro de resistencia desde "dentro" para evitar una mayor ocultación y opacidad en nuestros representantes públicos. Incluso la inversión en archivos y depósitos nuevos no puede ocultar la mentalidad de "silo" en que viven muchos de estos centros. Invierte en equipamiento, pero no inviertas en la reutilización de la información que contiene, un forma sutil y pragmática de mostrar interés por el continente, pero no por su contenido. Una metáfora casi hermana de la de la burbuja inmobiliaria: invierte en ladrillo, pero no en quien lo habite.


¿Necesitan los periodistas los archivos? Sin duda. ¿Pueden acceder a sus datos para contextualizar las sociedades pasadas? Sin duda. ¿Pueden acceder a datos digitales para el mismo objetivo? No siempre y pocas veces. Pocas son las iniciativas en este país orientadas a difundir datos digitales. Quizás las más emblemática, y mostrada en mi aportación a la #JPD14, es la propuesta del Archivo Municipal de Arganda del Rey liderada por el archivero (o quizás mejor llamarle post-archivero?) Julio Cerdá. Entrad y navegad. Mapas interactivos y datos exportables, ¿qué más pedir? Animo a los periodistas de datos a entrar en este portal y a extraer conclusiones y a aportar propuestas de mejora. Como usuarios hay mucho a aportar, seguro. Porque la vocación principal de los archivos es la de servicio público. Los periodistas encontraran en los archivos fuentes primarias, originales y auténticas. En este sentido los archivos son depósitos de fiabilidad y, aunque no lo parezca, abiertos. La cuestión es ¿para qué sirven los datos que preservamos? Como en toda investigación, científica o creativa, de historiador, periodista o arquitecto, dependerá del usuario y sus intereses. La diversidad y la multiplicidad de tipologías de datos son extensas.

Proyectos de datificación y explotación de datos de contextos antiguos los encontramos en el Centre de la Visió per Computador de la UAB, con quien la ESAGED organiza un postgrado de gestión y tratamiento digital de documentos históricos, precisamente para promocionar este tipo de ensayos y proyectos de extracción. Un par de ejemplos:

a) El proyecto 5CofM: Five centuries of marriage, realizado entre el CVC y el Centre d'Estudis Demogràfics. La digitalización de los capítulos matrimoniales de más de 250 parróquias catalanas entre 1451 y 1905, prosiguió con una extracción de datos en digital que han dado como resultado una base de datos de más de 550.000 matrimonios. Estos datos son útiles para quién investiga en genealogía o para quien realiza estudios sociológicos o demográficos. Los datos son consultables y descargables en excel, previo registro gratuïto, en el portal del CED.

b) El proyecto Co-READ también impulsado com el CVC. El acrónimo quiere decir Contextual Recognition of Ancient Documents. El proyecto se orienta al estudio de técnicas de spotting para el reconocimiento de palabras y sus formas con el fin de automatizar la transcripción manual de documentos históricos.

Por cierto, ¿alguna diferencia entre los datos que se ofrecen en los portales Open Data o de Transparencia con los que disponemos en los archivos? La mediación y la orientación en el caso de los archivos, la sensación de "market place" en el caso de los primeros. Con la mediación podemos acceder a aquello que quizás dé respuestas, con el síndrome de "market place" hay lo que hay, o lo tomas o lo dejas.


Contextualizar con datos las sociedades presentes. 

La obsesión por el metadato, la autenticidad documental y la transparencia.


La gestión de documentos permite el análisis exhaustivo de los datos que éstos contienen. Análisis cuantitativo, pero sobretodo, cualitativo. Ésta es otra de las funciones, en este caso, de los records managers, que podrían ser descritos como artesanos del back-office a la manera que Richard Sennett ha explicado en trabajos recientes como "El artesano" o "Juntos". Se trata de profesionales que quieren trabajar bien, que les gusta el trabajo bien hecho, que trabajan en el interior de las organizaciones, que no son demasiado visibles, pero que mantienen en pie la estructura del sistema. No son estrictamente gestores de documentos y basta. También conocen de gestión de información, explotación de datos y organización lógica de documentos digitales. Se dedican básicamente a producir documentos auténticos desde el momento en que estos vienen producidos. La autenticidad como propiedad esencial para poder confiar a continuación en aquellos documentos y datos que tenemos entre manos. Su trabajo es capital porque "documentan el dato", es decir, lo enriquecen en contexto y calidad. Ese valor es el que permitirá que si estos datos son elaborados para ser publicitados en portales de Open Data y Transparencia sean realmente precisos, de calidad y auténticos.

Precisos, que sean verdaderos y relacionables con una hecho, situación o contexto del mundo real. De calidad, que no tengan errores ni contingentes ni voluntarios. Auténticos, que sean lo que dicen ser, y que referencien su original para poder ser siempre verificables y reencontrables. El modelo se fundamenta en que todo aquello que se publicita no dejar de ser dato copiado de un original existente en la organización. Su existencia dota de garantía y fiabilidad el sistema. Aquello publicitado por tanto puede ser fiscalizado y evaluado. Si no es creible, puede servir para rendir cuentas con el original y certificar que el dato es el adecuado. Este modelo también es artesano, es decir, se preocupa por la dignidad y la fiabilidad del sistema. La organización pública publicita aquello que tiene y no lo manipula.

Los records managers se preocupan sobretodo por el metadato. Este "dato" que habla de "datos", que los contextualiza, los permite gestionar, los enriquece y los hace útiles y prácticos, puede ser incorporado en todo documento digital y tratado fuera del mismo. El metadato permite garantizar que aquellos datos exportables son precisos, de calidad y auténticos, porque es fruto del procedimiento, porque aporta la fiabilidad de haberlo creado en el momento de la producción documental y porque es la base de una estructura solida y garantizadora necesaria en las organizaciones públicas. Hablamos del nexo entre el contenido y sus virtudes y cualidades. No hay periodista de datos, o profesional de datos, que no exija calidad en estos productos, pues sin ella el resultado de la investigación no refleja ninguna realidad sino una de inexacta.

En este sentido el trabajo interno de datificación solo tiene una visibilidad específica si los portales de Open Data y Transparencia reflejan claramente la organización interior de la entidad pública. Sin este reflejo, ¿qué confianza puede tener aquello que publicamos? Yo dudaría por sistema. Vincular lo externo con lo interno para insistir en la capacidad de fiscalización y certificación de la autenticidad de los datos por parte del ciudadano.


Pero además seamos transparentes de verdad. Piensen en una cocina de un buen restaurante y en una cocina de un restaurante candidata a "esta cocina es un infierno". El buen restaurante dispone de unos cristales estupendos que permiten al cliente devorar su chuletón observando el trabajo detallado, cuidadoso y profesional en la cocina. En el restaurante mugriento, cuanto más densa sea la pared que separa el comedor de la cocina mejor. Pero aún así, en el restaurante mugriento, la olor ya permite detectar algo. La transparencia es eso, un cristal que permite observar aquello que se realiza en el interior de la organización pública, a quien exigimos limpieza y trabajo de calidad, a quien como clientes exigimos datos e información igualmente de calidad. Y que nos guste. Y que si confiamos en ella, volvamos.



Sólo un 15% de los datos públicos son publicitados

¿Cómo acceder al 85% restante?


Lo dije viernes en mi intervención y en un artículo publicado en La Vanguardia hace unos meses. La mayor parte de los datos en disposición de les administraciones públicas siguen o bien en estado analógico o bien en estado bruto. Su tratamiento por parte de records managers es lo que permitirá mejorar este porcentaje a todas luces decepcionante. Sin duda no hablo de datos que el periodista de datos puede descargarse libremente, pero también tuve oportunidad de decirlo viernes: ¿Quieren saber con precisión qué datos e información disponen las administraciones públicas? Solicítenlo al archivero. ¿Que resulta que no hay archivero? ¡¡Exijan que haya uno!!

Os presento, para finalizar, un par de proyectos de datificación orientada a reforzar la autenticidad de los datos públicos y a la preparación de datos de calidad explotables a continuación.

a) Me complace presentaros el ejemplo del proyecto que realizamos en el Ayuntamiento de Terrassa. Autèntics des del principi se preocupa por la digitalización de los documentos analógicos que entran en el Registro General de Entradas y Salidas del Ayuntamiento. La digitalización continua con una datificación detallada y pormenorizada del contenido, y con una clasificación archivística unívoca que permite su distribución ordenada en el interior del Ayuntamiento para iniciar la tramitación administrativa. El proyecto es complejo y ha significado una toma de conciencia organizativa brutal, así como una formación a más de 300 usuarios. Esta gestión titánica permitirá que los documentos que sean utilizados para la toma de decisiones sean auténticos, la gestión podrá automatizarse casi completamente y su resultado será 100% digital. Todos estos datos se irán sumando a los que el ayuntamiento produce y serán susceptibles de ser publicitados si cabe en los portales Open Data y de Transparencia.

b) Otro proyecto interesante es el del Ayuntamiento de Girona, proyecto que ha sido presentado incluso en ámbito internacional. Desde el servicio de gestión documental y archivo se trabaja en una gestión ordenada de los datos producidos y en un control exhaustivo de los datasets producidos para ser publicitados en su portal Open Data. El trabajo conjunto entre el servicio de gestión documental y archivo y los gestores del portal Open Data ha dado lugar a una renovación sistemática de los datasets para proporcionar datos actualizados, los datasets con datos de contexto ya desactualizados continuarán igualmente activos pero en el portal del servicio de archivo. Nada se pierde, pero se presenta en espacios distintos para evitar confusiones. La clasificación archivística propone una estructura estable, no necesariamente jerárquica, del origen de los datos, de modo que todo aquello publicitado se fundamenta en la gestión documental interna, no desvinculándola, por tanto, del modo en que se trabaja internamente. Así pues, incluso el método de trabajo puede ser fiscalizado de modo transparente, abriendo un poco más la administración al ciudadano. El proyecto se ha iniciado con la publicación del estado de ejecución del presupuesto municipal, de modo que se ha iniciado con los datos económicos.

1 comentari:

Jesus Eduard Alonso i López ha dit...

Em sembla molt interessant i important tot el que planteges. Tanmateix, per molt subjectiva, fràgil o manipulable que siga la memòria, està ahí entre nosaltres. Hem de conviure amb la memorialística, la museística i fins i tot amb la màgia o veneració que pot suscitar un temple de la memòria. Una altra cosa és que hàgem d'aportar veracitat, credibilitat i accessibilitat a la informació que gestionem. La idea de context és central per a nosaltres. El context de producció és quelcom fonamental per als arxivers i es troba implícit en les normes ISAD (G). Però no veig tan clar que siga fàcil comunicar-ho o que siga un concepte exportable.
D'altra banda, és evident que estem en un món digital i accelerat però tampoc veig clar què ens hagem de sentir ofegats i forçats. Haurem de ser selectius per digitalitzar allò que és realment significatiu per a la nostra organització i el context social i crec que hem de prioritzar perspectives a mig o llarg terme per damunt de modes ocasionals o fugisseres.
D'altra banda, la nostra relació amb els mitjans de comunicació hauria de ser natural i normal. Al capdavall tots som, en un sentit ample, professionals de la informació. Salut i bona primavera.

Publica un comentari a l'entrada