Vés al contingut principal

Sobre la qualitat de les dades obertes

El proper dijous dia 20 de juny es celebra a Terrassa la I Jornada de Govern Obert. El programa és esplèndid i el nivell dels ponents recomana vivament de participar-hi. És bo que des d'una administració local s'afronti amb valentia el tema de l'obertura de dades públiques i en fomenti la seva explotació per part del sector privat. La jornada parlarà com no de Open Data i de Big Data. Dins els seus participants no hi ha cap autoritat del sector de l'arxivística i la gestió de documents. Era de preveure. Ja ho vàrem advertir fa unes setmanes quan s'esdevingué la Big Data Week a Barcelona. No és un oblit, ni tampoc un atzar, és que no hi ha en els sectors de l'arxivística i la gestió de documents referents que trascendeixin el fort teixit colaboratiu i empresarial que estan movent altres sectors professionals com els de les ciències informàtiques o de la informació. 

Aquest post vol demostrar que la gestió de documents, l'arxivística i la diplomàtica també tenen discurs i recursos per afrontar el repte de la gestió i explotació de les dades. I ho faré aportant criteri sobre una dimensió que no apareix, aparentment, en cap de les ponències que es presentaran. La "qualitat" de les dades. Està molt bé explotar-les, està molt bé mostrar-les i reutilitzar-les, però quins criteris i estratègies tenim per aportar dades de "qualitat", fiables, autèntiques i fidedignes? És evident que el sector de la gestió de documents cal que reivindiqui el seu paper en el món de la reutilització de dades per afavorir també un bon govern. Però per a fer-ho, ha de demostrar que és suficientment competitiu per poder-se presentar en paral·lel a d'altres sectors professionals. 



















En un entorn electrònic, on molts dels documents es produeixen a partir de dades gestionades en bases de dades, és evident que cal afrontar-ne la seva avaluació. Avaluar la qualitat de les dades com a unitats de contingut és necessari a fi i efecte d’afegir valor al producte documental posterior. 

En primer lloc cal demostrar que la dada ha estat recopilada de forma correcta. Perquè això hagi estat així cal que quedi constància del recopilador, la persona que ha efectuat l’inserció de dades externes a l’interior del sistema de gestió de la informació de l’ens. Es dóna freqüentment la circumstància que les dades recopilades no són útils o són imprecises a efectes de dur a terme el procediment. Aleshores es perd temps en tornar a recopilar aquestes dades. Per evitar aquests fets cal que la dada recopilada sigui el màxim de precisa possible i que, a la vegada, es gestioni adequadament pel sistema de gestió de la informació de l’organització. Aquest sistema, a més, haurà de permetre retre comptes de qui ha realitzat la recopilació i, per tant, d’on rau l’origen d’una eventual incorrecció o problema. 

Els sistemes de gestió de la informació han d’estar preparats per a recopilar dades. És freqüent trobar a les organitzacions formularis que no permeten l’opció de recopilar totes les dades necessàries. Fins i tot, ens podem trobar aplicatius preparats per a la recopilació de dades que no s’utilitzen. L’ús dels recursos a l’abast ha de ser responsabilitat de cada un dels treballadors, i se’ls ha d’exigir que els utilitzin de la forma més adequada. Un problema molt simple a primera vista, però que implica costos innecessaris a una organització és la mala disposició d’una adreça en una notificació o a un correu postal que s’hagi d’enviar, bàsicament perquè l’adreça és incorrecta o imprecisa. Totes les cartes retornades han implicat un cost innecessari. El mateix cas amb els números de compte donats als bancs perquè s’efectui una domiciliació d’impostos que no arriben a bon port. Els costos a pagar als bancs per les domiciliacions no cobrades són sempre alts. Problemes de més alt nivell es produeixen quan les dades recopilades per una organització no poden ser utilitzades per diferents departaments que en poden haver de menester. O departaments que no poden reutilitzar dades compilades en el passat per la seva pèrdua, per la seva poca fiabilitat o perquè l’aplicació informàtica no les permet recuperar. 

Per a resoldre aquests problemes se suggereix que l’ajuntament tingui prevista la realització de data cleansings de forma sistemàtica. Entenem per data cleansing (neteja de dades), la detecció, correcció i eliminació de les dades corruptes, incompletes, incorrectes, irrellevants, duplicades i poc precises de les bases de dades per tal de disposar de dades realment efectives, de bona qualitat i òptimes pel seu ús. 

Aquest tipus d’acció ha de ser programable i realitzable de forma sistemàtica, i existeixen moltes solucions de software que ho permeten fer. Paral·lelament,també es poden realitzar accions de data enrichment (enriquiment de dades), destinades a connectar relacionalment bases de dades que existeixen a l’ajuntament i que poden servir per afegir informació addicional a la presa de decisions d’alguns procediments. 

L’avaluació de les dades és un element poc tractat per l’arxivística catalana. Tanmateix en la gestió de documents electrònics, la necessitat d’estudiar la qualitat de les dades és real. Sí és cert que estudiar les dades que poden conformar un document sembla més una tasca dels gestors dels sistemes de la informació, però també és cert que si acceptem que per a preservar documents electrònics haurem d’encapsular un paquet de metadades en el document electrònic a preservar, aleshores caldrà preguntar-se si les metadades que compilem són les correctes o no, i si, sobretot, serveixen per l’objectiu final de la ciència arxivística i de la diplomàtica: disposem les metadades adequades per a garantir l’autenticitat i fiabilitat dels documents a preservar? 

Observi’s que parlem indistintament de dades i metadades. A efectes de qualitat, els mateixos principis que explicarem per les dades són útils per les metadades. No existeix distinció, en aquest cas. Observi’s, també, que en cap moment parlem de si les dades són “vertaderes” o no, aquesta no és l’avaluació que convé fer en una primera instància, sinó que cal un anàlisi objectiu previ que ens permeti avaluar si són de confiança per a posteriorment produir o conservar documents igualment de confiança. 

En definitiva, que si ens plantegem la possibilitat d’acabar preservant bases de dades a llarg termini, tal com alguns projectes europeus han plantejat (el projecte RODA dels Arxius Nacionals de Portugal o el model SIARD dels Arxius Nacionals de Suïssa, per exemple), ens haurem de començar a plantejar quina mena d’avaluació fem d’aquest producte d’informació. 

Avaluarem la seva estructura, la seva potencialitat evidencial, però també la qualitat de les seves dades. Especial rellevància pren, en aquest context, la preservació a llarg termini de bases de dades si és que s’opta estratègicament per la seva conservació integral. Com avaluem una dada de bona qualitat? 

En primer lloc hem de dir que la bona qualitat d’una dada o d’una relació de dades no només es valora en funció de la seva capacitat per ser més o menys errònia o vertadera. Existeixen altres dimensions més objectives que permeten destriar nivells de qualitat que fan de la dada una unitat de contingut i d’informació utilitzable amb garanties d’èxit. Segons professors com Carlo Batini i Monica Scannapieco, aquestes dimensions són: la precisió, la completesa, la freqüència d’actualització, la volatilitat, la freqüència d’utilització, la consistència, la interpretabilitat i l’accessibilitat. 

La precisió es defineix com la similitud entre una dada t i una dada t’,considerada com la correcta representació d’un fenomen de la vida real que t ajuda a representar. Per exemple, si el nom de persona és Elisa, la dada t’= Elisa és correcte, mentres que la dada t = Elsia és incorrecte. 

Existeixen dos tipus de precisió: la precisió sintàctica i la previsió semàntica. La precisió sintàctica deriva del fet d’utilitzar un codi similar de representació, en aquest cas, l’alfabet llatí. De manera que si t = Elisa, encara que t’ = Joan, t es pot considerar sintàcticament correcte, ja que Elisa és un valor admisible en l’entorn dels codis de representació que permeten representar noms propis de persona. La precisió sintàctica no avalua si t és = t’, sinó si t pot ser un valor admisible en un entorn de definicions concret. 

La precisió semàntica deriva del fet d’utilitzar el codi de representació adequat, en aquest cas, l’alfabet llatí utilitzat per denominar correctament el nom propi d’una persona. De manera que t ha de ser el mateix valor que t’. Així, si t = Elisa, aleshores t’ = Elisa. o bé t' = filla de Joan. Si t = Elisa i t’ = Joan, sintàcticament la precisió és correcta, però no pas semànticament, perquè només Elisa on el seu defecte una descripció precisa com ara filla de Joan, és la dada de qualitat i representació justa d’un element de la vida real: en aquest cas Elisa, filla de Joan no podrà ser mai Joan, a no ser que canviï de nom o de sexe. I tot i així, no estaríem del tot segur que Elisa  és realment = Joan, perquè sempre seran dues persones distintes. Aquesta precisió dins la necessitat de precisió, és un punt crític no cal dir-ho quan només treballem amb dades i no podem contrastar-les amb l'element de la vida real.  

Així, si en una base de dades de noms propis de persones escribim Elisa i Joan, ambdues dades seran exactes sintàcticament. Però en el moment en què repetim un dels noms, aleshores el nom repetit serà inexacte semànticament, perquè no podrem desambiguar quina de les dues dades és la correcta. I si totes dues són correctes, a efectes d’ús de la base de dades, la repetició pot implicar una redundància que dificulti el seu ús. En conclusió, cal ser precís en l’aplicació del codi de representació i en l’ús correcte del codi de representació. No cal dir que a la base de la precisió semàntic és on s'edifica l'anomenat web semàntic.

La completesa es defineix com l’estat assolit per una dada quan el grau d’oportunitat d’aquesta i el grau d’amplitud i profunditat d’ús i interpretació que és capaç de permetre, és el suficient als ulls de l’organització o l’usuari que les utilitza. O el què és el mateix: quan a la dada no li manca res per a poder ser utilitzada amb totes les garanties. En l’entorn d’una base de dades, per exemple, la completesa es pot analitzar en funció dels diferents components d’aquesta. Així, podem determinar: la completesa dels valors o de la dades utilitzades a la base de dades, la completesa de les cel·les destriades, la completesa dels atributs disposats i el grau de completesa general de la taula de relacions configurada. Com més camps completats, més completa és la base de dades. El grau de completesa ens permet avaluar el percentatge de dades específiques existents en una columna d’atributs i una fila de cel·les en relació a les dades que hi hauria d’haver. I a la vegada determina el grau d’informació representada en relació al contingut d’informació màxim possible. 

La freqüència d’actualització determina el nivell d’actualització que una base de dades necessita i, per tant, permet definir la qualitat de les dades durant un període més o menys concret de temps. Evidentment els canvis de dades no són sempre controlables, de manera que caldrien contrastos entre moments anteriors i moments posteriors d'aquestes bases de dades per avaluar-ne la qualitat. Aquesta dimensió té especial rellevància en bases de dades dinàmiques i interactives.

Lligada a la freqüència d'actualització trobem una altra dimensió temporal com és la volatilitat de les dades, marcada per la freqüència en què les dades varien en un temps determinat. Hi ha dades, com per exemple la data de naixement d’un individu, que tenen un grau de volatilitat 0; en canvi n’hi ha d’altres, com podria ser una base de dades on es controli l’stock de material d’oficina que disposa una entitat, que pot variar de forma constant al llarg d’una setmana. En contraposició a la volatilitat trobem l’estabilitat, una altra dimensió mesurable a efectes de discernir la qualitat d’una col·lecció de dades. 

La freqüència d’utilització d’una col·lecció de dades determinarà quina qualitat permet per a realitzar una operació concreta i la seva eventual pèrdua d’utilitat per a una operació immediatament posterior. Aquesta dimensió implica que les dades poden no estar sempre actualitzades, però poden ser igualment útils en funció de l’operació que es vulgui realitzar. 

La consistència és la dimensió que determina la solidesa i la coherència de les dades que es disposen a l’abast. Avalua la fortalesa de les normes estipulades per assolir una precisió semàntica d’alt nivell. La interpretabilitat és la dimensió que analitza la documentació i les metadades necessàries per a interpretar les propietats d’una base de dades. Ens referim a si l’esquema conceptual de la base de dades és més o menys accessible i intel·ligible; a informació relativa a l’origen, procedència i història de les dades; als certificats d’autenticitat de les dades a l’abast, entre d’altres. 

Per últim, l’accessibilitat és la dimensió que permet una bona connexió a una xarxa per tal d’accedir unes dades, saber quines persones i de quina manera poden accedir en aquesta, si les dades són intel·ligibles als usuaris i si són legibles per part dels programari informàtic que les disposa, i també si l’entorn tecnològic, tan del possessor de les dades com de l’usuari que les usa són compatibles o presenten dificultats d’ús. 

La simple suma de les dimensions analitzades no té perquè implicar una qualitat més gran de les dades. Cal analitzar en cada moment quina dimensió convé potenciar i quina altra potser cal deixar de banda. La necessitat d’ús determinarà la potenciació d’una o altra dimensió. La imperfecció en les dades es produeix molt sovint a les bases de dades de les organitzacions. Això provoca desajustos i incorreccions. A la vegada, per tal de preservar aquestes dades a llarg termini, la perllongació de l’error implica la transmissió d’un error a les generacions futures. Tanmateix, des de l’òptica de l’arxivística i de la diplomàtica, transmetre una unitat de contingut imperfecte en el futur serveix per avaluar una manera de treballar les dades específica per part de l’entitat. 

És per això que diem que la dada sigui més o menys propera a la veritat no és rellevant, sí en canvi que la dada sigui certa i de qualitat. Batini i Scannapieco suggereixen un conjunt d’accions possibles per tal d’avaluar la qualitat de les dades d’una organització, i si s’escau, corregir la seva baixa qualitat. N’hem seleccionat les més rellevants: 

Una d’elles és la nova adquisició de dades, entesa com el procés d’adquisició de noves dades de qualitat orientat a posar al dia una base de dades. Aquest procés es produeix a l’inici d’una activitat o per tornar-ne a iniciar una que no s’ha pogut desenvolupar per una primera mala selecció de dades. 

L’estandardització (o normalització) de dades és la modificació de dades existents amb noves dades de qualitat d’acord a un estàndard definit o format de referència. Per exemple, modificar Xavi per Xavier, o C/ Volta per Carrer de Volta. En aquest cas, la qualitat ve definida per l’aplicació òptima de l’estàndard i perquè l’estàndard hagi estat ben definit. 

La identificació d’objectes (o connexió entre documents) és la recerca en una o més taules de relacions, d’un mateix objecte o document. També s’aplica a un mateix conjunt de dades representat en una o més bases de dades. El procés d’identificació d’objectes idèntics en una sola taula de relacions rep el nom de deduplicació. En el mateix sentit, s’entén per integració de dades la tasca d’unificar dades pertanyents a diferents recursos heterogenis i distribuïts en una nova unitat de gestió o com a representació única per resoldre deduplicacions. La localització d’errors és l’acció de trobar cel·les on un conjunt de normes semàntiques no són respectades. A continuació la correcció d’errors és l’acció de corregir els valors erronis identificats en les cel·les que no seguien un conjunt de normes semàntiques. 

Finalment, també suggereixen l’acció de redefinir el perfil de les bases de dades, analitzant les seves dades per tal d’oferir propietats més intenses, com millorar l’estructura de la pròpia base de dades, repassar camps amb dades similars, establir connexions entre dades, etc. 

I és que, ja ho hem apuntat, la recopilació deficient de dades o la recopilació de dades incorrectes o insuficients, acabarà repercutint en els productes d’informació que se’n derivin. En aquest punt val la pena fer algun comentari al voltant de la qualitat del contingut dels documents i de les dades. Ens referim a si les dades de qualitat ens poden garantir informació de qualitat o no. Aparentment sí, però també pot haver error en l’interpretador, malgrat que les dades siguin inapelablement de qualitat. De manera que en els anàlisis de qualitat caldrà estar al cas de tots els elements que participen en la creació de nou coneixement: les fonts i els que les interpreten. 

A la següent taula trobem una llista dels problemes que unes dades de poca qualitat poden produir a la informació que se’n derivi. Parlem d’informació de qualitat. 



Dades de poca qualitat
Informació de poca qualitat
Dades duplicades o recursos de dades múltiples
Estudis o anàlisis amb recomanacions o conclusions conflictives (excés d’informació poc rellevant. Càlculs incorrectes realitzats en base a dades repetides). Repetició innecessària de documents.
Pèrdua de relacions entre dades
Diagnosis de causes i efectes poc clars o incomplets. Pèrdua del vincle arxivístic entre documents d’un manteix expedient.
Entrades sense sentit i barrejades
Informes amb moltes dades però sense lògica entre elles.
Errors ortogràfics
Productes informatius amb un llenguatge poc polit i amb errors gramaticals. Problemes en aclarir la identitat real del productor o del receptor d’un document.
Entrades obsoletes o no posades al dia
Un anàlisi poc acurat i no actualitzat dels canvis del context d’una organització (organigrames incomplets o innexactes, per exemple).
Formats de dades poc consistents o sense tenir en compte estàndards
Disseny inconsistent o estructures per la navegació poc estables. Productes amb dificultats per a poder ser migrats.
Dades conservades en bases de dades incorrectes
Pèrdua de documents o documents introbables. Impossibilitat de realitzar informes a temps.
Procediments de cerca complicats
Dificultats en trobar la informació o en la navegació. Accessibilitat disminuïda.
Codificació errònia de les dades o afegit de metadades incorrecte
Classificació inadequada o insuficient. Context de producció poc definit. Impossibilitat de gestionar un sistema de selecció per a la conservació. Escasses garanties d’autenticitat i fiabilitat dels documents.
Entrades incorrectes de dades per manca de recursos de validació i control
Conclusions fundades en evidències inadequades. Documents fonamentats en dades poc segures o fraudulentes.
Manipulació negligent de les dades (esborrat, modificació)
Processos de decisió confusos, amb excés o manca d’informació adequada. Documents administratius erronis i no efectius.


L’estudi d’aquesta dimensió, la qualitat, s’ha focalitzat en una doble entorn: analitzar el producte informatiu o entitat intel·lectual i analitzar el procés de producció d’informació. 


Els professors Humbert Lesca i Elisabeth Lesca han detectat diferents malalties que impedeixen que la informació sigui totalment de qualitat basant-se en aquests dos entorns. Davant de cada malaltia proposen una medicina. 

Així, si considerem els productes informatius finals, aquests poden patir de utilitat limitada, provocada per un excés d’informació derivat d’una manca de manteniment i per no haver destriat la rellevant de la menys rellevant. Com a mesura preventiva, els autors suggereixen el filtratge de la informació segons criteris de més o menys rellevància, marcant prioritats i estructurant un esquema jeràrquic d’aquestes. 

Ambigüitat, causant d’intepretacions errònies i de coneixement imprecís, a causa de la manca de precisió i exactitud de la informació, o per l’ús d’abreviacions no identificables o deduïbles, o de llenguatge extrany. Com a mesura de millora es suggereix l’ús d’un glossari o un tesaurus preestablert o establint un calendari de contrastació de la informació. 

Incompletesa, pot provocar la presa de decisions inadequades i injustes. Pot ser causada per un intercanvi d’informació insuficient entre els treballadors d’un ens o per la incompatibilitat dels sistemes informàtics que combinen dades. Les mesures de perfeccionament passen per millorar l’intercanvi d’informació, els sistemes informàtics i la seva interoperabilitat. 

Inconsistència, que provoca confusió, pot ser causada per declaracions contradictòries fruit d’una descoordinació entre els autors i distribuidors de la informació, la poca claredat en les responsabilitats assignades o l’ús de recursos poc adequats. La mesura de millora passa per aclarir les responsabilitats i els mecanismes de coordinació

Format de presentació inadequat, provocat per la presentació desordenada, amb un format o estil que no permet un ús immediat i que necessita d’una transformació. La causa pot procedir d’una manca de comunicació entre els productors de la informació i els usuaris o la pressa per a transmetre la informació. Com a mesura de millora es planteja la definició d’un estil i format clar i consensuat a l’hora de presentar-la. 

Les malalties que es poden diagnosticar durant el procés de producció d’informació són: 

Desconfiança i manca de fiabilitat, és a dir, hi ha un gran nombre d’errors detectables a simple vista o s’observa la possibilitat de provocar-los, i a més no és fàcilment detectable el camí que ha seguit la informació per a ser transmesa i difosa. 

Errades en la producció, errades durant el procés de distribució o l’ús de recursos no identificables. 

Inaccessibilitat, provocada per l’existència de responsabilitats poc definides a l’hora de mantenir la informació accessible, per negligència o per canvis tecnològics. Aquests elements poden provocar desmotivació en el personal i la presa de decisions errònies. 

Distorsió en la informació, per exemple quan el missatge original no és igual al que ha rebut una de les parts. Masses intermediaris, llenguatge massa especialitzat, desinformació voluntària per a modificar, evitar o bloquejar la presa de decisions, o per problemes tecnològics que impedeixin una transmissió segura i íntegra del missatge. 

Comentaris

Joan,
amb aquest post ja ens has demostrat que hi ha discurs en el món dels arxius.

Tanmateix, hi ha una cosa que comentes amb la que no hi estic GENS d'acord. Dius que era de preveure que no hi hagués cap autoritat del sector de l'arxivística per la manca de referents en el sector en el programa.

Doncs bé, potser li podem posar solució a això de manera molt fàcil: durant el dinar de la Jornada, hi haurà cinc taules anomenades Speaker's Corner, amb cinc ponents que aportaran la seva particular visió durant aquest espai de temps, d'una manera pròxima i directa. Un d'aquests speakers ben bé podries ser tu i aportar una visió nova, diferent, la del món dels arxius...

Ens veiem dijous!!!!

Xavier

Entrades populars d'aquest blog

Propiedades significativas, esenciales y legales de los documentos

Las unidades documentales no son entidades intelectuales vacías.Están cargadas de propiedades que las significan.Entendiendo unapropiedadcomo esa cualidad peculiar o característica, como aquel atributo esencial que identifica una entidad y la diferencia de otras, en el mundo de los documentos podemos hablar de tres tipologías concretas: las propiedades significativas, las esenciales y las legales.
Laspropiedades significativasson aquellas características formales que permiten la representación inteligible de un documento.Han sido definidas por Andrew Wilson como las características de un objeto digital que deben ser preservadas con el fin de asegurar la accesibilidad, la usabilidad y su comprensión permanente, así como su capacidad para ser aceptadas como evidencia de lo que representa y transmite el documento.La Diplomática, a las propiedades significativas, las ha llamado tradicionalmente características intrínsecas y extrínsecas, y en la actualidad también las llama forma física y f…

Evidencia, prueba y testimonio.

Una de las innovaciones de la traducción española de las ISO-30300 y 30301 es el uso extendido del concepto "evidencia", denostando los clásicos "prueba" o "testimonio". Es una consecuencia natural de la progresiva adopción de los conceptos anglosajones en el vocabulario de las ciencias de la información. Otra consecuencia es precisamente esta: incluir en las ciencias de la información, otras disciplinas que hasta hace poco años era auxiliares de la historia, como la diplomática o la misma archivística. Es una tendencia marcada por las necesidades de nuestra sociedad y no es imputable exclusivamente a exigencias de mercado. El caso pues, del concepto "evidencia" es una conquista más de esta nueva manera de ver las cosas. En ningún caso, nos parece mal.
Pero sí que es cierto que en las comunidades de uso con una larga tradición basada en el derecho romano (hablo de países europeos no anglosajones) la aparición del concepto "evidencia" …

A la recerca del panellet autèntic!!

Quin és el panellet més autèntic? Quin és l'original? Aquesta és la petita recerca que hem realitzat durant aquesta setmana i que malauradament no donarà resposta al dubte més manifestat: de moniato o de patata? Aquest tema no té resposta, tants productors, tantes opinions. El que farem en aquest post és observar quines estratègies se segueixen per "vendre" com a autèntics i, per tant, com a millors, diferents autors de receptes de panellets. 
Ara us preguntareu? Què té a veure amb la Diplomàtica aquest assumpte? Si seguim escrupulosament la teoria no hi ha raons ni natura jurídica en una recepta de panellets. Tanmateix, sí que podem observar com s'utilitzen mecanismes propis dels documents de natura jurídica per dotar d'autoritat i de credibilitat aquestes propostes. L'autenticitat, entesa com a un valor de qualitat, obliga a utilitzar tots els mecanismes a l'abast i què millor que fer-ho amb les estratègies típiques dels documents de natura jurídica? P…