vrijdag 15 januari 2010

Registratie versus informatie (15 jan 2010)

Er zijn 3 soorten verzamelingen van gegevens:
  1. Gegevens die alleen maar dingen aanwijzen, identificeren. Deze verzamelingen zijn handig als we van elkaar willen weten of we het over hetzelfde hebben
  2. Gegevens die ook betekenis overbrengen. De betekenis van een gegeven blijkt uit het gedrag dat op grond van het gegeven kan worden uitgevoerd. Dit type gegevens kan weer worden opgesplitst in twee typen gegevensverzamelingen:
    1. Gegevensverzamelingen die een bepaalde bruikbaarheid tot doel hebben
    2. Gegevensverzamelingen die een bepaalde juistheid (waarheid) tot doel hebben

De twee eigenschappen van gegevensverzamelingen (juistheid en waarheid) zijn sterk met elkaar verweven: vanwege een bepaalde waarheid, ontstaat bruikbaarheid. Vanwege bepaalde bruikbaarheid kun je bepaalde waarheid afleiden. (--> voorbeelden!!)

Maar verzamelingen kunnen ook behoorlijk aan één kant van het spectrum zitten. Van bepaalde verzamelingen staat vooral de bruikbaarheid voorop en weten we eigenlijk weinig over de waarheid die ze bevatten. Bijvoorbeeld.... Van bepaalde verzamelingen staat vooral de waarheid voorop maar zien we eigenlijk niet wat de bruikbaarheid is van die gegevens. Voorbeelden...

We hebben nog al eens de neiging om een verzameling waarvan de bruikbaarheid niet te zien is, te verwijderen. Is dat terecht?

Registratieset
Een set gegevens die tot doel heeft alleen haar leden aan te wijzen, komt ook tot stand door aan te wijzen. Van de registratieset is de achterliggende logica niet duidelijk, daarom zit er geen kennis in een dergelijke set. De lijst met landen of gemeenten zijn een goed voorbeeld. Er komt op een bepaald moment erkenning van een land of er wordt besloten dat gemeenten samengevoegd moeten worden. Maar het is niet zo dat het land van zichzelf eigenschappen heeft die het maken tot een apart land. Andere voorbeelden: Nederlanders, leden van een vereniging (bijv. tennisvereniging), kentekens, barcodes, IP adressen.
  • Een registratieset mag geen dubbele bevatten. Dat kan gebeuren als de instance twee keer geregistreerd wordt.
  • Een registratieset moet volledig zijn. 
  • Een registratieset moet overeenkomen met de realiteit. Instances die niet meer bestaan, mogen ook niet meer in de set voorkomen, registraties die ongedaan zijn gemaakt, mogen ook niet meer in de set voorkomen.
Kwaliteitskenmerken: authenticiteit, het gegeven komt ook uit de echte originele verzameling. Aantal dubbele, aantal instances die wel geregistreerd zijn maar niet voorkomen in de set. Aantal instances die niet meer bestaan maar nog wel voorkomen in de set.

De objectieve set
De objectieve set heeft tot doel om iets te stellen dat waar is. Wat men met de informatie kan, staat niet voorop. Ooit heeft iemand besloten (hoe?) dat de set een reden van bestaan heeft, zonder dat het gebruik van de set duidelijk is. Waarschijnlijk is dit informatie die een goede meetlat is voor een heel complex aan handelingen. Voorbeelden: stijgende barometer, overschot op de handelsbalans, aantal malen dat een internetpagina bezocht wordt, etc.

Van de objectieve set is het heel belangrijk hoe ze tot stand is gekomen. Bij een objectieve set hoort dus ook de methodiek waarmee ze tot stand is gekomen. Eigenlijk is een objectieve set dus een onderzoek. Een onderzoek naar bijv. de agrariërs in Nederland. De definitie van deze set bestaat uit:
  • de kenmerken van de instanties die tot de set behoren
  • de kenmerken die niet zijn onderzocht
  • de methodiek waarmee de set tot stand is gekomen
  • de methodiek waarmee de set up to date wordt gehouden
Het CBS heeft veel van dit soort informatie.

De kwaliteit van de objectieve set wordt uitgedruk in de kans dat het gegeven niet overeenkomt met de realiteit van dit moment.

De bruikbare set
De bruikbare set heeft tot doel om iets te kunnen. Met de set hangt een handeling of een proces samen. De set wordt continu onderhouden omdat er continu terugkoppeling komt vanuit het resultaat van de handeling (proces). De kwaliteit van de gegevensset wordt uitgedrukt in effectiviteit:
  • % fouten in het resultaat of 
  • kwalitatieve beschrijving van de waardering van het resultaat
Effectiviteit is één van de metingen die wordt gedaan tijdens een bruikbaarheidstest. Daarnaast worden in een bruikbaarheidstest ook de efficiëntie en de tevredenheid van de gebruiker gemeten.

Voorbeelden: postadressen (hier kun je iets naar toe sturen), bezoekadressen (daar kun je de betreffende instance ontmoeten), verzameling uitstaande orders, boodschappenlijstje,

Noot
Behalve de bruikbare set is het moeilijk om business beslissingen te nemen over welke kwaliteit de set moet hebben. De objectieve set en de registratie set zijn meer een soort beleid, visie. Een beslissing om bepaalde dingen aan te wijzen of om bepaalde gegevens te gaan bijhouden.

Oud
Dit heb ik eerst geschreven en blijkt minder te zijn dan bovenstaand:
Misschien te gek voor woorden maar het volgende onderscheid had ik zelf nooit eerder begrepen:

We hebben verzamelingen gegevens die een registratie zijn. We hebben ook verzamelingen gegevens die ook informatie zijn. De gegevens die een registratie zijn, zijn vastgestelde feiten. Hoe ze vastgesteld zijn, doet er in principe niet toe. Ze zijn vastgesteld. Daarmee is de betekenis van gegevens in zo'n registratie onduidelijk. Je zou kunnen kijken naar de manier waarop vastgesteld is. Maar dat blijft een heikele klus omdat ook intentie is gebruikt tijdens het vaststellen. En het is ook niet het doel van zo'n registratie om daaruit betekenis af te leiden. Het is alleen maar bedoeld om ervoor te zorgen dat we het over hetzelfde hebben als we iets uit die registratie gebruiken.

Daarnaast zijn er gegevensverzamelingen die niet een registratie zijn maar waar de bruikbaarheid voorop staat. Men wil iets kunnen met deze informatie.

In alle uitingen die ik tot nu toe gezien heb, wordt er niet sterk gehamerd op dit onderscheid. Maar als ik kijk naar de verzameling SoFi-nummers versus de verzameling aangifte inkomstenbelasting, dan zie ik toch een enorm verschil. Dit verschil gaat er met name over, wat ik weet over iemand. Ik heb het gevoel dat er veel meer betekenis zit iin een aangifte IB. Beide verzamelingen bevatten feiten die zijn vastgesteld. Echter een verzameling IB gegevens stelt je tot veel meer in staat. Nee, dat is ook niet waar. Er hangt ook heel veel aan een SoFinummer. Maar er is toch verschil tussen het aanwijzen van dingen en het beschrijven van dingen. Met aanwijzen, beschrijf je bijna niets. Met beschrijven doe je ook heel veel uitspraken en breng je kennis over.

Met beschrijven geef je eigenschappen weer die waar zijn. Door te weten wat waar is, kun je dingen. Door te weten wat waar is, kun je je doel bereiken. Echter, het is heel goed mogelijk dat je veel veronderstelt op grond van een gegeven. Je hebt dan last van 'impliciete kennis'. Die impliciete kennis kan op 2 plaatsen zitten: degene die registreert en degene die het gegeven gebruikt. Wil je het probleem van impliciete kennis zo klein mogelijk maken, dan moet je je verdiepen in de ander. Niet alleen moet je weten hoe hij zijn data creëert maar ook waarom hij behoefte heeft aan die data. Beide beschrijvingen leveren je veel informatie over het gegeven.

De bruikbaarheid van een verzameling gegevens is ook niet altijd beschreven. Ook de bruikbaarheid is vaak impliciet (verborgen). Je moet zelf je best doen om de bruikbaarheid van een gegeven vast te stellen.

Geen opmerkingen:

Een reactie posten