Semantische interoperabiliteit en Activity Theory: Registratie versus informatie (15 jan 2010)

Er zijn 3 soorten verzamelingen van gegevens:

Gegevens die alleen maar dingen aanwijzen, identificeren. Deze verzamelingen zijn handig als we van elkaar willen weten of we het over hetzelfde hebben
Gegevens die ook betekenis overbrengen. De betekenis van een gegeven blijkt uit het gedrag dat op grond van het gegeven kan worden uitgevoerd. Dit type gegevens kan weer worden opgesplitst in twee typen gegevensverzamelingen:

Gegevensverzamelingen die een bepaalde bruikbaarheid tot doel hebben
Gegevensverzamelingen die een bepaalde juistheid (waarheid) tot doel hebben

De twee eigenschappen van gegevensverzamelingen (juistheid en waarheid) zijn sterk met elkaar verweven: vanwege een bepaalde waarheid, ontstaat bruikbaarheid. Vanwege bepaalde bruikbaarheid kun je bepaalde waarheid afleiden. (--> voorbeelden!!)

Maar verzamelingen kunnen ook behoorlijk aan één kant van het spectrum zitten. Van bepaalde verzamelingen staat vooral de bruikbaarheid voorop en weten we eigenlijk weinig over de waarheid die ze bevatten. Bijvoorbeeld.... Van bepaalde verzamelingen staat vooral de waarheid voorop maar zien we eigenlijk niet wat de bruikbaarheid is van die gegevens. Voorbeelden...

We hebben nog al eens de neiging om een verzameling waarvan de bruikbaarheid niet te zien is, te verwijderen. Is dat terecht?

Registratieset
Een set gegevens die tot doel heeft alleen haar leden aan te wijzen, komt ook tot stand door aan te wijzen. Van de registratieset is de achterliggende logica niet duidelijk, daarom zit er geen kennis in een dergelijke set. De lijst met landen of gemeenten zijn een goed voorbeeld. Er komt op een bepaald moment erkenning van een land of er wordt besloten dat gemeenten samengevoegd moeten worden. Maar het is niet zo dat het land van zichzelf eigenschappen heeft die het maken tot een apart land. Andere voorbeelden: Nederlanders, leden van een vereniging (bijv. tennisvereniging), kentekens, barcodes, IP adressen.

Een registratieset mag geen dubbele bevatten. Dat kan gebeuren als de instance twee keer geregistreerd wordt.
Een registratieset moet volledig zijn.
Een registratieset moet overeenkomen met de realiteit. Instances die niet meer bestaan, mogen ook niet meer in de set voorkomen, registraties die ongedaan zijn gemaakt, mogen ook niet meer in de set voorkomen.

Kwaliteitskenmerken: authenticiteit, het gegeven komt ook uit de echte originele verzameling. Aantal dubbele, aantal instances die wel geregistreerd zijn maar niet voorkomen in de set. Aantal instances die niet meer bestaan maar nog wel voorkomen in de set.

De objectieve set
De objectieve set heeft tot doel om iets te stellen dat waar is. Wat men met de informatie kan, staat niet voorop. Ooit heeft iemand besloten (hoe?) dat de set een reden van bestaan heeft, zonder dat het gebruik van de set duidelijk is. Waarschijnlijk is dit informatie die een goede meetlat is voor een heel complex aan handelingen. Voorbeelden: stijgende barometer, overschot op de handelsbalans, aantal malen dat een internetpagina bezocht wordt, etc.

Van de objectieve set is het heel belangrijk hoe ze tot stand is gekomen. Bij een objectieve set hoort dus ook de methodiek waarmee ze tot stand is gekomen. Eigenlijk is een objectieve set dus een onderzoek. Een onderzoek naar bijv. de agrariërs in Nederland. De definitie van deze set bestaat uit:

de kenmerken van de instanties die tot de set behoren
de kenmerken die niet zijn onderzocht
de methodiek waarmee de set tot stand is gekomen
de methodiek waarmee de set up to date wordt gehouden

Het CBS heeft veel van dit soort informatie.

De kwaliteit van de objectieve set wordt uitgedruk in de kans dat het gegeven niet overeenkomt met de realiteit van dit moment.

De bruikbare set
De bruikbare set heeft tot doel om iets te kunnen. Met de set hangt een handeling of een proces samen. De set wordt continu onderhouden omdat er continu terugkoppeling komt vanuit het resultaat van de handeling (proces). De kwaliteit van de gegevensset wordt uitgedrukt in effectiviteit:

% fouten in het resultaat of
kwalitatieve beschrijving van de waardering van het resultaat

Effectiviteit is één van de metingen die wordt gedaan tijdens een bruikbaarheidstest. Daarnaast worden in een bruikbaarheidstest ook de efficiëntie en de tevredenheid van de gebruiker gemeten.

Voorbeelden: postadressen (hier kun je iets naar toe sturen), bezoekadressen (daar kun je de betreffende instance ontmoeten), verzameling uitstaande orders, boodschappenlijstje,

Noot
Behalve de bruikbare set is het moeilijk om business beslissingen te nemen over welke kwaliteit de set moet hebben. De objectieve set en de registratie set zijn meer een soort beleid, visie. Een beslissing om bepaalde dingen aan te wijzen of om bepaalde gegevens te gaan bijhouden.

Oud
Dit heb ik eerst geschreven en blijkt minder te zijn dan bovenstaand:
Misschien te gek voor woorden maar het volgende onderscheid had ik zelf nooit eerder begrepen:

We hebben verzamelingen gegevens die een registratie zijn. We hebben ook verzamelingen gegevens die ook informatie zijn. De gegevens die een registratie zijn, zijn vastgestelde feiten. Hoe ze vastgesteld zijn, doet er in principe niet toe. Ze zijn vastgesteld. Daarmee is de betekenis van gegevens in zo'n registratie onduidelijk. Je zou kunnen kijken naar de manier waarop vastgesteld is. Maar dat blijft een heikele klus omdat ook intentie is gebruikt tijdens het vaststellen. En het is ook niet het doel van zo'n registratie om daaruit betekenis af te leiden. Het is alleen maar bedoeld om ervoor te zorgen dat we het over hetzelfde hebben als we iets uit die registratie gebruiken.

Daarnaast zijn er gegevensverzamelingen die niet een registratie zijn maar waar de bruikbaarheid voorop staat. Men wil iets kunnen met deze informatie.

In alle uitingen die ik tot nu toe gezien heb, wordt er niet sterk gehamerd op dit onderscheid. Maar als ik kijk naar de verzameling SoFi-nummers versus de verzameling aangifte inkomstenbelasting, dan zie ik toch een enorm verschil. Dit verschil gaat er met name over, wat ik weet over iemand. Ik heb het gevoel dat er veel meer betekenis zit iin een aangifte IB. Beide verzamelingen bevatten feiten die zijn vastgesteld. Echter een verzameling IB gegevens stelt je tot veel meer in staat. Nee, dat is ook niet waar. Er hangt ook heel veel aan een SoFinummer. Maar er is toch verschil tussen het aanwijzen van dingen en het beschrijven van dingen. Met aanwijzen, beschrijf je bijna niets. Met beschrijven doe je ook heel veel uitspraken en breng je kennis over.

Met beschrijven geef je eigenschappen weer die waar zijn. Door te weten wat waar is, kun je dingen. Door te weten wat waar is, kun je je doel bereiken. Echter, het is heel goed mogelijk dat je veel veronderstelt op grond van een gegeven. Je hebt dan last van 'impliciete kennis'. Die impliciete kennis kan op 2 plaatsen zitten: degene die registreert en degene die het gegeven gebruikt. Wil je het probleem van impliciete kennis zo klein mogelijk maken, dan moet je je verdiepen in de ander. Niet alleen moet je weten hoe hij zijn data creëert maar ook waarom hij behoefte heeft aan die data. Beide beschrijvingen leveren je veel informatie over het gegeven.

De bruikbaarheid van een verzameling gegevens is ook niet altijd beschreven. Ook de bruikbaarheid is vaak impliciet (verborgen). Je moet zelf je best doen om de bruikbaarheid van een gegeven vast te stellen.

December 2013	Semantische verwarring (31 december 2013)
November 2013	Over 'verplicht gebruik' (25 november 2013)
September 2013	Muren die alles doorlaten (8 september 2013)
Augustus 2013	De structuur van RDF (25 augustus 2013)
Januari 2013	Linked Open Data indeling (29 januari 2013)
	URI's (revisited) (4 januari 2013)
December 2012	The Ontologist does not Work (29 december 2012)
November 2012	The semantic web (25 november 2012)
	URI's (24 november 2012)
Juli 2012	IT maar dan spiritueel (21 juli 2012)
Juni 2012	Waarom is semantisch web noodzakelijk voor hergebruik? (14 juni 2012)
Februari 2012	Interoperabiliteit, samenvatting (6 februari 2012)
Januari 2012	Open Data kan niet zonder terugmelden (13 januari 2012)
	Belastingdienst weer voorop? (13 januari 2012)
	Openbaar versus Privacy (5 jan 2012)
December 2011	Het draait allemaal om waarschijnlijkheid... (3 dec 2011)
November 2011	Wat is privacy? (28 november 2011) Specifiek - Generiek (6 november 2011)
Oktober 2011	Iedere keer weer verder... (17 oktober 2011)
September 2011	Iedere term heeft een community (7 september 2011)
Augustus 2011	Mijn vingers om Linked Open Data (30 augustus 2011)
Juni 2011	Ceci n'est pas une pipe (20 juni 2011)
	Manifest "semantiek van gegevens" (10 juni 2011)
	Koppelen (10 juni 2011)
Feb 2011	Context net zoals Google Maps (18 feb 2011)
Jan 2011	Filosofische verhandelingen (14 januari 2011)
Nov 2010	Kennis is Handelen (21 november 2010)
Feb 2010	Het vervolg (13 maart 2010) Hoe nu verder? (27 feb 2010) Wat is kennis? (14 feb 2010) Iets is Principle based als... (14 feb 2010) En nu: de praktijk (12 feb 2010) Gegevens hergebruiken (artikel, boek, ...) (6 feb 2010) Gesprek met B V(2 feb 2010)
Jan 2010	Principle based versus Rule based accountancy (29 Jan 10) De bedoelingen van de bron (29 jan 2010) Bestaat waarneming uit indrukken of uit mogelijkheden? (29 jan 2010) Pieter Wisse (24 jan 2010) Wendbare gegevens (24 jan 2010) F van B (24 jan 2010) Verandering... (21 jan 2010) Mooie term: Semantisch verzoenen (21 jan 2010) Het meten van semantiek (20 jan 2010) Intenties van de Belastinginspecteur (19 jan 2010) Registratie versus informatie (15 jan 2010) Intentie is Liefde? (13 januari 2010) Nogmaals: de ijsberg metafoor (9 jan 2010) Ijsberg metafoor (9 jan 2010) T van E (8 jan 2010) Ontbijttelivisie: teveel voorbereiding, laat het los! (8 janarui 2010) Belastingdienst Promovendidag (7 januari 2010) S B (6 januari 2010) Onderzoeksgebied (1 jan 2010)
Dec 2009	Mijn whiteboard op 31 dec 2009 Herstart artikel (31 dec 2009) Van actief naar passief (31 dec 2009) Wendbaarheid = Bruikbaarheid = Basic levelness = Prototypicality = Aboutness? (30 dec 2009) The influence of intention on the meaning of data: an exploration (dec 28 2009) Wendbaarheid van gegevens 27 dec 2009 Decentraal organiseren, 27 dec 2009 Mijn whiteboard 24-dec-2009 Willen en Structuur 24-dec-2009 Bestandsbeheer 14-dec-2009 Interview met L V 8-dec-2009 Effectiviteit in Bestuursrecht (Artikel uit NTB) 3-dec-2009
Nov 2009	Verslag gesprek met H D, 25-nov-2009 Verslag bespreking P K, 13-nov-2009 Verslag gesprek met D K 12-nov-2009
Okt 2009	Onderzoeksvoorstel: De toepassing van Activity Theory op Gegevensuitwisseling 23-okt-2009 Punten van aandacht Maar... waar gaat het nu over? Begeleiding
Jun 2009	Over deze blog

Semantische interoperabiliteit en Activity Theory

vrijdag 15 januari 2010

Registratie versus informatie (15 jan 2010)

Geen opmerkingen:

Een reactie posten

Inhoud