Semantische interoperabiliteit en Activity Theory: De structuur van RDF (25 augustus 2013)

zondag 25 augustus 2013

De structuur van RDF (25 augustus 2013)

Dit bericht schrijf ik vanwege het onvoldoende presteren van RDF-stores (AllegroGraph in mijn geval). Het was te voorspellen: als je data gaat opslaan waarbij je het systeem nauwelijks iets vertelt over de structuur van de data, dan moet het systeem ongelooflijk veel rekenen als je de structuur pas creëert tijdens het opvragen van de data. AllegroGraph presteert fantastisch maar als je in een query een uitgebreide structuur opbouwt die meerdere keren de gehele database doorloopt, dan krijgt zelfs AllegroGraph problemen. Het schijnt dat Virtuoso 7 veel van die problemen heeft opgelost maar dat heb ik nog niet kunnen vaststellen.

Het probleem komt volgens mij ook de door de manier waarop we RDF maken van relationele tabellen. Op dit moment doen we dat als volgt:

de tabel bepaalt het type instanties (rdf:type) in de tabel
iedere rij in de tabel heeft een id (URI). Deze URI is een verwijzing naar een concrete instantie. Deze URI vormt de subject van een triple.
iedere kolom heeft zelf ook een id (URI). Deze URI verwijst naar een concept, meestal een eigenschap van de instantie. Deze URI vormt de predicate van triples.
de cellen, die niet het id vormen van de instantie, bevatten óf de waarde van die instantie voor die eigenschap óf een verwijzing (URI) naar een andere instantie. Zo'n cel vormt de object van een triple.

Deze manier van omvormen van relationele tabellen naar RDF is lekker eenvoudig en daardoor overzichtelijk. Maar is ze juist? Moeten we willen dat van iedere cel een aparte triple wordt gemaakt? Wat is de requirement die dat verlangt?

Een alternatief (dat me werd aangereikt door Richard Nagelmaeker) is om van de gehele rij één triple te maken. Het object van deze triple is een code-waarde-lijst. De codes in de code-waarde-lijst zijn URI's die verwijzen naar de concepten, meestal eigenschappen van de instanties. De waarden in de code-waarde-lijst zijn strings als het gaat om data of URI's als het gaat om verwijzingen naar instanties waarvan de data in andere tabellen staan.

De rationale voor deze benadering is dat je óf geïnteresseerd bent in de instanties óf dat je geïnteresseerd bent in de concepten. Het komt niet vaak voor dat je in één opvraging informatie (data) over zowel de concepten als over de instanties ophaalt. Raadpleegt de opvraging meerdere tabellen, dan moeten er één of meer tussenstappen gemaakt worden die van de relaties tussen instanties een aparte (tijdelijke) code-waarde lijst maakt ten einde eenvoudig van iedere instantie een bijbehorende instantie te kunnen opvragen.

December 2013	Semantische verwarring (31 december 2013)
November 2013	Over 'verplicht gebruik' (25 november 2013)
September 2013	Muren die alles doorlaten (8 september 2013)
Augustus 2013	De structuur van RDF (25 augustus 2013)
Januari 2013	Linked Open Data indeling (29 januari 2013)
	URI's (revisited) (4 januari 2013)
December 2012	The Ontologist does not Work (29 december 2012)
November 2012	The semantic web (25 november 2012)
	URI's (24 november 2012)
Juli 2012	IT maar dan spiritueel (21 juli 2012)
Juni 2012	Waarom is semantisch web noodzakelijk voor hergebruik? (14 juni 2012)
Februari 2012	Interoperabiliteit, samenvatting (6 februari 2012)
Januari 2012	Open Data kan niet zonder terugmelden (13 januari 2012)
	Belastingdienst weer voorop? (13 januari 2012)
	Openbaar versus Privacy (5 jan 2012)
December 2011	Het draait allemaal om waarschijnlijkheid... (3 dec 2011)
November 2011	Wat is privacy? (28 november 2011) Specifiek - Generiek (6 november 2011)
Oktober 2011	Iedere keer weer verder... (17 oktober 2011)
September 2011	Iedere term heeft een community (7 september 2011)
Augustus 2011	Mijn vingers om Linked Open Data (30 augustus 2011)
Juni 2011	Ceci n'est pas une pipe (20 juni 2011)
	Manifest "semantiek van gegevens" (10 juni 2011)
	Koppelen (10 juni 2011)
Feb 2011	Context net zoals Google Maps (18 feb 2011)
Jan 2011	Filosofische verhandelingen (14 januari 2011)
Nov 2010	Kennis is Handelen (21 november 2010)
Feb 2010	Het vervolg (13 maart 2010) Hoe nu verder? (27 feb 2010) Wat is kennis? (14 feb 2010) Iets is Principle based als... (14 feb 2010) En nu: de praktijk (12 feb 2010) Gegevens hergebruiken (artikel, boek, ...) (6 feb 2010) Gesprek met B V(2 feb 2010)
Jan 2010	Principle based versus Rule based accountancy (29 Jan 10) De bedoelingen van de bron (29 jan 2010) Bestaat waarneming uit indrukken of uit mogelijkheden? (29 jan 2010) Pieter Wisse (24 jan 2010) Wendbare gegevens (24 jan 2010) F van B (24 jan 2010) Verandering... (21 jan 2010) Mooie term: Semantisch verzoenen (21 jan 2010) Het meten van semantiek (20 jan 2010) Intenties van de Belastinginspecteur (19 jan 2010) Registratie versus informatie (15 jan 2010) Intentie is Liefde? (13 januari 2010) Nogmaals: de ijsberg metafoor (9 jan 2010) Ijsberg metafoor (9 jan 2010) T van E (8 jan 2010) Ontbijttelivisie: teveel voorbereiding, laat het los! (8 janarui 2010) Belastingdienst Promovendidag (7 januari 2010) S B (6 januari 2010) Onderzoeksgebied (1 jan 2010)
Dec 2009	Mijn whiteboard op 31 dec 2009 Herstart artikel (31 dec 2009) Van actief naar passief (31 dec 2009) Wendbaarheid = Bruikbaarheid = Basic levelness = Prototypicality = Aboutness? (30 dec 2009) The influence of intention on the meaning of data: an exploration (dec 28 2009) Wendbaarheid van gegevens 27 dec 2009 Decentraal organiseren, 27 dec 2009 Mijn whiteboard 24-dec-2009 Willen en Structuur 24-dec-2009 Bestandsbeheer 14-dec-2009 Interview met L V 8-dec-2009 Effectiviteit in Bestuursrecht (Artikel uit NTB) 3-dec-2009
Nov 2009	Verslag gesprek met H D, 25-nov-2009 Verslag bespreking P K, 13-nov-2009 Verslag gesprek met D K 12-nov-2009
Okt 2009	Onderzoeksvoorstel: De toepassing van Activity Theory op Gegevensuitwisseling 23-okt-2009 Punten van aandacht Maar... waar gaat het nu over? Begeleiding
Jun 2009	Over deze blog

Semantische interoperabiliteit en Activity Theory

zondag 25 augustus 2013

De structuur van RDF (25 augustus 2013)

Geen opmerkingen:

Een reactie posten

Inhoud