Hic Sunt Leones

Last year Richard Zijdeman of the IISH took the initiative to discus the modeling of person-information in Linked Data. Some 40 people gathered at the institute to present intermediate results and future plans. One year later a divers group of specialists has created preliminary examples.

On June 24th 2019 Hic Sunt Leones organized a second meeting with the specific purpose to exchange ideas and experiences. This day was payed for by the Stichting Geschiedenis en Informatica. The board of this foundation has decided to dismantle the foundation, which financed projects in History and Computing in the Netherlands during the 80’s, 90’s and early 2000’s. The foundation has donated their last financial resources to Hic Sunt Leones for organizing this day, with lunch and drinks. In this blog post we summarize the Questions asked and potential Answers we came up with.

What is a Person?

There is a distinction between a description/observation/original record of a person and the actual person and this should also be reflected in your modelling. Presenting persons with properties that change over time can be challenging. One strategy is to model these mutable properties as (life) events, another is to construct time slices or snapshots of a person, where these properties are unmutable and only exist at a certain point in time.

Life events

What exactly is an event? Is it instantaneous? How long can an event be? Just a single date? Hour? Or can it also be a period of 30 years? Like being married? These are all possible and you need to choose your vocabulary wisely, taking these into account to ensure that it does not become restrictive. Can it also handle less precise dates for instance?
The Bio vocabulary is especially useful in modelling someone’s life events. Schema focuses more on the relations between persons.

Person observations

A vocabulary that tries to model observations of a person as a snapshot in time is roar (Reconstructions and Observations in Archival Resources)
It revolves around the idea of one person mentioned in one source and person reconstructions can be created out of these – possibly even conflicting – person observations.

Menno den Engelse has written a more detailed explanation which can be found here (in Dutch)

Person names

In the meeting last year PNV (Person Name Vocabulary) was introduced. It deals with all the intricacies of peoples names and can handle both very generic and very detailed data. A lot of people were already using PNV but also found some properties missing, so Lodewijk Petram was kind enough to add a property for initials and nameSpecification (to specify a pseudonym for instance).

After the meeting Bob Coret has created an example of modelling person data, in this case victims of the Second World War. This file can be found here.

How to choose an ontology?

Well choose one. Try to not re-invent the wheel by creating a new custom ontology. There are a lot of online resources to find out about existing ontologies (see below).
When choosing; take into account whether it’s a long lived one (proven technology) and also look at whether it is still actively maintained, who maintains it and whether it is backed and/or widely used.

How to deal with uncertainty?

How to model a person if the original sources are not very clear and you are for instance uncertain about whether “botercoper” is someones surname or profession?
The best approach seemed to be to model both and introduce an extra concept (possibleSurname/possibleProfession e.g.), to leave the interpretation up to the user/researcher using the data.
Or model this kind of name uncertainty as a nameVariant in PNV.
When it comes to dealing with time and especially uncertain or unprecise dates, the sem vocabulary is widely used.

Recommendations

  • Distinguish between a record/source and the person it mentions, when modelling. Use roar.
  • Model provenance in such a way that later users can see who made the decision to model “botercoper” as a name in stead of a profession.
  • Use different vocabularies to model the same thing twice and go into more detail when you need or want to.

Helpful links

https://lov.linkeddata.es/dataset/lov/
http://ontologies.dataforhistory.org
https://semanticweb.cs.vu.nl/2009/11/sem/semdoc.html#sem:Event
http://vocab.org/bio/
https://w3id.org/pnv
https://w3id.org/roar
http://www.cidoc-crm.org/

augustus 28th, 2019

Vrijwel elke Amsterdamse erfgoedinstelling heeft kaarten in haar collectie, maar kennis, middelen en de infrastructuur om dit materiaal netjes (geografisch) te ontsluiten zijn vaak niet aanwezig.

Stippenkaart – detail, NIOD

Geografisch zoeken

Wilde je weten hoe het Museumplein er honderd jaar geleden bij lag, dan was de handigste route tot voor kort: in de beeldbank van het Stadsarchief zoeken op ‘bladwijzer‘, daarop zien dat je blad K4 moet hebben, dan zoeken op ‘blad K4’ en de resultaten ordenen op datering zodat de 1909 bladen (je weet natuurlijk dat dat de vroegste 1:1000 reeks is) bovenaan komen.

Nu heeft het Stadsarchief haar kaartmateriaal een paar jaar geleden in een crowdsourceproject laten georefereren, waardoor dit nu zonder al te veel moeite handiger kan. In februari heb ik met Bert Spaan op de Hackalod al twee applicaties gemaakt die op basis van de al beschikbare data een geografische zoekinterface biedt. Daarin wijs je simpelweg een punt aan op de kaart, het Museumplein bijvoorbeeld, en krijg je alle kaarten die dat punt bevatten.

Bert heeft dat onlangs wat verder uitgewerkt in een prototype dat ook andere parameters meeneemt: periode, deelcollectie en maker. Een heel verschil met de oude situatie, zeker voor mensen die onbekend zijn met de term ‘bladwijzer’.

Kaartmateriaal van andere instellingen, bijvoorbeeld de verzamel- en minuutplans van RCE of HisGis, kan moeiteloos in zo’n interface bijgevoegd worden.

De dialecten van Amsterdam – detail, Meertens Instituut

Van beeldbank-item naar kaart

De meeste erfgoedinstellingen zijn nog niet zo ver als het Stadsarchief. Gegeorefereerd is er zelden, soms zijn kaarten zelfs nog niet gescand. De volgende stappen maken van een collectie-item een Echte Kaart:

  • Scannen, natuurlijk.
  • Georefereren, het verbinden van zoveel punten op de kaart met daadwerkelijke coördinaten dat de afbeelding goed geprojecteerd kan worden.
  • Uitsnijden, het isoleren van het betekenisdragende deel van het kaartblad, oftewel het wegsnijden van de witruimte daaromheen. Bij de kaarten van het Stadsarchief is dit niet gedaan, wat het geografisch zoeken naar bladen uit de Buurtatlas van 1876 (die veel witruimte hebben) een stuk minder precies maakt.
  • Publiceren, als geotiff (afbeelding met georeferentie, vaak honderden MB’s groot) en liefst ook als tiles (kleine stukjes kaart, per zoomlevel), zodat ze makkelijk binnen andere kaartapplicaties te tonen zijn.

Over scannen hoef je erfgoedinstellingen niets te vertellen, maar wat betreft de rest zou een centrale Amsterdamse service, denk ik, welkom zijn. Het neerzetten van een Mapwarper instantie, zoals Erfgoed Leiden gedaan heeft, zou het hele bovenstaande lijstje al afvinken.

Omnibuslijnen – detail, UvA Bijzondere Collecties

Op naar een Cartografische Collectie Amsterdam?

Een tool als Mapwarper kan de kaarten dus naar het juiste formaat brengen en publiceren. De infrastructuur waarin de metadata bevraagd kunnen worden in samenhang met andere collectiedata bestaat ook al: de triple store van AdamNet. De genoemde prototypes zijn hier al op gebouwd.

Het georefereren en goed doorzoekbaar maken van al het Amsterdamse kaartmateriaal vraagt goedbeschouwd een beperkt aantal zaken:

  • Mapwarper instantie of soortgelijke tool neerzetten
  • Metadata conversie naar RDF, de relatief kleine aantallen kaarten per collectie (het NIOD heeft bijvoorbeeld 35 Amsterdamse kaarten) maken dit zowel overzichtelijk als een goede oefening.
  • Inhoudelijke hulp bij zowel georefereren als rdf-conversie.
  • Interface ontwikkelen op basis van de gemaakte prototypes

In een project dat dit ter hand neemt zouden Amsterdamse erfgoedinstellingen samen iets voor elkaar kunnen krijgen dat elk van hen afzonderlijk niet snel zou lukken: zowel het goed in kaart brengen van de Amsterdamse geschiedenis als het bruikbaar aanbieden van achterliggend kaartmateriaal.

Er is overigens geen enkele reden om alleen kaarten betreffende Amsterdam via de geschetste route te ontsluiten.

De komende tijd hopen we uit te vinden of de instellingen iets zien in zo’n project. Reacties, opmerkingen en alle hulp zijn welkom!

Algemeen uitbreidingsplan – detail, VU Universiteitsbibliotheek

mei 22nd, 2018

Vorige week hadden we in het kader van de toekenning van ons projectvoorstel voor een Klein Data Project bij DANS een leerzame dag bij het IISG. Ook Richard Zijdeman van het IISG leidt daar namelijk een Klein Data Project. Al bij de projectaanvraag hadden we met hem afgestemd hoe zijn ideeën over het gebruik van R bij het visualiseren van data op kaarten aansluit bij ons idee om informatie over de gemeentes beschikbaar te stellen. Met dank aan Onno Boonstra die ons aan elkaar koppelde.

In de loop van de middag hadden we (bijna) een proef draaien, waarbij historische data op een kaart met gemeentegrenzen uit 1899 kon worden weergegeven. Om dat te realiseren had Edward een Web Feature Service opgezet, waarmee de gemeentegrenzen worden gepubliceerd. Deze zelfde service heeft Menno gebruikt om de JSON die we aanbieden uit te breiden met GeoJSON, met daarin de gemeentegrenzen, bijvoorbeeld in het geval van Amersfoort.

Een vruchtbare samenwerking, die we afsloten met een goede pot bier. Dus nog gezellig ook. Wordt zeker vervolgd!
GIF animatie van Amersfoort door Richard Zijdeman
Animated GIF door Richard Zijdeman. Klik op het plaatje om de animatie te bekijken. De code is hier te vinden.

mei 14th, 2014

Het was te verwachten. We zijn natuurlijk niet de eerste en enige in Europa die iets willen (of moeten) met historische plaatsnamen. Gisteren was ik op de ESSHC bij een sessie over precies dit onderwerp: historical gazetteers, al dan niet met kaartmateriaal. Twee belangrijkste voorbeelden waren de Engelse variant (www.placenames.org.uk) en de Deense variant (www.digdag.dk). De eerste bevat voornamelijk namen en weinig kaarten, de Deense variant is vooral gericht op administratieve eenheden. Aanzienlijk meer data dan wij hebben, maar – zo bleek uit mijn expliciete vraag – nog niet beschikbaar via een API. Ook ontbraken de exonymen: Nederlandse namen voor buitenlandse (zoals “Wenen” (nl) of “Vienna” (eng) voor “Wien” (deu)). We hebben nog een uitgebreide studie te maken van de literatuur op dit gebied en ik heb met de Deense spreker afgesproken om technische en metadata kennis uit te wisselen, zodat als we straks een Europese variant willen maken, dat er niet weer allerlei kunst en vliegwerk nodig is. Leeuw bij Secession in Wenen

april 26th, 2014

Naar aanleiding van de presentatie van onze paper in Amsterdam werd ik gevraagd dezelfde paper ook te presenteren op een bijeenkomst die speciaal over dit thema ging. Het betrof een bijeenkomst van de Workings Group GIS van het European Historical Population Sampling Network (EHPS-Net) op 22 april. Een detail: het was in Wenen. De bijeenkomst was gepland op de dag voorafgaand aan de 10e European Social Science and History Conference (ESSHC). Ik had de ticket nog niet geboekt, maar zou toch naar deze conferentie om een paper te presenteren over een ander project. Een dag eerder naar Wenen kon ingepland worden.

Tijdens de bijeenkomst werden historische GIS-projecten gedemonstreerd over Edinburgh, Montreal, Amsterdam, Madrid en Portugal. Via Skype haakten in de middag twee Amerikanen aan, die vertelden over hun initiatieven in New York en Boston. Stuk voor stuk indrukwekkende projecten met enorme hoeveelheden data over historische populaties, bijvoorbeeld om historische demografie mee te beoefenen. Meestal waren ook indrukwekkende websites gebouwd, waarmee iedereen in de wereld in staat was het materiaal via de kaart te bekijken en te benaderen. Projecten die soms al tientallen jaren liepen. Maar geen van allen zochten ze naar methoden om de informatie – al dan niet via een kaart – zodanig te standaardiseren dat bijvoorbeeld twee steden snel en efficient zouden kunnen worden vergeleken. Er werd ook niet gezocht naar gestandaardiseerde lijsten van plaatsnamen, die voor iedereen beschikbaar zijn. Onze presentatie was daarin bijzonder. Nut en noodzaak werden wel gevoeld. Het heeft mij gesterkt in het idee dat we iets doen dat er toe doet. Werk aan de winkel!

april 25th, 2014

Linked data – het blijft soms wat conceptueel. Om daar verandering in te brengen hebben we vorige week een dagje gehackt op de VU. Met pizza. Door de gemeentegeschiedenis data als rdf te ontsluiten kan ze nu bijvoorbeeld ook gekoppeld worden aan de volkstellingen.

pizza

april 7th, 2014

DANS stelt elk jaar een aantal subsidies beschikbaar voor zogenoemde ‘Kleine Data Projecten‘ – projecten die zich richten “op het beschrijven en toegankelijk maken van belangrijke datasets”. Per project is 10.000,- euro beschikbaar. Ook aan Gemeentegeschiedenis is dit jaar deze subsidie toegekend om tot een betere ontsluiting van de data te komen.

Met de toekenning kunnen we de gemeentedata ontsluiten als SKOS en RDF, zodat de data eenvoudiger gebruikt kan worden door instellingen en gelinkt kan worden met andere datasets. Daarnaast is het de bedoeling een Web Feature Service op te zetten, waarmee de gemeentegrenzen van willekeurig welk jaar uit de afgelopen twee eeuwen voor een ieder beschikbaar komt in verschillende formaten, waaronder GeoJSON.

Onze aanvraag hebben we gecombineerd ingediend met een aanvraag van Dr. Richard Zijdeman van het IISG. Dat eveneens gehonoreerde project behelst de ontwikkeling van een tool waarmee historische data geografisch weergegeven kan worden. De voor de tool benodigde geometrieën zullen van de gemeentegeschiedenis WFS komen. Zo kunnen de historische gemeentegrenzen op een centrale plek bijgehouden en verbeterd worden.

april 7th, 2014

Al bijna anderhalf jaar werken we nu samen, eerst aan Gemeentegeschiedenis, later ook aan Histopo, en andere projecten liggen op de tekentafel. Als het over zo’n project gaat, komt steeds vaker  de vraag ‘wie of daar achter zit’. Dan leggen we uit dat we een groepje kleine zelfstandigen met een missie zijn en op één na, die onder eigen naam bedrijf voert, introduceert elk van ons zich vervolgens met voor-, achter- en bedrijfsnaam.

Tijdens zo’n uit de hand gelopen voorstelrondje adviseerde iemand ons onder één naam te gaan opereren. Zij die ons kennen weten dat wij advies graag ter harte nemen, en voilà – hier zijn de leeuwen.

Vanwege die missie is het een kollektief met een k geworden. Dat klonk wel, ahum, aktivisties. Zowel de oorsprong van de naam Hic Sunt Leones als het doel van de missie hebben we op de homepage samengevat.

maart 13th, 2014

Tijdens de onlangs in het IISG gehouden workshop Population Reconstruction presenteerde Ivo Zandhuis onze gezamenlijke paper Dutch historical toponyms in the Semantic Web. In de paper wordt de rationale achter Gemeentegeschiedenis en Histopo uiteengezet en een visie gegeven op hoe deze projecten zich verder zouden moeten ontwikkelen.

Het geworstel met plaats- en gemeentenamen, daar hadden veel van de aanwezigen ervaring mee. Voor eigen projecten is meestal wel een gestandaardiseerde namenlijst voorhanden, maar in de uitwisseling met data elders doemen de problemen dan weer op. Een aantal onderzoekers maakte al gebruik van Gemeentegeschiedenis, wat ons natuurlijk goed deed.

De belangstelling voor onze aanpak bleek ook uit het feit dat Ivo is uitgenodigd binnenkort in Wenen dezelfde presentatie te houden.

maart 11th, 2014