Mining social structures from genealogical data [article]

I Julia Efremova, PME Paul De Bra, TGK Toon Calders
2016
Dealing with genealogical data is a challenging task since often information about individuals is distributed across various sources. For instance, the life span of a person (which is considered as obvious information) can be extracted from his or her birth and death records. Obtaining additional information about the main life events such as marriage, child birth, decease of a parent, buying a house and family migration requires an analysis of various historical sources. One of the main
more » ... of the main sources of genealogical data is a collection of civil certificates which consists of birth, marriage and death records. These documents have a predefined structure and contain the main attributes such as: person name, birth date, place, etc. Another typical source of historical data is a collection of notary acts which contain documents in textual format, for instance purchase agreements, property transfer, inheritance acts and other legal agreements. Structural differences, missing information, variations in the main fields and the lack of personal identifiers are common issues associated with genealogical data. For instance, a first name of the same person can be spelt differently in various documents as well as different persons can have the same names and even the same last names. This complicates the process of identification of an individual across various documents. In our research, we identify the two main goals: to build a family tree and to create a time-line of a family history in order to mine social patterns. We begin our research by designing an effective entity resolution technique to identify person references in different documents that belong to the same real world entity. The main challenges of an entity resolution process are the following: • dealing with multi-source information; • producing a high accuracy together with a maximum number of matching references; • coping with inaccurate cultural heritage data; • efficiently handling large data sources. As a component of entity resolution, we propose a 'hybrid similarity measure'. It allows to overcome the data variation problem, which arises from names, professions i and places variations. Apart from entity resolution, we also investigate natural language processing techniques in order to deal with textual documents. Therefore, a large part of this thesis is devoted to the problems of text classification and extraction of family relationships from unstructured historical documents. Types of historical documents, persons that are mentioned there and their family relationships are elements of a family history which we finally present in the form of a time-line. The techniques that we design for unstructured data include methods for family relationship extraction, algorithms for text classification in the case of noisy labels, and investigation of effects of evolutionary linguistic on text classification results. By extracting personal data from the text, predicting the type of documents and applying multi-source entity resolution, we make available a lot of genealogical information which we use to reproduce family facts and to reconstruct family histories. Samenvatting in het Nederlands Omgaan met genealogische gegevens is een uitdagende taak, omdat informatie over individuen vaak is verdeeld over verschillende gegevensbronnen. Bijvoorbeeld, de levensduur van een individu (hetgeen wordt beschouwd als vanzelfsprekende informatie) kan verkregen worden uit diens geboorte-en overlijdensakten. Het verkrijgen van meer informatie over de belangrijkste gebeurtenissen in het leven, zoals een huwelijk, geboorte, overlijden van een ouder, een huis kopen en gezinsmigratie vereist een analyse van de primaire en secundaire genealogische bronnen. Primaire bronnen zijn typisch burgerlijke standgegevens zoals geboorte, huwelijksen overlijdingsakten, terwijl secundaire bronnen allerlei archiefstukken kunnen zijn, die meestal niet over een vaste structuur beschikken en vaak worden opgeslagen in een tekstformaat. Typische voorbeelden van secundaire bronnen zijn historische notariële handelingen zoals eigendomsoverdracht overeenkomsten, erfenissen en andere juridische overeenkomsten. Structurele verschillen, ontbrekende of onjuiste informatie en het ontbreken van persoonlijke identificatiemiddelen zijn veelvoorkomende problemen die zijn geassocieerd met genealogische gegevens. In ons onderzoek identificeren we de volgende belangrijke doelen, namelijk: het bouwen van een stamboom, het creëren van de familiegeschiedenis en het in kaart brengen van sociale patronen. We beginnen ons onderzoek met het ontwerpen van een efficiënte entiteitresolutie techniek. Entiteit resolutie in genealogische datasets is het probleem van identificatie van persoonreferenties die behoren tot een en dezelfde entiteit. De voornaamste uitdagingen voor de entiteit resolutiemethode zijn: • het gebruiken van informatie afkomstig uit meerdere bronnen; • het produceren van een hoge nauwkeurigheid met een maximum aantal overeenkomende referenties; • het omgaan met onnauwkeurige cultureel erfgoed gegevens; • het efficiënt verwerken van grote gegevensbronnen. Als onderdeel van entiteit resolutie beschrijven wij een hybride similariteitsmaat, gericht op het efficiënter maken van het totale proces. Die is ontworpen om de onzekerheid die voortvloeit uit variaties van namen, beroepen en plaatsen te verhelpen. iii Behalve entiteitresolutie zijn ook efficiënte natuurlijke taalverwerkings technieken nodig om te werken met tekstdocumenten. Derhalve is een groot deel van het proefschrift gewijd aan het tekst classificatieprobleem en de extractie van gezinsrelaties uit niet gestructureerde historische documenten. Informatie over de aard van de gebeurtenis in een tekstueel document wordt beschreven, personen die worden genoemd en familierelaties zijn elementen van familiegeschiedenis die we uiteindelijk weergeven in de vorm van een tijdslijn. De technieken, die we ontwerpen voor ongestructureerde data, bestaan uit familie relatie extractie, algoritmes voor tekstclassificatie in het geval van ruisachtige labels, en onderzoek naar effecten van evolutionaire taalkunde op tekstclassificatie resultaten. Door persoonlijke gegevens te extraheren uit de tekst, het voorspellen van de aard van de documenten en het toepassen van entiteitresolutie we beschikbaar veel genealogische informatie maken die wij gebruiken om familiefeiten te reproduceren en familiegeschiedenissen te reconstrueren.
doi:10.6100/ir842539 fatcat:hdjowuxenjhd7czlellwn3l3pa