DBNL OCR Data set

    Introduction
    Body

    This data set consists of 220 texts digitised by the DBNL (Digital Library of Dutch Literature). All texts have been digitised, OCRed and then manually corrected and transformed into TEI-Lite (P4). This data set consist of two files per text, one original OCR file in plain text and a corrected TEI file.

    This set is a subselection of the public domain collection of the DBNL for which we had OCR results and TEI files available. The texts range from 1776 to 1878 and are primarily in Dutch.

    The following titles are included, some of which have multiple volumes;

    • Al de volksdichten
    • Algemeen Nederduitsch en Friesch Dialecticon
    • Algemeen wijsgeerig, geschiedkundig en biographisch woordenboek voor vrijmetselaren
    • Alle de werken
    • Avondschemering
    • Beatrijs en Carel ende Elegast
    • Beginsels der woordvorsching
    • Bijdragen en Mededeelingen van het Historisch Genootschap
    • Biographisch woordenboek der Nederlanden
    • De dichtwerken van Bilderdijk
    • De dichtwerken van vrouwe Katharina Wilhelmina Bilderdijk
    • De gierigaard
    • De Hollandsche natie
    • De nachtegaal en het lijstertje
    • De Nederlandsche kerkgeschiedschrijver Geeraardt Brandt
    • De taal- en letterbode
    • De Taalgids
    • De Tijdspiegel
    • Der leken spieghel
    • Die Dietsce Catoen
    • Dietsche Warande
    • Familie en kennissen
    • Gezamenlijke dichtwerken
    • Gideon Florensz. Deel 1
    • Handleiding tot de kennis van onze vaderlandsche spreekwoorden en spreekwoordelijke zegswijzen, bijzonder aan de scheepvaart en het scheepsleven, het dierenrijk en het landleven ontleend
    • Het land, in brieven
    • Het leven en de uitgelezen verzen van Elizabeth Wolff-Bekker
    • Histoire de la littérature flamande
    • Huibert en Klaartje
    • Kunstwoordenboek
    • Leçons élémentaires et pratiques de langue flamande. Lecture, grammaire, lexicologie
    • Lenteloveren
    • Letterkundige schetsen
    • Leyden ontzet, in 1574
    • Los en vast. Jaargang 1870
    • Madelieven
    • Nieuwe winde-kelken
    • Ongeloof en revolutie
    • Oude Vlaemsche liederen
    • Over kinderpoëzy
    • Parthonopeus van Bloys
    • Proeve van Bredaasch taal-eigen
    • Roman van Cassamus
    • Roman van Karel den Grooten en zijne XII pairs
    • Roman van Moriaen
    • Romantische werken
    • Snippers van de schrijftafel
    • Spieghel historiael
    • Tooneelspelers
    • Torec
    • Uit het leven voor het leven
    • Vaderlandsche letteroefeningen
    • Van enen manne die gherne cnollen vercoopt ene goede boerde
    • Van vrouwen ende van minne
    • Vanden vos Reinaerde
    • Verspreide en nagelaten gedichten
    • Zeemans-woordenboek

     

    Citaat

    When using this data set we ask you to cite is as follows;

    DBNL (2016), DBNL OCR Data set. KB Lab: The Hague. http://lab.kb.nl/dataset/kbk-1m/ // http://doi.org/10.5281/zenodo.3239290

    Toegang

    All files in this dataset are in the public domain and therefore freely downloadble as zip-files through our Zenodo community.

    For an overview of all titles and publication dates, please see the metadata excel file (on Zenodo).