IIIF Conference 2019

24.07.2019 – 28.07.2019 in Göttingen

Im Juli 2019 findet die jährliche IIIF Conference in der Universität Göttingen statt. Neben den verschiedenen Lightning Talks und Vorträgen werden am 25.07.2019 ebenso Workshops angeboten. Goobi ist hier durch einem dreistündigen Workshop mit folgendem Titel vertreten:

Creating, delivering and consuming IIIF Manifests within the Goobi Community

Steffen Hankiewicz, Oliver Paetzel & Jan Vonde (intranda GmbH)

25.07.2019, 14:00 – 18:00 Uhr, Universität Göttingen, Alte Mensa Conference and Event Center, Wilhelmsplatz 3, 37073 Göttingen, Germany

Workshop Inhalte

In unserem Goobi-IIIF-Workshop zeigen wir praktisch und end-to-end, wie jeder Teilnehmer mit sehr einfachen Mitteln innerhalb von 20 min selbständig in der Lage ist, aus Verzeichnissen mit Bildern valide standardisierte Metadaten zu erzeugen, die den bibliothekarischen (METS/MODS) und musealen (LIDO)  Ansprüchen genügen und wie diese für die Digital Humanities als TEI bereitgestellt werden können. Mit Goobi-to-go werden dabei aus diesen standardisierten Metadaten und Dateien zugleich auch automatisch valide IIIF Manifeste, die sofort in beliebigen anderen IIIF Konsumenten (wie z.B. Mirador) genutzt werden können.

Im zweiten Teil des Workshops gehen wir im Detail auf unsere aktuellen Entwicklungen ein, die für die Bildanalysen und Volltextanalysen auf Machine-Learning-Verfahren auf diesen IIIF-Schnittstellen aufsetzen.

Hintergrund

Die Open-Source-Software Goobi vereint bereits seit mehr als 14 Jahren zahlreiche Kultureinrichtungen aus derzeit 17 Ländern in einer gemeinsamen Digitalisierungs-Community. Dabei hat die Koordinierung einfacher wie komplexer Workflows von Digitalisierungsprojekten (Goobi workflow) einen ebenso hohen Stellenwert wie die Bereitstellung der digitalisierten Ergebnisse für die Öffentlichkeit (Goobi viewer). Neben den unterstützten Schnittstellen für OAI-PMH und SRU spielt IIIF hierbei eine entscheidende Rolle für die Interoperabilität der bereitgestellten digitalen Sammlungen mit verschiedenen externen Daten-Konsumenten. Insbesondere das Zusammenspiel mit den aufkommenden Digital Humanities machte es erforderlich, dass die Goobi Community ihre zahlreichen Portale und Sammlungen verschiendenster Kultureinrichtungen für Forschungszwecke konsumierbar bereitstellte. Aus diesem Grund unterstützt Goobi derzeit bereits die IIIF Image API 2.1, die IIIF Presentation API 2.1, die IIIF Change Discovery Api im Draft Status sowie Web Annotations und Open Annotations für den Einsatz im Kontext des Crowdsourcings.

Doch Goobi stellt nicht nur verschiedene Daten mittels IIIF für andere Systeme und Konsumenten bereit. Stattdessen nehmen die Goobi Entwickler und die gesamte Goobi Community die Verwendung der verschiedenen IIIF APIs auch für neue Anwendungsfälle vermehrt in den Fokus. Insbesondere profitiert Goobi von diesen Schnittstellen für die unterschiedlichen aktuellen Entwicklungsprojekte, die gestützt von Machine Learning Verfahren neue Daten ermitteln oder erzeugen können. So konnten in der Vergangenheit bereits basierend auf Mustererkennung sowie basierend auf Textanalyse Machine Learning gestützte Mechanismen für die Erkennung von Publikationstypen und für Segmentierungen von Inhaltsverzeichnissen implementiert werden, die mit dem Datenbezug aus standardisierten Schnittstellen wie IIIF nicht nur auf lokal vorliegende Daten aus dem Dateisystem angewiesen sind. Ebenso profitiert die Goobi Community derzeit stark von den neuesten OCR Entwicklungen an Tesseract, die jedoch ohne weitere Trainingsdaten noch nicht die gewünschte Erkennungsqualität liefern können. Innerhalb eines Entwicklungsprojekts zur Machine-Learning-gestützten Erzeugung von Ground-Truth-Daten für eine Extraktion von Abbildungen einerseits und andererseits innerhalb eines Projekts für die Generierung synthetischer Texte mit seltenen Fonts auf der Basis von Textsegmenten und Buchstabenkoordinaten ist die Zusammenarbeit mit IIIF gar nicht mehr wegzudenken. Innerhalb der Goobi Community wurde daher insbesondere in den letzten zwei Jahren klar, dass neuere Projekte und damit auch neuere Forschungsdaten nur unter Zuhilfenahme verschiedener IIIF Schnittstellen nachhaltig möglich sind.

Technische Voraussetzungen

Der Workshop ist so ausgerichtet, dass die Teilnehmer alle Inhalte auf den eigenen Computern nachvollziehen können. Hierzu wird auf Seiten der Teilnehmer benötigt, dass die Computer die vorausgesetzten Anforderungen erfüllen und für den Workshop vorbereitet sind. Aufgrund der hohen Teilnehmerzahl an diesem Workshop wird es den Workshopleitern nicht möglich sein, an den Computern der Teilnehmer individuelle Installationsarbeiten vorzunehmen. Bitte stellen Sie daher für Ihre Computer folgendes sicher:

Technische Anforderungen für macOS
Technische Anforderungen für Microsoft Windows
Technische Anforderungen für Linux

Workshop Notizen

Für alle Bereiche, die wir in dem Workshop behandeln, haben wir hier einige Notizen zusammengestellt, die das Nachvollziehen unserer gezeigten Inhalte Schritt-nach-Schritt erlaubt.