Der Stand der Handschriftenerkennung im ABD-Kontext

Claudia Pfister

Die automatische Handschriftenerkennung (HTR) hat sich in kurzer Zeit zu einem wertvollen Werkzeug mit grossem Potenzial für ABD-Institutionen entwickelt. Die so entstandenen neuen Möglichkeiten will diese Arbeit illustrieren unter Verwendung der Software Transkribus (Stand 2022). Anhand eines kleinen Corpus von Alltagsbriefen des Gelehrten Johannes Gessner aus dem 18. Jahrhundert werden eine Auswahl öffentlicher Transkribus-Modelle getestet sowie die Vorteile aufgezeigt, die das Erstellen eigener Modelle je nach Textcorpus bieten kann. Dabei wird gezeigt, wie mit wenig Trainingsdaten Transkriptionen erstellt werden können, die für wissenschaftliche Fragestellungen verwendbar sind und eine Stütze bieten bei der manuellen Transkription.

La reconnaissance automatique d'écritures manuscrites (HTR) est devenue en peu de temps un outil précieux, revêtant un grand potentiel pour les institutions ABD. Cette étude veut illustrer les nouvelles possibilités ainsi créées en utilisant le logiciel Transkribus (état 2022). À l'aide d'un petit corpus de lettres ordinaires de l'érudit du 18e siècle Johannes Gessner, une sélection de modèles Transkribus accessibles au public est testée, avec mise en évidence des avantages que peut offrir la création de modèles personnels selon le corpus de texte. L’auteure montre ainsi comment, avec assez peu de données d'entraînement, il est possible de créer des transcriptions utilisables dans un contexte scientifique et d’offrir un soutien pour la transcription manuelle.

Automatic handwritten text recognition (HTR) has quickly developed into a valuable tool with great potential for archival, library and documentation institutions. This paper aims to illustrate the new possibilities that have arisen by using the Transkribus software (as of 2022). Using a small corpus of everyday letters by the 18th century scholar Johannes Gessner, a selection of public Transkribus models has been tested and the advantages of creating one’s own models depending on the text corpus has been demonstrated. The author shows how transcriptions can be created with little training data that can be used for scientific questions and provide support for manual text transcription.

Einführung

Die automatische Handschriftenerkennung, meist handwritten text recognition, kurz HΤR, genannt, ist lange schnell an ihre Grenzen gestossen, sobald sie auf eine nicht stark standardisierte Schrift angewendet worden ist. Anders als die Optical Character Recognition (OCR), bei der der Text in einzelne Buchstaben zerlegt wird, ist für die meisten Handschriften ein flexibleres Vorgehen erforderlich, bei dem mehr von der Umgebung der Buchstaben berücksichtigt wird. Dies hat dazu geführt, dass frühere Versuche mit Handschriftenerkennung in der Regel nicht die gewünschte Qualität erreichen konnten. Erst in den letzten Jahren ist ein rasanter Fortschritt in der HTR möglich geworden dank der massiven Zunahme an digitalisiertem handschriftlichen Material sowie immer mächtigerer Computer und neuronaler Netzwerke. Diese werden trainiert, ein Bild in Textzeilen zu zerlegen, den Text zu erkennen, zu strukturieren und zu annotieren.1 Mittlerweile ist es realistisch, eine Character Error Rate (CER)2 von unter 5% zu erreichen, wenn das zu transkribierende Material und das Transkriptionsmodell zueinanderpassen.3 Bereits mit einer relativ kleinen Trainingsmenge kann ein HTR-Modell geschaffen werden, das die Handschriftentranskription signifikant erleichtert.

Im Folgenden soll der Prozess zur Schaffung eines solchen Modells und der Nutzen der HTR im ABD-Kontext besprochen werden. Dazu wird zuerst das HTR-Programm Transkribus vorgestellt, dann werden Transkriptionsversuche mit öffentlichen HTR-Modellen durchgeführt bis schliesslich ein eigenes Modell aufgebaut wird.

Handschriftenerkennung und Transkribus

Heutzutage sind mehrere gut funktionierende HTR-Tools verfügbar, teils von privaten Anbietern, teils für bestimmte Projekte entwickelt, teils aus der Forschungsgemeinschaft selbst hervorgegangen.4 Das Programm Transkribus, das in dieser Arbeit verwendet wird, ist ab 2015 im Rahmen des tranScriptorium-Projekts (2013-2015)5 entstanden und im Anschluss als Herzstück des Recognition and Enrichment of Archival Documents (READ) European Union Horizon 2020 Projekts (2016-2019) weitergeführt worden.6 Im Anschluss hat sich die Genossenschaft READ-COOP SCE gebildet und ab Juli 2019 die Verantwortung für die Plattform übernommen. Die READ-COOP verfügt über 135 Mitglieder, darunter Privatpersonen und Einrichtungen, in 30 Ländern. Als Mitglieder aus der Schweiz sind die Zentralbibliothek Zürich, die Universitätsbibliothek Basel, das Walter Benjamin Kolleg der Universität Bern, das Staatsarchiv des Kantons Zürichs und das Stadtarchiv Zug zu nennen.7 Die Software Transkribus und die Erstellung eines Nutzerkontos ist kostenlos, die HTR-Funktion ab mehr als 500 Seiten kostenpflichtig.8 Ebenfalls kostenpflichtig ist eine Mitgliedschaft und die Verwendung des »read&search«-Web-Interface, durch das Transkribus die digitale Edition der Dokumente hostet.9 Durch diese Plattform kann ausserhalb des Transkribus-GUI die Keyword Spotting-Funktion der allgemeinen Öffentlichkeit angeboten werden. Diese Technologie erlaubt, einen Suchbegriff nicht nur zu finden, wenn er in der ausgegebenen Transkription vorhanden ist, sondern sie bezieht auch Transkriptionsvarianten mit geringerer Wahrscheinlichkeit ein; so würde eine Suche nach dem Namen »Muralt« auch die falsche Transkription »Murult« finden, wenn der Algorithmus bei dem fraglichen Vokal beispielsweise mit 60% Wahrscheinlichkeit ein »u« gelesen hat und mit 40% Wahrscheinlichkeit ein »a«.10

Die Grundfunktionen von Transkribus erlauben das Hochladen, das automatische Segmentieren, die manuelle und maschinelle Transkription von Dokumenten und den anschliessenden Export der Transkriptionen in verschiedenen Formaten, unter anderem TEI. Für die maschinelle Transkription bietet Transkribus mehr als 100 frei zugängliche KI-Modelle an, von denen 16 eine CER von unter 1% erreichen.11 Durch die Möglichkeit, eigene Modelle zu trainieren und anschliessend allen Transkribus-Nutzern zur Verfügung zu stellen, steigt die Zahl öffentlicher Modelle stetig und somit auch die die Vielfalt der Art Dokumente, die automatisch transkribiert werden können. Die Bandweite reicht dabei von einem Modell für Russisch-Kirchenslawisch im 11. und 16. Jahrhundert12 zu Drucken in der Devanagari-Schrift, die um 1900 publiziert worden sind. 13 Der Schwerpunkt der angebotenen Modelle liegt aber auf dem 17. bis 19. Jahrhundert; für die drei Jahrhunderte stehen 72.6% der Modelle zur Verfügung, 39.8% allein für das 18. Jahrhundert. Bei den Sprachen sind für Deutsch, gefolgt von Niederländisch und Latein, die meisten Modelle vorhanden; abgesehen von wenigen Ausnahmen sind nur Modelle für europäische Sprachen momentan öffentlich verfügbar. Das ist aufgrund des europäischen Hintergrunds in der Transkribus-Entwicklung verständlich; so ist gemäss einer Erhebung von 2019 auch die Mehrzahl der Transkribus-Nutzenden aus Europa; 11% allein kommen dabei aus der Schweiz, was sie nach Deutschland zum Land mit den zweitmeisten Transkribus-Nutzenden macht.14

Für die Erstellung eigener Modelle offeriert Transkribus zwei verschiedene Engines, HTR+15 und PyLaia, die sich qualitätsmässig wenig unterscheiden.16 PyLaia ist zudem bei der Anwendung innerhalb von Transkribus günstiger als HTR+ und Open Source.17 HTR+ und die Serverkomponente von Transkribus sind somit die einzigen Elemente von Transkribus, deren Aufbau nicht frei einsehbar ist.18

Um mit den Engines Modelle zu trainieren, wird empfohlen, sie mit 5000 bis 15'000 Wörtern oder 25 bis 75 Seiten Ground Truth zu trainieren, je nach Schriftqualität; Ground Truth bezeichnet Dokumente, die in guter Qualität vorhanden sind in Bezug auf Digitalisat, Layout und Transkription.19 Zur weiteren Verbesserung erlaubt Transkribus die Verwendung von Basis- und Sprachmodellen. Ersteres bedeutet die Verwendung eines bereits bestehenden Modells zusätzlich zur Ground Truth, was erlaubt, mit einer geringeren Wörterzahl ein Modell zu trainieren. Sprachmodelle erfüllen einen ähnlichen Zweck wie Wörterbücher aber mit grösserer Flexibilität, da sie auf der Basis des Modells erstellt werden;20 das HTR-Training erstellt eine Statistik über die Anordnung der Buchstaben im Trainingsset und entscheidet über die Wahrscheinlichkeit von Zeichenfolgen.21 Sprachmodelle sind besonders wichtig für die Weiterverarbeitung des Texts wie etwa für die Named-Entity-Recogniton (NER).22 Dieser Bereich der HTR ist noch in einer frühen Phase der Entwicklung.23

Die automatische Handschriftenerkennung wird immer zuverlässiger und bequemer zu nutzen. Damit wird die Frage aktuell, ob diese Technologie von Gedächtnisinstitutionen benutzt werden sollte und inwieweit sie einen Mehrwert bei der Bestandsvermittlung bietet. Mit dem Angebot von Volltexten online wendet sich der Blick der Kundschaft mehr dem Inhalt des Bestandes zu und weg von dem eigentlichen Dokument, was die Recherchemöglichkeiten verändert und sie sozusagen der heutigen Zeit anpasst. Vor allem jüngere Forschende haben sich daran gewöhnt, ihre Suchabfragen an Google auszurichten.24 Eine Volltextsuche kommt dieser Arbeitsweise entgegen. Eine grosse Menge an Computer-lesbaren Daten, wie es Volltexte sind, erlaubt auch, die Texte in einem grösseren Zusammenhang zu betrachten, etwa durch Text mining, um ein Corpus genauer zu analysieren, oder durch Distant reading, um die Beziehungen innerhalb grosser Textmengen zu untersuchen.25

Eine Umfrage unter Transkribus-Nutzenden aus dem Frühling 2019 zeigt weitere Vorteile und Probleme auf, die die HTR mit sich bringt. Besonders interessant sind dabei die Rückmeldungen von Mitarbeitenden an grösseren Projekten, die Transkribus als Inspiration bezeichnen, sowohl ihren Digitalisierungsprozess zu verbessern als auch mehr Material zu transkribieren.26 33% der Umfrageteilnehmenden melden zurück, dass ohne die Plattform keine Möglichkeit zur Transkription gegeben wäre, und 40%, dass es ohne Transkribus um einiges zeit- und ressourcenaufwendiger wäre, was zeigt, wie Transkribus ein Motor in der Digitalisierung der Bestände sein kann.27 Als Vorteile von HTR nennen die Umfrageteilnehmenden die Beschleunigung des Transkriptionsprozesses, die Zunahme an digitalisierten historischen Quellen, das vereinfachte Teilen von Dokumentinhalten, die Verbesserung existierender Transkriptionen oder die Vergrösserung des Umfangs von verfügbaren historischen Dokumenten. Ein Problem bleibt zu wissen, welche Dokumente anzubieten von Interesse ist, und es droht, dass die nicht digital aufbereiteten oder erst gar nicht digitalisierten Bestände einer Institution weiter an den Rand gedrängt und vergessen werden, obwohl sie auch wertvolle Informationen enthalten. Daher ist es vor allem wichtig, die Masse an digitalisiertem Material in hoher Bildqualität zu erhöhen, etwa durch die Digitalisierung des Gesamtbestandes eines Archivs, und menschliche und digitale Ressourcen darauf zu konzentrieren.28 Wie die Umfrage zeigt, sind die meisten Transkribus-Nutzende Privatpersonen; diesen Material anzubieten, kann als Citizen Science für Archive wertvolle Ergebnisse liefern. Die Nutzenden bei der Aufbereitung der Daten einzubeziehen, wird umso wichtiger, je mehr digitalisierte Texte online gestellt werden. Maschinelle Vortranskriptionen wären dabei eine Möglichkeit, den Einstieg für Anfänger in der Transkription zu vereinfachen und sie zu ermutigen. Es ist in jedem Fall wichtig, im Auge zu behalten, wie das veränderte Angebot sich auf die historischen Bestände und ihre Nutzenden auswirkt.29

Trainieren und Evaluation

Wie viel Nutzen die HTR mit Transkribus kleineren Projekten, wie sie auch von einem Archiv mit wenig Ressourcen bewältigt werden können, bringt, wird in diesem und im nächsten Kapitel an einem Beispiel exemplarisch vorgeführt. Im Folgenden wird eine Briefsammlung mit Transkribus transkribiert und die ausgegebenen Texte auf ihre Nützlichkeit geprüft. Als Trainingscorpus dienen die Briefe von Johannes Gessner (1709-1790) aus Zürich an den Berner Albrecht von Haller (1708-1777), die in der Burgerbibliothek Bern liegen.30 Der umfangreiche Briefwechsel der beiden Gelehrten ist auf Latein verfasst und enthält Briefe aus einem Zeitraum von beinahe 50 Jahren, von 1728 bis zu Hallers Tod; auf der Plattform hallerNet sind 660 Briefe verzeichnet, von denen 639 mit einem Digitalisat verbunden sind. Verwendet wird der Übersicht halber nur eine Auswahl der ältesten 50 Briefe, die zwischen 1728 und 1734 entstanden sind. Somit muss das System nur eine einzige Hand innerhalb eines stark beschränkten Zeitraums erkennen, was einerseits für das Erstellen eines eigenen Modells von Vorteil ist, andererseits ist fraglich, wie gut ein allgemein trainiertes Modell mit einer so individualisierten Schrift zurechtkommt, speziell da es sich um Alltagsbriefe handelt ohne einheitliches Schriftbild oder saubere Darstellung. Die Briefe liegen bereits als TIF-Dateien mit einer Auflösung von 300 dpi auf dem Bildserver des Projekts »Online-Edition der Rezensionen und Briefe Albrecht von Hallers« vor, in dessen Rahmen sie digitalisiert worden sind; öffentlich einsehbar sind sie über das Projektportal hallerNet.31

Zuerst muss die Layouterkennung erfolgen und sogleich zeigen sich die ersten Schwierigkeiten. Ein Problem besteht darin, dass die meisten Briefe auf einem grossen Blatt Papier geschrieben sind, das in der Mitte gefaltet ist, so dass mit Vorder- und Rückseite vier Seiten entstehen, die alle beschrieben werden können. Diese vier Seiten sind einzeln bei aufgefaltetem Papier gescannt, wobei auf Seite 1 ein Teil von Seite 4 zu sehen ist und auf Seite 2 ein Teil von Seite 3 und umgekehrt, was zu doppelten und fragmentarischen Textregionen führt, die gelöscht werden müssen. Dazu kommen noch Kleinigkeiten, wie dass die Signaturen des Archivs als Textregion erkannt werden; dies muss ebenfalls gelöscht werden. Der Einfachheit halber wird nur ein Textblock pro Seite definiert ohne Anrede und Verabschiedung. Es wird kein Tagging der Briefstruktur innerhalb von Transkribus vorgenommen.32 Überhaupt nicht als Text erkannt werden die Adressen, die meistens auf der letzten Seite eines Briefes stehen und vertikal auf Französisch geschrieben sind.

Auf der Ebene der Zeilen, Baselines genannt, wird es noch umständlicher. Gessner korrigiert sich oft, streicht etwa Wörter durch oder fügt eines oberhalb der Zeile ein. Das bringt die Nummerierung der Baselines durcheinander; da es für die Korrektur der Transkriptionen einfacher ist, einen zusammenhängenden Text zu haben, wird auch das bereinigt. Das heisst auch, wenn in der Mitte einer Zeile ein Wort eingefügt ist, das nicht oder als eigene Zeile erkannt worden ist, muss die eigentliche Zeile aufgebrochen und neu nummeriert werden mit Berücksichtigung der Baseline des eingefügten Worts. Für ein sauberes Layout, bei dem alle Baselines in der richtigen Reihenfolge wiedergegeben werden, sind pro Seite an die drei Minuten einzuberechnen. Weniger Aufwand ist nur möglich, wenn allein ein Volltext zur Durchsuchung der Briefe generiert werden soll und die Navigation des Lesers im Digitalisat stattfindet, was nicht der ideale Kundenservice ist.33

Vor der Transkription ist es wichtig, einheitliche Regeln aufzustellen, wie die Handschrift in gedruckter Form dargestellt werden soll, also beispielsweise welche speziellen Satzzeichen übernommen oder welche Abkürzungen aufgelöst werden; das ist nicht nur aus editorischer Sicht wichtig, sondern vereinfacht auch die maschinelle Transkription.

Das weitere Vorgehen besteht nun darin, die öffentlichen KI-Modelle von Transkribus zu bestimmen, die zeitlich, räumlich und sprachlich34 zum Testmaterial passen, nämlich:

Die ersten beiden sind gewählt worden, weil die Dokumente, mit denen sie trainiert wurden, den Zeitraum 1643-1772 abdecken und sie in Latein verfasst sind. Allerdings sind sie aus den Niederlanden und ihr Kontext ist völlig verschieden. Die nächsten beiden sind aus dem Projekt »Rechtsprechung im Ostseeraum«,41 deren Trainingsmaterial einen längeren Zeitraum abbildet, 1580-1705 beziehungsweise 1750, und lateinische Texte unter anderen enthält. Ihre geographische Herkunft und ihr Kontext sind wiederum sehr verschieden von Gessners informellen Briefen. Das zweitletzte Modell hat den Vorteil, hauptsächlich aus Schweizer Dokumenten zu bestehen, darunter welche aus dem Staatsarchiv Zürich und aus Königsfelden.42 Wie bei den vorigen Modellen wird eine relativ lange Zeitspanne vom 16. zum 18. Jahrhundert abgedeckt und eine grössere Bandbreite an Dokumentarten; als Sprache angegeben ist nur deutsch. Das letzte Modell enthält ebenfalls Dokumente aus dem »Rechtsprechung im Ostseeraum«-Projekt und ist zeitlich am engsten begrenzt, hauptsächlich bestehend aus Dokumenten des 17. und 18. Jahrhundert. Diese sind allerdings wieder aus Norddeutschland und nur in deutscher Sprache verfasst.

Zuerst werden alle Modelle auf dem gleichen Text getestet, damit ein Parallelvergleich einfach möglich ist. Dafür wird nur ein sehr kurzer Textauszug analysiert, um die Modelle auszusortieren, die am wenigsten für Gessners Schrift geeignet sind; dazu dient der kürzeste Brief.43 Die letzte Zeile dieses Briefes wird von den Modellen folgendermassen wiedergegeben:

Das sind keine besonders ermutigende Resultate; ein einziges Modell, Acta 17 (extended), hat es geschafft ein einziges Wort, »plurimum«, korrekt zu erkennen. Über den ganzen Brief hinweg heisst dies Folgendes für die CER:

Tab. 1. Erster Test

Pylaia_NeoLatin_Ravenstein

NeoLatin_Ravenstein_1643-1772

Acta 17 (extended)

Acta_17 PyLaia

German_Kurrent_XVI-XVIII_M1

German_Kurrent_17th-18th

CER

52.36%

39.21%

22.22%

24.14%

26.56%

22.86%

Pylaia_NeoLatin_Ravenstein ist weit davon entfernt hilfreich zu sein, weder für ein Überfliegen des Textinhalts noch als Hilfsmittel bei der Transkription. Auch Keyword Spotting funktioniert in einem solchen Fall nicht zuverlässig, nicht bei einer WER von 98%. Es ist schon nach diesem kleinen Textabschnitt klar, dass es sich nicht lohnt, dieses Modell weiter anzuschauen. Ähnlich verhält es sich mit NeoLatin_Ravenstein_1643-1772, obwohl schon eine deutliche Verbesserung festzustellen ist.

Die anderen Modelle versprechen bessere Resultate. Acta 17 (extended), das am besten abschneidet, ist zwar noch nicht an dem Punkt, an dem ein Text einfach verständlich ist, erreicht aber ein Resultat, das für das Keyword Spotting genügen sollte und damit für eine Volltextsuche mit dieser Technologie.44

German_Kurrent_XVI-XVIII_M1 enttäuscht etwas mit seiner schwächeren Leistung, obwohl es Schweizer Dokumente enthält und daher regional besser passen sollte. Insgesamt bietet dieses Modell fast nirgends bessere Lesarten als die beiden Acta-Modelle.

Das letzte Modell German_Kurrent_17th-18th hat in ein paar Fällen die beste Lesart, aber an den Stellen, wo die anderen Modelle Probleme gehabt haben, scheitert es auch. Insgesamt ist es Acta_17 PyLaia am ähnlichsten, liefert aber bessere Resultate.

Die vier Modelle, deren CER unter 30% liegt, werden im Folgenden weiter getestet, diesmal mit dem Fokus nicht nur darauf, wie korrekt die Transkription ist, sondern wie viel effizienter die manuelle Transkription durch die maschinelle Vorarbeit wird. Somit kann hier nicht der gleiche Abschnitt von allen Modellen übersetzt werden. Verwendet wird daher der längste Brief, der im Corpus existiert,45 da hier Schrift und Papierqualität relativ einheitlich und daher vergleichbar sind.

Es ist zu beachten, dass im Lauf der Zeit, die eigene Fähigkeit, den Text zu transkribieren, zunimmt, da sich das Auge an Gessners Schrift gewöhnt. Daher wird für die ungestützte Transkription die Zeit zweimal gemessen, vor und nach den Transkriptionen mit den vier Modellen.

Zusammenfassen lassen sich die Resultate in der folgenden Tabelle, in der die Geschwindigkeit der händischen Transkription angegeben ist, sowie die CER im Vergleich mit der Transkription, wie sie von Haller selbst vorliegt,46 zuerst nach der Anwendung des jeweiligen HTR-Modells, dann nach der manuellen Korrektur:

Tab. 2. Vergleich manuelle und maschinelle Transkription

Eigentranskription Seite 1

Eigentranskription Seite 6

German_Kurrent_17th-18th

Acta_17 PyLaia

German_Kurrent_XVI-XVIII_M1

Acta 17 (extended)

Sec/Wort

12.8

10.6

11.7

15.3

11.7

10.5

CER HTR-Transkription

-

-

22.58%

25.19%

22.83%

24.26%

CER nach überprüfter/ eigener Transkription

9.18%

10.22%

11.77%

9.98%

7.45%

12.81%

Es zeigt sich, dass die Modelle untereinander nicht im gleichen Verhältnis abschneiden wie zuvor. Die Leistung von Acta_17 (extended) bei dem ersten Brief kann nicht bestätigt werden, stattdessen hat German_Kurrent_XVI-XVIII_M1 viel besser abgeschnitten, als nach dem ersten Experiment zu erwarten gewesen ist. Allein German_Kurrent_17th-18th steht ungefähr gleich da wie bei dem vorigen Brief. Insgesamt haben alle Modelle ähnliche Probleme, nur verschieden stark ausgeprägt, aber es lassen sich keine übergeordneten Muster ableiten, die es erlauben, mit Sicherheit ein Modell den anderen vorzuziehen. So kann nur Acta_17 PyLaia ohne Probleme weggelassen werden, da es nichts leistet, was Acta_17 (extended) nicht besser kann.

Nach weiteren Transkriptionen mit den drei verbliebenen HTR-Modellen lässt sich entgegen den obigen Resultaten eine leichte Beschleunigung der Transkriptionsarbeit feststellen. Auf das Wort heruntergerechnet ist die Zeiteinsparung nicht eindrücklich, aber über eine längere Zeit wäre eine positive Auswirkung ersichtlich; auch qualitativ ist eine Verbesserung doch deutlich zu erkennen.

Darüber hinaus gibt es einige andere interessante Feststellungen. So tauchen Inkonsistenzen auf, die auf die Trainingscorpora zurückzuführen sind. Besonders auffällig ist dies bei der Abkürzung »&«, die Acta (extended) sowohl als »&« als auch als »et« wiedergibt; die Transkription als »e«, wie sie bei mehreren Modellen vorkommt, hängt möglicherweise auch damit zusammen. Zusätzlich kommt, dass keines der getesteten Modelle Ligaturen wie »æ« oder Akzente verwendet. Da der Referenztext diese aber enthält, steigt die CER automatisch, auch wenn das Auflösen einer Ligatur oder das Weglassen eines Akzents die Lesbarkeit nicht beeinträchtigt.47

Auf der reinen Navigationsebene muss zu dem Transkriptionserlebnis mit Transkribus gesagt werden, dass noch Verbesserungspotenzial vorhanden ist. Ein allgemeines Designproblem von Transkribus ist die Unterstreichung der Baseline, die zwar nicht sehr dick ist, aber doch dick genug, um in manchen Fällen im Weg zu sein.48 Es ist auch nicht möglich, im Transkriptionstext auf eine andere Zeile zu springen, um die Baseline loszuwerden, ohne dass sich die Bildansicht ändert und wieder angepasst werden muss. Auch mit der Tastatur Sonderzeichen einzugeben, ist nicht ideal. Beispielsweise bei einem »â« oder »ò« fügt der Texteditor automatisch den zuvor gelöschten Buchstaben wieder hinzu, was bei Unaufmerksamkeit zu Fehlern im Text führt.

Transkribus und seine frei verfügbaren Modelle sind also nur bedingt geeignet, um ungefähre Transkriptionen zu erstellen, wobei die Effizienz textabhängig ist und stark variieren kann. Die meisten Modelle sind auf offiziellen Dokumenten trainiert, in denen Wert daraufgelegt wird, gleichmässig und sauber zu schreiben. Bei solchen Unterlagen ist es möglich, dass das Layout und die Lesarten bei der Transkription etwas regulärer sind, was möglicherweise die Differenz unter den verschiedenen Modellen mehr hervorstechen liesse. Gessners Briefe sind dagegen für einen Freund bestimmt, auf den Informationsaustausch ausgerichtet und nicht im Voraus geplant oder ins Reine geschrieben. So kann die Schrift am Ende sehr gedrängt werden, was die Transkription auch verschlechtert. Die HTR bietet für diese Art Text nur eine mässige Unterstützung bei der Transkription. Mit der Wahl des richtigen Modells ist sie allerdings gut genug für Keyword Spotting, was den Zugang zum Text verbessert, wenn auch zuerst nur für diejenige Person, die auf dieses Werkzeug zurückgreifen kann. Es muss also genau bedacht werden, was für ein Endzustand der Transkriptionen angestrebt wird und wie sie der Öffentlichkeit anschliessend zur Verfügung gestellt werden sollen.

Das Gessner-Modell

Ein wesentlicher Grund, warum es sinnvoll ist, im Fall der Gessner-Briefe daranzugehen, ein eigenes Transkriptionsmodell zu bilden, ist der Umstand, dass es ein grosses Textcorpus mit nur einer einzigen Hand ist. Wenn von etwa 500 Wörtern pro Brief ausgegangen wird, kann mit fast 320'000 Wörtern insgesamt gerechnet werden; das heisst, es braucht theoretisch weniger als 5% allen Materials vortranskribiert zu werden, um ein sehr gut funktionierendes Modell zu trainieren.49 Es gibt einige Einschränkungen im Gedächtnis zu behalten, wie dass sich eine Handschrift im Lauf der Zeit verändert. In der Praxis wäre es also wichtig, Briefe aus allen Lebensphasen des Autors in ein Trainingscorpus einzubeziehen. Auch wird das System nicht mit den empfohlenen 15'000 Wörtern trainiert werden; es geht hier darum zu testen, wie gering der Transkriptionsaufwand sein kann, um zumindest ein bereits bestehendes Modell überflügeln zu können und ab wann es einen bedeutenden Vorteil bietet für die Transkription. Es gilt zu betonen, dass es nie das Ziel ist, maschinell einen druckreifen Text zu erhalten; der wissenschaftliche Anspruch an die Transkription dieser Art Archivalien ist zu hoch, um sie der Maschine zu überlassen. Es geht einzig darum, wie viel Aufwand nötig ist, bis ein Vorteil durch die HTR erlangt werden kann.

Durch die Tests in Kapitel 3 sind drei Briefe transkribiert worden mit insgesamt 13 Seiten, 501 Zeilen und 3624 Wörtern. Das ist unter der empfohlenen Mindestzahl von 5000 Wörtern, und ein Teil dieser Daten muss noch zur Seite gelegt werden, um als Validierungsset zu dienen. Schlussendlich enthält das Trainingsset für dieses erste eigene Modell nur 12 Seiten, 455 Zeilen und 3251 Wörter, das Validierungsset 1 Seite mit 46 Zeilen und 373 Wörtern.

Um zu sehen, welche Engine besser funktioniert bei einem so kleinen Trainingsset, wird sowohl ein Modell mit HTR+ trainiert als auch mit den genau gleichen Trainingsdaten eines mit PyLaia. Für das HTR+-Modell wird die Grundeinstellung von 50 Epochen beibehalten; bei PyLaia werden ebenfalls die Standardeinstellungen verwendet, also maximal 250 Epochen und eine Lernrate von 0.0003; einzig der Mindestanhaltspunkt wird zur Sicherheit auf 50 erhöht, da das Trainingsset sehr klein ist.50 Das Training dauert mit HTR+ eine Stunde und fünfzig Minuten, mit PyLaia nur 28 Minuten. Die CER auf dem Validierungsset beträgt für HTR+ 12.55%, für PyLaia 19.6%.

Beide Modelle haben es also unter die geforderten 20% geschafft und sind schon jetzt besser als die öffentlichen Modelle. Das HTR+-Modell ist sogar sehr nahe an der 12%-Grenze, ab der ein Modell als nützlich betrachtet werden kann.51 Die Lernkurven zeigen weiter, dass mit der HTR+-Engine nach ungefähr acht Epochen die endgültige CER erreicht werden kann; die PyLaia-Engine braucht etwas über 150 Epochen. Von der Lernkurve her lässt sich schliessen, dass beide Modelle an einem guten Punkt ihren Abschluss gefunden haben.

Nun wird versucht, wie sehr das Resultat verbessert werden kann durch das Hinzufügen eines Basismodells; alle anderen Faktoren, Epochen und Grösse von Trainings- und Validierungsset, bleiben die gleichen. Ein Basismodell ist explizit dazu da, bei wenig Trainingsmaterial Verbesserungen zu bewirken,52 was genau auf dieses Szenario zutrifft. Allerdings könnten andere Hände bei einem so spezifisch auf eine Person zugeschriebenen Modell mehr verwirren als helfen, somit ist eine Verbesserung nicht garantiert. Ein Basismodell funktioniert nur, wenn es mit der gleichen Engine trainiert worden ist wie das neue Modell. German_Kurrent_17th-18th kann also mit PyLaia verwendet werden und Acta 17 (extended) und German_Kurrent_XVI-XVIII_M1 mit HTR+. Die Resultate auf dem Validierungsset sind mit einer Ausnahme vielversprechend und bereits an einem Punkt angelangt, an dem die Transkription in der Regel als effizient betrachtet werden kann:

Tab. 3. Hinzufügen eines Basismodells

PyLaia-Modell mit German_Kurrent_17th-18th

HTR+-Modell mit Acta 17 (extended)

HTR+-Modell mit German_Kurrent_XVI-XVIII_M1

CER Validation

9.10%

98.19%

9.46%

Unerwarteterweise ist Acta 17 (extended) absolut inkompatibel mit dem Gessnerschen Trainingsmaterial, obwohl nichts an den Hintergrundinformationen zum Modell oder dem Character Set auf die Ursache hindeutet, weder in Bezug auf die Gessner-Briefe noch im Vergleich mit German_Kurrent_XVI-XVIII_M1. Dieses andere Basismodell hat die CER im Vergleich zu dem rein mit Gessners Schrift trainierten Modell um über 3% verbessert; gleich ist der Fall bei PyLaia, wo sich die CER sogar mehr als halbiert hat, obwohl bei dieser Engine vor dem Training jeweils gewarnt wird, dass Basismodell und eigenes Modell das gleiche Zeichenset benutzen müssen und daher, wenn irgendwo, hier ein Problem zu befürchten gewesen wäre.53

Diese Modelle mit extrem wenig Trainingsmaterial sind bereits äusserst wirksam, sowohl für die Transkriptionsarbeit als auch, im Fall des HTR+-Modells, für die Ausgabe eines mit Keyword Spotting vernünftig durchsuchbaren Texts. Mit dem Modell können weitere Briefe transkribiert werden, die dann dem Trainingsset hinzugefügt werden. Es zeigt sich mit PyLaia eine deutliche Verbesserung, auch wenn sie sich verlangsamt, je mehr Wörter schon im Trainingsset sind:

Tab. 4. Test mit erweitertem Trainingsset

Wörter im Trainingsset

3251

4541

6820

9889

CER auf Validierungsset - PyLaia mit Basismodell

9.1

8.3

7.1

6.81

CER auf Validierungsset - HTR+ mit Basismodell

9.46

9.73

9.86

7.08

Geprüft worden ist auch die Verwendung von Sprachmodellen, die aber keinen messbaren Vorteil ergeben haben, besonders da die Verbesserungen durch Sprachmodelle in einem Bereich von unter 1% liegen.54 Zwischen einzelnen Textseiten sind höhere Schwankungen unter den genau gleichen Bedingungen nicht auszuschliessen und daher schwierig zu interpretieren; mit noch mehr Experimenten liesse sich möglicherweise ein Trend ausmachen. Ein Grund, warum Sprachmodelle keinen konkreten Vorteil gebracht haben, mag sein, dass Schwierigkeiten in der Transkription am meisten dort auftreten, wo die Briefe von der Norm abweichen, beispielsweise durch Fachbegriffe oder Namen, und für diese Fälle sind Sprachmodelle nutzlos. So findet sich beispielsweise auf der vierten Seite des Briefs vom 23. April 173155 anstelle des Eigennamens »Gronovius« ein »honorius«; »honor-« ist eine Wortfolge, die mehrmals im Trainingsset erscheint. Möglicherweise liesse sich durch den gezielten Einbezug spezieller Passagen die Leistung in diesen Bereichen erhöhen, aber es besteht sogleich die Gefahr, dass die Transkription dann an anderer Stelle schlechter wird. Spezielle Tags könnten ebenfalls helfen, aber das erhöht den Aufwand in der Textaufbereitung ohne signifikante Einsparungen an anderer Stelle.

Basismodelle haben sich dagegen als unverzichtbar erwiesen. Sie erlauben, mit sehr geringer Menge an Trainingsmaterial effiziente Modelle zu trainieren. Während Modelle mit HTR+ ohne Basismodell bei diesen geringen Mengen Trainingsmaterial bessere Resultate erzielen als PyLaia, hat sich dieses mit Basismodell als bessere Engine für die Gessner-Briefe empfohlen, was wahrscheinlich eher an der im Vergleich mit German_Kurrent_XVI-XVIII_M1 besseren Kompatibilität von German_Kurrent_17th-18th mit Gessners Schrift liegt als an der Engine. Anders lässt sich der Rückgang in der Qualität nach Verdoppelung des ursprünglichen Trainingsmaterials bei dem HTR+-Modell nicht erklären.

Die eigens für Gessners Briefe erstellten Modelle haben alle schon mit sehr wenig Trainingsdaten massiv bei der Transkription geholfen und sich dabei deutlich von den öffentlichen Modellen abgesetzt. Durch sie ist eine schnelle Erhöhung des zur Verfügung stehenden Trainingsmaterials möglich geworden, was zu guter Letzt zu Modellen geführt hat, die mit recht grosser Zuverlässigkeit durchsuchbar sind. Allerdings hat es keines der Modelle unter 5% geschafft, was nötig wäre um mit Hilfe einer Fuzzy-Search ein Corpus zuverlässig durchsuchen zu können.56 An diesem Punkt lohnt es sich, weiter Modelle zu bauen mit noch mehr Trainingsmaterial, das mit Hilfe der bis jetzt erstellten Modelle leicht zu gewinnen ist, solange bis die CER nicht mehr weiter sinkt.

Zusammenfassung

Die automatische Handschriftenerkennung erleichtert die wissenschaftliche Arbeit und erlaubt neue Fragestellungen, weswegen es wünschenswert ist, dass sich Gedächtniseinrichtungen mit ihr beschäftigen, um dieses neue Angebot zur Verfügung stellen zu können. Transkribus bietet dabei einen leichten Einstieg, besonders da auch eine reiche Menge an Tutorials zur Verfügung steht; es ist ohne viel technische Vorkenntnisse und ohne Spezialisten, die meist in kleinen Betrieben nicht vorhanden sind, verwendbar.

Es ist jedoch unerlässlich, genau zu wissen, von welcher Art die Bestände sind, welchen Ansprüchen die Transkription genügen und wie sie später zugänglich gemacht werden soll. Die Schrift und die Anzahl Hände wiederum entscheiden, ob es einfacher ist, ein vorhandenes Modell zu verwenden, falls ein passendes vorhanden ist, oder ein eigenes zu erstellen. In dem Fall der Gessner-Briefe haben sich die vorhandenen Modelle als nicht besonders hilfreich erwiesen, auch wenn sie gefühlsmässig die Transkription unterstützt haben. Mittels Keyword Spotting lassen sich die so gewonnenen Texte zwar einigermassen zuverlässig untersuchen, aber wenn diese Technologie verwendet werden soll, braucht es die read&search-Plattform, und es ist in den wenigsten Fällen sinnvoll, eine solche für einen noch kaum leserlichen Text zu betreiben.

Was sich dagegen lohnt, ist ein eigenes Modell zu erstellen, wenn die Handschriften in einem Corpus einheitlich sind oder, wie im Fall der Gessner-Briefe, nur von einer Person stammen. Die durch ein solches Modell erhaltenen Transkriptionen sind über weite Strecken lesbar, auch wenn es sich nicht um wissenschaftlich edierte Texte handelt, deren Erstellung auch in der Regel nicht das Ziel eines Archivs oder Bibliothek sein sollte. Diese Art Text kann für eine Volltextsuche online verfügbar gemacht werden; die Nutzenden sollten aber darauf hingewiesen werden, dass die Texte nicht von einem Menschen überprüft worden sind.

Hier bietet sich auch die Möglichkeit, den Nutzenden zu erlauben, die Transkriptionen selbst zu verbessern; für solche Angebote ist allerdings eine entsprechend übersichtliche Darstellung online nötig, was für eine einzelne Institution nicht einfach aufzubauen ist. Andere Verbesserungen könnten durch Named-Entity-Recognition erfolgen, falls diese in der Lage ist, falsch geschriebene Namen dennoch als Entität zu erkennen; diese könnten dann einzeln korrigiert werden, was für viele Fragestellungen an das Corpus eine entscheidende Verbesserung wäre.

Es lohnt sich auch für kleinere Institutionen zu überlegen, bei welchen Beständen HTR effizient eingesetzt werden kann, selbst wenn viele Facetten zu berücksichtigen sind, an die rechtzeitig gedacht werden muss, von der angestrebten Qualität bis zur anschliessenden Präsentation, von der eigenen Arbeit bis zum Kontakt mit anderen Institutionen oder Projekten. Die Digitalisierung in Bibliotheken und Archiven weitet sich aus und ändert sich in Richtung von immer mehr Vernetzung. Es gilt vorauszuplanen, wie Transkriptionen, als Volltexte oder angereichert mit Metadaten, am besten in diesem sich rasch ändernden Umfeld zu präsentieren sind.

Bibliographie

Transkribus-Plattform: https://readcoop.eu/de/transkribus/.

hallerNet-Plattform: https://hallernet.org/.

Alvermann, Dirk: HTR+ oder Pylaia, in: Blog des Projekts Rechtsprechung im Ostseeraum. Digitization & Handwritten Text Recognition, 18.12.2020: https://rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de/de/htr-versus-pylaia/.

Alvermann, Dirk: HTR+ oder Pylaia Teil 2, in: Blog des Projekts Rechtsprechung im Ostseeraum. Digitization & Handwritten Text Recognition, 22.2.2021: https://rechtsprechung-im-ostseeraum.archiv.uni-greifswald.de/de/htr-versus-pylaia-part-2/.

Alvermann, Dirk; Gut, Paweł: Transkribus im Archiv – Ein polnisch-deutsches Projekt zur Handschriftentexterkennung an historischen Dokumenten, in: Archeion, Bd. 122, 2021, 129-153.

Edmond, Jennifer; Lehmann, Jörg: Digital humanities, knowledge complexity, and the five 'aporias' of digital research, in: Digital Scholarship in the Humanities, Bd. 36, Suppl. 2, 2021, S. ii95-ii108.

Hodel, Tobias: Best-practices zur Erkennung alter Drucke und Handschriften – Die Nutzung von Transkribus large- und small-scale, in: Schöch, Ch. (Hg.), DHd 2020. Spielräume Digital Humanities zwischen Modellierung und Interpretation. Paderborn 2020, S. 84–87.

Hodel, Tobias; Schoch, David; Schneider, Christa; Purcell, Jake: General Models for Handwritten Text Recognition: Feasibility and State of the Art. German Kurrent as an Example, in: Journal of Open Humanities Data Bd. 17, Nr. 13, 2021, S. 1-10.

(a) Hodel, Tobias: Chapter 6: Supervised and Unsupervised: Approaches to Machine Learning for Textual Entities, in: Jaillant, Lise (Hg.), Archives, Access and Artificial Intelligence. Working with Born-Digital and Digitized Archival Collections. Bielefeld 2022, S. 157-177.

(b) Hodel, Tobias: Die Maschine und die Geschichtswissenschaft: der Einfluss von deep learning auf eine Disziplin, in: Döring, Karoline Dominika; Haas, Stefan; König, Mareike; Wettlaufer, Jörg (Hg.): Digital History: Konzepte, Methoden und Kritiken Digitaler Geschichtswissenschaft. Studies in Digital History and Hermeneutics: Vol. 6, Berlin/Boston 2022, S. 65-80.

(c) Hodel, Tobias: Konsequenzen der Handschriftenerkennung und des maschinellen Lernens für die Geschichtswissenschaft – Anzeichen einer Revolution der Geisteswissenschaften?, in: Historische Zeitschrift, Bd. 316, H. 1, 2023, S. 151-180.

Massot, Marie-Laure; Sforzini, Arianna; Ventresque, Vincent: Transcrire les fiches de lecture de Michel Foucault avec le logiciel Transkribus: compte rendu des tests, in HAL, 2018.

Muehlberger, Guenter, et al.: Transforming Scholarship in the Archives through Handwritten Text Recognition: Transkribus as a Case Study, in: Journal of Documentation, 75 (5/2019), 2019, S. 954-976.

Plüss, Rebekka; Sieber, Christian: Digitalisierungsprojekte des Staatsarchivs Zürich mit Einsatz von Machine-Learning-Verfahren, in: ABI Technik. Nr. 40(3), 2020, S. 218-228.

Terras, Melissa: Chapter 7: Inviting AI into the Archives: The Reception of Handwritten Technology into Historical Manuscript Transcription, in: Jaillant, Lise (Hg.): Archives, Access and AI: Working with Born-Digital and Digitised Archival Collections. Berlin 2022, S. 179-204.

Alle Links und Zahlenangaben sind zuletzt am 29.6.2023 überprüft worden.

Notes

1 Muehlberger et al. (2019), S. 956. Für eine Beschreibung, wie ein neuronales Netz trainiert wird, siehe Hodel c (2023), S. 158f. ↩︎
2 Die CER gibt an, wie viele aller Zeichen richtig transkribiert worden sind. Weiter gibt es auch die Word Error Rate (WER), also wie viele aller Wörter korrekt wiedergegeben sind. Da sich Transkribus-Modelle in der Regel auf die CER beziehen, wird die Arbeit sich ebenfalls daran orientiert, vgl. Hodel et al. (2021), S. 4, Anm. 5. ↩︎
3 Muehlberger et al. (2019), S. 962. ↩︎
4 Terras (2022), S. 183f. ↩︎
6 Muehlberger et al. (2019), S. 957. ↩︎
8 Terras (2022), S. 185. In einer Mail vom 18.7.2023 kündigte das Transkribus Team eine Änderung der Subskriptionspläne an, die unter anderem die 500 kostenfreien Seiten nicht mehr beinhaltet. Die Arbeit bezieht sich auf die Situation zur Zeit ihrer Verfassung. ↩︎
9 https://readcoop.eu/de/readsearch/. Im Kontext der Schweizer Archivlandschaft nutzt beispielsweise ein Pilotprojekt des Staatsarchivs St.Gallen dieses Angebot für die online-Erschliessung der frühen Regierungsprotokolle des Kantons, siehe https://sg.transkribus.eu/. ↩︎
10 Muehlberger et al. (2019), S. 962f. ↩︎
14 Terras (2022), S. 188f. Anm. 51. ↩︎
15 Die Unterstützung von HTR+ ist im November 2022 eingestellt worden, die folgenden Angaben beziehen sich auf den Stand vor diesem Zeitpunkt, vgl. https://readcoop.eu/glossary/htr-plus/. ↩︎
16 Hodel et al. (2021), S. 4. Vgl. auch die Beobachtungen von Alvermann (2020), wo festgestellt wird, dass PyLaia bei viel Trainingsmaterial besser abschneidet als HTR+; HTR+ ist dagegen besser beim Lesen von »gebogenen« oder senkrechten Textzeilen. Alvermann (2021) belegt, dass PyLaia etwa 1% besser abschneidet und auch zu HTR+ aufholt, was die Leistung bei »gebogenen« Textzeilen betrifft. ↩︎
18 Muehlberger et al. (2019), S. 958. ↩︎
19 Ebd., S. 959. ↩︎
21 Alvermann/Gut (2021), 147. Hodel c (2023), S. 160f. ↩︎
22 Vgl. Hodel b (2022), S. 68. ↩︎
23 Hodel a (2022), S. 161. ↩︎
24 Edmond/Lehmann (2021), S. ii101. ↩︎
25 Vgl. Hodel c (2023), S. 168-174. ↩︎
26 Terras (2022), S. 187-190. ↩︎
27 Ebd, S. 192f. Eine Rückmeldung kommt zum Schluss, dass durch die HTR 80% an Kosten gespart werden kann. ↩︎
28 Ebd., S. 198f. ↩︎
29 Terras (2022), S. 200. ↩︎
30 Die Briefe füllen drei Schachteln, die Bestände N Albrecht von Haller 105.20-22 Korrespondenz: Briefe an Haller: Gessner, Johannes, 1-3 (Konvolut/Codices/Bände): http://katalog.burgerbib.ch/detail.aspx?ID=54931, http://katalog.burgerbib.ch/detail.aspx?ID=54932, http://katalog.burgerbib.ch/detail.aspx?ID=54933. ↩︎
31 https://www.hallernet.org/. Für die Arbeit stellte mir Christian Forney freundlicherweise Kopien zur Verfügung. ↩︎
32 Für das Taggen der Textstruktur und das Trainieren eines entsprechenden Struktur-Modells mit Transkribus siehe den entsprechenden How-To-Guide: https://readcoop.eu/de/transkribus/howto/how-to-use-the-structural-tagging-feature-and-how-to-train-it/. ↩︎
33 Es ist möglich ein Baseline-Modell in Transkribus zu trainieren, und es wäre zu testen, wie weit ein solches die Layout-Bearbeitung vereinfachen könnte, vgl. https://readcoop.eu/de/transkribus/howto/how-to-train-baseline-models-in-transkribus/. ↩︎
34 Verschiedene Sprachen haben verschieden häufige Buchstabenreihenfolgen, und das KI-Modell merkt sich das ganze Umfeld eines Buchstabens; es weiss nicht, was genau alles »Buchstabe« ist im Bild. Ein ungewohntes Umfeld, wie es in einer anderen als der trainierten Sprache auftaucht, verwirrt, so dass auch ohne Sprachmodell die Modelle nie ganz sprachunabhängig sind. ↩︎
36 Nicht mehr frei verfügbar. ↩︎
37 Nicht mehr frei verfügbar. ↩︎
42 Für mehr Informationen zu diesen Dokumenten siehe Plüss/Sieber (2020) und https://www.koenigsfelden.uzh.ch. ↩︎
44 Gemäss dem How-To-Guide von Transkribus ist ab einer CER von 20-30% Keyword Spotting einsetzbar, https://readcoop.eu/transkribus/howto/how-to-train-a-handwritten-text-recognition-model-in-transkribus/#elementor-toc__heading-anchor-10. ↩︎
46 Veröffentlicht 1773-1775 als Epistolarum ab eruditis viris; für ein Digitalisat siehe https://doi.org/10.3931/e-rara-24956. ↩︎
47 Vgl. die Beobachtung bei Plüss/Sieber (2020), S. 227, »Variierende Transkriptionsrichtlinien können ebenfalls eine Rolle spielen [d.h. daran, dass Trainingsdaten aus anderen Projekten die Ergebnisse nicht verbessern]«. ↩︎
48 Vgl. bereits Massot et al. (2018), S. 6, »la ligne en cours de saisie est surlignée en bleu sur l’image, ce qui peut nuire à la lisibilité.« ↩︎
49 Vgl. Muehlberger et al. (2018), S. 959, »A ground truth data set of 15,000 transcribed words (or around 75 pages) is generally sufficient for training an HTR engine to recognise text written in one hand«. ↩︎
50 Vgl. den Hinweis im Tutorial, https://readcoop.eu/de/transkribus/howto/how-to-train-a-handwritten-text-recognition-model-in-transkribus/#h-early-stopping. In der Praxis hat sich das aber nicht als Problem erwiesen, und die Modelle haben problemlos 250 Epochen durchlaufen. ↩︎
51 Vgl. Hodel (2020), S. 84, »Ab der Schwelle um 12% wird die Korrektur von erkanntem Text gegenüber von händisch erstellten Transkriptionen ökonomisch sinnvoll. Gleichzeitig sind die Resultate ab 12% für Menschen insofern nützlich, da die Navigation im Text, insbesondere für Personen mit Kenntnissen der Dokumente, rasch und zielsicher möglich ist.« ↩︎
52 Vgl. die Beschreibung im Tutorial, https://readcoop.eu/de/transkribus/howto/how-to-train-a-handwritten-text-recognition-model-in-transkribus/#elementor-toc__heading-anchor-5, »Ein großer Vorteil der Arbeit mit Basismodellen ist, dass sie es ermöglichen, mit einer geringeren Anzahl von Trainingsseiten zu beginnen, was bedeutet, dass der Transkriptionsaufwand reduziert wird.« ↩︎
53 Der genaue Wortlaut der Warnung, die vor dem Trainieren eines PyLaia-Modells mit Basismodell erscheint, lautet: »Training with base models for PyLaia requires the exact same character set. Elsewise, the training will produce an error or a model that outputs only the characters from the base model and is unable to use a language model. Only use base models if you are really sure that the training data contains the exact same characters as the base model.«. In der Praxis hat sich aber gezeigt, dass die Modelle, die mit PyLaia trainiert worden sind, durchaus die Buchstaben, die nur in den Gessner-Briefen und nicht im Character Set des Basismodells vorhanden sind, wiedergeben können. Auch das Sprachmodell steht jeweils zur Verfügung. ↩︎
54 Hodel c (2023), S. 161. ↩︎
56 Vgl. Hodel c (2023), S. 169. ↩︎