Mit KI feministische Geschichte entdecken
DDF: Nach einiger Zeit der Entwicklung und Testphase können wir in diesem Jahr eine neue Funktion im META-Katalog – der feministischen Suchmaschine, auf der das DDF basiert – vorstellen. Worin besteht diese Neuerung?
Stefanie Pöschl: Ja, wir freuen uns sehr über dieses Novum. Im META-Katalog und dem DDF ist es ja bisher so, dass die Daten und Bestände darin über Metadaten beschrieben werden, wie Titel, Autorin, Erscheinungsjahr. Auch gibt es eine Verschlagwortung, damit Nutzer*innen grob wissen, was sie in dem Werk finden können. Was jetzt durch die Suche für Nutzer*innen möglich ist: Sie können in Druckwerken nach bestimmten Begriffen suchen und schauen, ob diese im Werk vorkommen. Das ist für ganz unterschiedliche Forschungsansätze interessant: Welches Thema kam wie in welchen Büchern vor? Welche Begriffe wurden zu bestimmten Zeiten verwendet? So etwas lässt sich jetzt herausfinden.
Das heißt, Bestände können nun auch direkt durchsucht werden: Wie ist dies technisch möglich?
Wenn Materialien durch i.d.a.-Einrichtungen digitalisiert werden – und das betrifft insbesondere gedruckte Werke wie Bücher –, findet auch eine Texterkennung statt. OCR im Fachjargon, das heißt ausgeschrieben Optical Charakter Recognition. Das ist eine Technologie, um gedruckten oder handschriftlichen Text in maschinenlesbaren Text umzuwandeln. Wenn wir also ein Werk digitalisieren lassen, entsteht damit neben dem Digitalisat – dem Abbild von diesem Werk – auch noch eine Textdatei, in der maschinenlesbar der Text dieses Werkes enthalten ist.
Wenn wir die Digitalisate neu in den META-Katalog einstellen, werden diese Textdateien jetzt mit ausgelesen und in den META-Katalog integriert. Dies macht nun möglich, ein Buch aufzurufen und in diesem Buch auch textlich zu suchen. Zum Beispiel „Die Frauen und das politische Leben“ von 1909, ein Buch von Helene Lange. Unterhalb der Anzeige der Digitalisate gibt es nun ein neues Eingabefeld. Hier kann zum Beispiel ein Begriff eingegeben werden, wie „Wahlrecht“. Dann auf „Suchen“ klicken und schon wird angezeigt, an welchen Stellen im Buch dieses Wort vorkommt. Es kann dann auch mit einem Klick an die konkrete Fundstelle im Digitalisat gewechselt werden. Wo dieses Wort vorkommt, wird mit einer kleinen Markierung angezeigt. Das ist die neue Funktion, die jetzt freigeschaltet ist.
Du hast angedeutet, dass hinter dieser Funktion ein intensiverer Prozess steht. Worin bestanden denn auch Herausforderungen in der Entwicklung?
Einerseits ist die Abstimmung bei der Digitalisierung anspruchsvoll, damit die Texte in dem richtigen Format zur Verfügung stehen. Die Textdateien müssen dafür in einem bestimmten Format vorliegen: Es muss ganz klar sein, an welcher Position sich die jeweilige Information befindet. Auf welcher Seite und auf welcher genauen Pixelposition befindet sich ein Wort und wie lang ist es? Nur so sind auch die Suche und Anzeige für die Nutzer*innen später im Text möglich. Hier braucht es eine detaillierte, oft langwierige Abstimmung mit den externen Dienstleister*innen, die die Bücher nach unseren Vorgaben digitalisieren.
Wir zeigen die Digitalisate mit dem Standard IIIF an. Das ist ein Standard, wie digitale Objekte im Internet präsentiert werden können, ein Framework zum Austausch von Informationen über Digitalisate. Bekannt ist vielleicht PDF – auch das ist ein Standard und es gibt verschiedenen Programme, die PDF zeigen oder auslesen können. So ungefähr ist auch der IIIF zu verstehen: Es gibt also Vorgaben und verschiedene Programme, die diese dann umsetzen. Wir nutzen hauptsächlich den Präsentationsteil von IIIF mit dem Programm Universal Viewer, welches wir noch unseren Bedürfnissen angepasst haben.
Damit die Textvorlagen auch über IIIF ausgelesen werden können, müssen sie nochmals in ein bestimmtes Format übersetzt werden. Bei einigen Dateien muss das Format erst angepasst werden, damit sie korrekt angezeigt werden. Dieser Prozess der Übersetzung ist durchaus fehleranfällig. So wurde zum Beispiel ein Rahmen auf einer Seite als Text erkannt. Diese Fehler zu finden und beheben, kann eine Weile dauern. Letztlich musste die Oberfläche des Digitalisate-Viewers angepasst werden. Dann braucht es einen gewissen Zeitraum zum Testen: Wird alles gut ausgespielt, stimmen die Angaben und so weiter. Das hat eine ganze Weile gedauert, funktioniert jetzt aber gut.
Und welche Werke können nun im DDF und dem META-Katalog durchsucht werden?
Momentan sind die meisten zu durchsuchenden Druckwerke noch vom Archiv der deutschen Frauenbewegung, dem AddF. Diese können online gesucht und durchsucht werden. Bei anderen Dokumenten sind wir noch dabei, diese nach und nach zu prüfen und weiter zu integrieren. Die Funktion kann also angewendet werden, je nachdem wie die Daten vorliegen. Bei Postern und Plakaten ist die Texterkennung oft sehr schwierig, weil der Text da auch anders als gewohnt verlaufen kann, manchmal quer und längs und diagonal.
Deswegen umfasst die Funktion aktuell erst einmal Druckwerke wie Bücher. Auch bei älteren Schriften funktioniert die Erkennung ganz gut. Auch kann nach Teilbegriffen gesucht werden – es muss nicht immer das gesamte Wort eingegeben werden. Wenn also nach „Wahlrecht“ gesucht wird, wird auch „Frauenwahlrecht“ gefunden. Handschriftliche Materialien liegen bisher im überschaubaren Rahmen vor.
Das klingt alles sehr innovativ – inwiefern ist in diesen Prozess künstliche Intelligenz involviert?
Wenn der Begriff von künstlicher Intelligenz, also KI, großzügig ausgelegt wird, ist dies bereits Teil von KI. Denn OCR-Texterkennungsprogramme funktionieren ja nur so gut, wie sie trainiert werden. Sie müssen wissen, wie sie was erkennen sollen. Es werden von den Digitalisierungsdienstleister*innen verschiedene Algorithmen eingesetzt, eine Art neuronale Netze, die rudimentär so funktionieren wie ein Gehirn mit verschiedenen Neuronen. Dann wird dieses Netzt trainiert: Das System erhält einen Trainingsdatensatz und die Ausgangsinformationen, zum Beispiel ein zu scannendes Buch mit allen damit verbundenen Informationen, die darin findbar sein sollen. Dann werden neue Ausgangsinformationen, also weitere Bücher, eingespeist und geschaut, was über Suchanfragen herauskommt und korrigiert werden muss. Irgendwann ist dieser Algorithmus so trainiert, dass eine über 90- oder 95-prozentige Trefferquote erzielt wird.
So wird dann die Texterkennung bei den Digitalisierungsanbieter*innen vorgenommen. Was jetzt neu digitalisiert wird und wo es möglich ist, wird auch mit dieser OCR-Texterkennung digitalisiert. Aber es gibt aktuell noch Grenzen, zum Beispiel können Plakate schwierig sein oder wenn unterschiedliche Schriften in einem Werk verwendet werden. Dann können Fehlerquote und Korrekturbedarf hoch ausfallen und es ist vielleicht besser, keine OCR zu integrieren. Es muss auch im Rahmen der Möglichkeiten der Einrichtungen bleiben, die im Zuge der DDF-Digitalisierungsprojekte ihre Bestände digitalisieren lassen, auch diese Korrekturen zu leisten.
Über diese Funktion – also die Suche im einzelnen Digitalisat – hinaus, lässt sich die Nutzung noch ausweiten. Was wir für die nähere Zukunft noch planen: Wir möchten diese Funktion gern in die Gesamtsuche integrieren. Hieran arbeiten wir noch, wie wir das integrieren und die Nutzer*innenfläche anpassen können. Auch eine Vorlesefunktion wäre langfristig sicher spannend.