Sponsor: Deutsche Forschngsgemeinschaft
Funding agency

Click here for the English version

Maschinelle Übersetzung und computerbasierte Analyse von Keilschriftsprachen

Antragsteller: Professor Dr. Christian Chiarcos

Fachliche Zuordnung: Ägyptische und Vorderasiatische Altertumswissenschaften
Angewandte Sprachwissenschaften, Experimentelle Linguistik, Computerlinguistik
Interaktive und intelligente Systeme, Bild- und Sprachverarbeitung, Computergraphik und Visualisierung

Förderung: Förderung von 2017 bis 2021

Projektkennung: Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 329145082

Geschichte und Kultur des Alten Mesopotamiens - Heimat der ersten Imperien und Geburtsort der Schrift - sind vor allem durch Literatur und Königsinschriften bekannt. Administrative Texte jedoch, die mehr als 90% aller Keilschrifttexte ausmachen, erfahren weniger Aufmerksamkeit: Selbst wenn digitalisiert, verbleiben sie zumeist unübersetzt und so kaum zugänglich, obgleich diese Texte einzigartige soziohistorische Dokumente der Prozesse und Mechanismen frühstaatlicher Ökonomien sind. Durch ihre Zahl ist ihre Übersetzung jedoch kaum möglich: Allein aus dem 21.Jh. v.Chr. besitzen wir mehr als 67.000 digitale, unübersetzte Transkriptionen - wie routinemäßig durch Spezialisten für ausgewählte Perioden und Phänomene erstellt -, die ohne Übersetzung jedoch selbst Experten aus anderen Gebieten der Altorientalistik unverständlich sind. MTAAC verbindet Verfahren des maschinellen Lernens, der statistischen und neuronalen Übersetzung zur Erschließung dieses Material für Altorientalisten, Geistes- und Sozialwissenschaftlern.Kernergebnis ist eine Methodik, deren Implementierung und eine große Zahl übersetzter und analysierter Texte, die unter offenen Lizenzen publiziert werden. Auch über Keilschriftstudien hinaus setzen wir ein Beispiel für die Erschließung derartiger Datensätze in den historischen Philologien. Wegen ihrer hohen Anzahl unterstützen wir die automatisierte Erschließung der betrachteten Texte. In der Sprachtechnologie haben sich hierfür statistische und neuronale Verfahren durchgesetzt, sind jedoch zur Analyse selbst größerer historischer Sprachen bislang kaum herangezogen worden. MTAAC leistet erstmals diesen Brückenschlag für Keilschriftphilologien, und gibt zudem ein Beispiel für Anwendungen maschinellen Lernens und maschineller Übersetzung in den Geisteswissenschaften. Zur Verbesserung der Nach-Nutzbarkeit entwickeln wir Linked-Open-Data-basierte Spezifikationen für die und mit der wissenschaftlichen Gemeinde, und formulieren darauf aufbauende Empfehlungen zur Zusammenarbeit zwischen Protagonisten der Digital Humanities wie Museen und philologischen Portalen.PI Heather Baker, Universität Toronto, Kanada, koordiniert sprachspezifische Fragestellungen; Co-PI Robert Englund, UCLA, Direktor der Cuneiform Digital Library Initiative, verantwortet Datenhaltung und -austausch; Co-PI Christian Chiarcos, Goethe-Universität Frankfurt, Sprachtechnologie und Datenintegration. Methodenentwicklung leisten wir gemeinsam. MTAAC entwickelt einen ganzheitlichen Zugang zu einem hoch repräsentativen Korpus früher Schriftdenkmale und innovative Methoden für dessen kontext-sensitive semantische Analyse. Das Projekt ermöglicht die erstmalige Zusammenarbeit zwischen Forschern weit auseinander liegender Disziplinen. Im Ergebnis ermöglichen wir einen neuen Zugang zu seit langem dahingeschwundenen Zivilisationen, wir fördern das Verständnis moderner Kulturen und ihrer historischen Wurzeln.

DFG-VerfahrenSachbeihilfen

Internationaler BezugKanada, USA

Mitverantwortliche: 

 

 

Machine Translation and Automated Analysis of Cuneiform Languages

 

Applicant: Professor Dr. Christian Chiarcos

Subject Area: Egyptology and Ancient Near Eastern Studies
Applied Linguistics, Experimental Linguistics, Computational Linguistics
Interactive and Intelligent Systems, Image and Language Processing, Computer Graphics and Visualisation

Term: from 2017 to 2021

Project identifierDeutsche Forschungsgemeinschaft (DFG) - Project number 329145082

History and culture of ancient Mesopotamia, home of the first empires and birthplace of writing, are mostly known through literary and royal inscriptions. Yet, administrative texts, that make up well over 90% of all cuneiform documents, have received much less attention: Even when transliterated and digitized, most remain untranslated, and therefore inaccessible to scholars in even closely related fields. But these texts are unique and deeply insightful socio-historical witnesses, as they document the day-to-day management of early state economies. Because of their vast numbers, their human translation appears to be an unachievable task. From the 21st c. BC alone, we have access to more than 67,000 digital transcriptions as routinely produced by specialists in a particular subset of documents, but without translation difficult to interpret even by specialists in other branches of Assyriology. MTAAC combines recent developments in machine learning (ML) with statistical and neural machine translation (MT) to facilitate the analysis of this material, thereby fundamentally expanding its accessibility to the Humanities and Social Sciences.Main outcome is a methodology, its implementation, and a body of translated and analyzed texts, released under open licenses. Beyond cuneiform studies, we set an example for processing a host of comparable datasets in different historical philologies. Because the texts are so numerous, we supplement human labor with automated solutions. Statistical and neural approaches to Natural Language Processing have been maturing in the last decades, and enjoy wide usage, but have rarely been applied to even major historical languages. We aim to bridge this gap, set an example for ML and MT in the Humanities, and facilitate studies of cuneiform languages. To increase re-usability, we adapt and develop community-maintained specifications based on linked open data formalisms, and propose rules of best practice for collaboration with other digital humanities actors such as museums, and portals for various strands of philology. PI Heather Baker, University of Toronto, Canada, leads the work on language specific aspects in MTAAC. Co-PI Robert Englund, UCLA, director of the Cuneiform Digital Library Initiative, is in charge of data management and hosting. Co-PI Christian Chiarcos, Goethe University Frankfurt, Germany, is responsible ML, MT and data integration. Methodologies are developed collaboratively. MTAAC provides unified access to a highly representative corpus of early writing, and will employ MT and ML to facilitate its context-sensitive semantic interpretation. The project will foster an unprecedented scholarly cooperation among researchers in a variety of disciplines. As a result, lines of communication to the heritage of civilizations dead for many millennia will be made accessible to the networked public, contributing to a deeper appreciation and understanding of modern culture and its historical roots.

DFG ProgrammeResearch Grants

International ConnectionCanada, USA

Co-Investigators

Visit Deutsche Forschngsgemeinschaft 's home page.
Cite this Sponsor
CDLI contributors. 2024. “Deutsche Forschngsgemeinschaft - Sponsors.” Cuneiform Digital Library Initiative. April 16, 2024. https://cdli.mpiwg-berlin.mpg.de/sponsors/9.
CDLI contributors. (2024, April 16). Deutsche Forschngsgemeinschaft - Sponsors. Cuneiform Digital Library Initiative. https://cdli.mpiwg-berlin.mpg.de/sponsors/9
CDLI contributors (2024) Deutsche Forschngsgemeinschaft - Sponsors, Cuneiform Digital Library Initiative. Available at: https://cdli.mpiwg-berlin.mpg.de/sponsors/9 (Accessed: April 16, 2024).
@misc{CDLI2024Deutsche,
	note = {[Online; accessed 2024-04-16]},
	author = {{CDLI contributors}},
	year = {2024},
	month = {apr 16},
	title = {Deutsche {Forschngsgemeinschaft} - {Sponsors}},
	url = {https://cdli.mpiwg-berlin.mpg.de/sponsors/9},
	howpublished = {https://cdli.mpiwg-berlin.mpg.de/sponsors/9},
}

TY  - ELEC
AU  - CDLI contributors
DA  - 2024/4/16/
PY  - 2024
ID  - temp_id_592394766248
M1  - 2024/4/16/
TI  - Deutsche Forschngsgemeinschaft - Sponsors
UR  - https://cdli.mpiwg-berlin.mpg.de/sponsors/9
ER  - 
This website uses essential cookies that are necessary for it to work properly. These cookies are enabled by default.