Das vollständige Annotationshandbuch zum Download als pdf-Datei finden sie hier.
Korpuszusammensetzung
Das Korpus umfasst 180 Texte der Briefbücher 2 bis 5 (1408-1423), die von sechs verschiedenen Schreiberhänden eingetragen wurden. Pro Schreiber wurden Texte im Umfang von insgesamt ca. 4000 Tokens aus dem gesamten Zeitraum der Schreibertätigkeit auswählt. Dabei wurde auf den Einbezug eines breiten Adressatenspektrums Wert gelegt.
Transkription
Der Text wird möglichst handschriftengetreu wiedergegeben. Aufgrund des großen Umfangs an Wortkürzungen werden Abbreviaturen zum Zweck der besseren Lesbarkeit in ANNIS in eckigen Klammern aufgelöst. Diakritika sind, sofern sie als Buchstabenzeichen erkennbar waren, entsprechend abgebildet, übergeschriebene Punkte und Schlaufen erscheinen als Trema.
Annotationsumfang und Annotationsverfahren
Die Annotation erfolgte tokenbezogen auf den folgenden Ebenen:
- Lemma (ANNIS: lemma)
- Wortart/Part-of-Speech (ANNIS: pos)
- morphosyntaktische Information (ANNIS: msd)
- Zusammen- (ANNIS: join) bzw. Getrenntschreibung (ANNIS: part)
- regionalsprachliche Merkmale und untergegangene Wörter (ANNIS: feature)
Beispiel: wir haben vnſern freund[e]n verſchriben
lemma (= Grundform des Wortes) | Freund |
join (= Zusammenschreibung) | no |
msd (= morphosyntactic description) | Masc.Dat.Pl |
part (= Getrenntschreibung) | N |
pos (= part-of-speech) | NA-NA |
feature (= regionalsprachliche/s Merkmal/e) | Diphth true |
Tokenisierung
Die Tokenisierung folgt i.d.R. der Zusammen- oder Getrenntschreibung der Handschrift.
Ausnahmen:
- Es wird ein Token angesetzt, wenn für einen Teil eines getrennt geschriebenen, mehrgliedrigen Wortes kein eigenständiges Lemma in DWB oder Lexer nachgewiesen werden konnte oder aus semantischen Gründen ein einzelnes Token angesetzt wurde (bspw. Separierung des Präfixes ge- bei Partizipformen).
- Mehrere Tokens werden bei zusammengeschriebenen Wörtern angesetzt, die in der vorhandenen Form nicht als Lemma bezeugt sind (bspw. Infinitiv mit zu: zunemen).
Lemmatisierung
Jedem Token wurde, sofern möglich, das neuhochdeutsche Lemma zugewiesen. Für untergegangene Lemmata, für die sich keine neuhochdeutsche Entsprechung im Digitalen Wörterbuch der deutschen Sprache (DWDS) findet, folgt die Lemmaangabe dem Deutschen Wörterbuch von Grimm (DWB) oder ggf. dem Lexer. Ist in keinem der Wörterbücher ein entsprechendes Lemma belegt, wurde das Lemma analog zu seinem Auftreten im Text beibehalten. Von der Annotation ausgenommen sind lateinische Wörter sowie Eigennamen.
Grammatische Annotation
Die grammatische Annotation fand auf den Ebenen der Wortart (POS) und der morphosyntaktischen Merkmale (MSD) statt. Dabei wird für die Angabe der Wortart zwischen einer allgemeinen und einer belegspezifischen Annotation unterschieden (LemmaPOS-BelegPOS), während die morphosyntaktischen Angaben sich ausschließlich auf den entsprechenden Beleg beziehen. Die Wortarten-Tags folgen im Wesentlichen dem HiTS 1 . Darüber hinaus dient das Vorgehen im Rahmen des Bonner Frühneuhochdeutschkorpus 2 sowie des Frühneuhochdeutschen Referenzkorpus 3 als Vergleichswert.
Annotation untergegangener Wörter
Als untergegangene Wörter wurden sowohl Historismen als auch Archaismen aufgefasst und in ANNIS mit dem feature extinct markiert. Ausschlaggebend für die Identifizierung untergegangener Lexeme sind lediglich die folgenden Kriterien:
- Das Wort ist im DWDS nicht enthalten ODER:
- Der Bedeutungswandel des Wortes ist derart drastisch, dass kein Bezug zwischen heutiger Verwendung und früherem Gebrauch hergestellt werden kann ODER:
- Das Wort wird im DWDS als veraltet, veraltend oder historisch ausgewiesen.
Annotation regionalsprachlicher Merkmale
Annotiert wurden das Auftreten und Nicht-Auftreten ausgewählter sprachlicher Merkmale des bairisch-oberdeutschen sowie ostfränkisch-mitteldeutschen Sprachraums. Aufgrund der zahlreichen Abkürzungen in den Korpustexten wurde die Annotation regionalsprachlicher Merkmale nur für diejenigen Token durchgeführt, bei denen keine Abkürzung vorliegt, das betreffende Phänomen von der gekürzten Stelle nicht betroffen ist oder die Abkürzung eindeutig aufgelöst werden kann.
Bairisch-oberdeutsche Merkmale
im Oberdeutschen realisierte Merkmale (true)
Merkmal | Beschreibung | Annotation |
---|---|---|
ai | <ai> statt mhd. <ei>; Bsp: ainander statt einander | true + false |
Alternanz_wb | <w> - <b>-Alternanz; Bsp: werg statt berg | nur true, sonst durchsuchbar in ANNIS |
Apo | durchgeführte Apokope; Bsp: die klag statt die klage | true + false |
Diphth | durchgeführte Diphthongierung; Bsp: freunde statt fründe | true + false |
Entrundung | Entrundung von /œ/ zu /e/ zu /i:/ und von /y/ zu /ɪ/ und /i:/; Bsp.: fresch statt frösche | nur true, sonst durchsuchbar in ANNIS |
Initial_p | <p> statt <b> Wort- oder Silbeninitial; Bsp: pote statt bote | true + false |
kh | <ch, kch, kh> u.ä. in allen Stellungen für mhd. <k>; Bsp: khennen statt kennen | true + false |
nus | Suffix <nus> für <nis>; Bsp: hindernus statt hindernis | true + false |
Sup | Superlativvokalismus (besonders in Anreden); Bsp: gnedigist statt gnedigst | true + false |
im Oberdeutschen nicht realisierte Merkmale (false)
Merkmal | Beschreibung | Annotation |
---|---|---|
Assimil | Auftreten von nichtassimiliertem <mb>; Bsp: umb statt um | true + false |
dar | mhd. Präfix <dar> in proklitischer Stellung vor Vokal als <dr>; Bsp: drauf statt darauf | nur false, sonst durchsuchbar in ANNIS |
Monophth | keine Durchführung der Monophthongierung; Bsp: guot statt gut | true + false |
Präfix | Präfix <be> ohne <e>; Präfix <ge> ohne <e>; Bsp: gnug statt genug | nur false, sonst durchsuchbar in ANNIS |
Senkung | keine Senkung von mhd. /u/, /u:/ und /y/, /y:/; Bsp: künig statt könig | true + false |
Ostfränkisch-mitteldeutsche Merkmale
Im Mitteldeutschen realisierte Merkmale (true)
Merkmal | Beschreibung | Annotation |
---|---|---|
Assimil | Assimilation von <mb> zu <mm> ; Bsp: um statt umb | true + false |
erbeit | erbeit statt arbeit | nur true |
GestDiphth | Auftreten gestürzte Diphthonge: mhd. /ie/ zu /ei/, mhd. /uo/ zu /oʊ̯/, mhd. /üe/ zu /ei/ ; Bsp: daif statt tief | nur true |
Monophth | durchgeführte Monophthongierung; Bsp: bruder statt bruoder | true + false |
Senkung | Senkung von /i/ zu /e/, /u/ zu /o/ und /y/ zu /oe/; Bsp: könig statt künig | true + false |
Spirans | Spirantisierung von medialem und finalem /k/ und /g/ zu /x/, auch vor /s/; Bsp: werch statt werk | nur true |
under | under statt unser | nur true |
werlt | r in werlt erhalten | nur true |
Im Mitteldeutschen nicht realisierte Merkmale (false)
Merkmal | Beschreibung | Annotation |
---|---|---|
nus | Suffix <nis> für <nus>; Bsp: hindernis statt hindernus | true + false |
Literatur
1. Stefanie Dipper et al.: HiTS: ein Tagset für historische Sprachstufen des Deutschen, In: Journal for Language Technology and Computational Linguistics 28 (2013), S. 85-137.↩
2. Bernhard Fissini: Das Bonner Frühneuhochdeutschkorpus (FnhdC) 2017. Dokumentation, URL: https://korpora.zim.uni-duisburg-essen.de/FnhdC/Dokumentation.html, abgerufen am 25.04.2022.↩
3. Referenzkorpus Frühneuhochdeutsch: URL: https://www.ruhr-uni-bochum.de/wegera/ref/index.htm, abgerufen am 25.04.2022.↩