Deutsch Norsk Suomi русский Svenska Português Български ελληνικά English Italiano Français Español Česky ქართული Українська Slovenščina Polski Română Nederlands Türkçe
Start Download Admin Download App as .xar Edit ODD: nuernberger-briefbuecher.odd Edit ODD: docx.odd API Documentation
Dokumentation

Das vollständige Annotationshandbuch zum Download als pdf-Datei finden sie hier.


Korpuszusammensetzung

Das Korpus umfasst 180 Texte der Briefbücher 2 bis 5 (1408-1423), die von sechs verschiedenen Schreiberhänden eingetragen wurden. Pro Schreiber wurden Texte im Umfang von insgesamt ca. 4000 Tokens aus dem gesamten Zeitraum der Schreibertätigkeit auswählt. Dabei wurde auf den Einbezug eines breiten Adressatenspektrums Wert gelegt.


Transkription

Der Text wird möglichst handschriftengetreu wiedergegeben. Aufgrund des großen Umfangs an Wortkürzungen werden Abbreviaturen zum Zweck der besseren Lesbarkeit in ANNIS in eckigen Klammern aufgelöst. Diakritika sind, sofern sie als Buchstabenzeichen erkennbar waren, entsprechend abgebildet, übergeschriebene Punkte und Schlaufen erscheinen als Trema.


Annotationsumfang und Annotationsverfahren

Die Annotation erfolgte tokenbezogen auf den folgenden Ebenen:

  • Lemma (ANNIS: lemma)
  • Wortart/Part-of-Speech (ANNIS: pos)
  • morphosyntaktische Information (ANNIS: msd)
  • Zusammen- (ANNIS: join) bzw. Getrenntschreibung (ANNIS: part)
  • regionalsprachliche Merkmale und untergegangene Wörter (ANNIS: feature)
Die gesamte Annotation wurde manuell im TEI-Format durchgeführt und anschließend zur Darstellung in ANNIS automatisiert angepasst.
Beispiel: wir haben vnſern freund[e]n verſchriben

lemma (= Grundform des Wortes) Freund
join (= Zusammenschreibung) no
msd (= morphosyntactic description) Masc.Dat.Pl
part (= Getrenntschreibung) N
pos (= part-of-speech) NA-NA
feature (= regionalsprachliche/s Merkmal/e) Diphth true


Tokenisierung

Die Tokenisierung folgt i.d.R. der Zusammen- oder Getrenntschreibung der Handschrift.
Ausnahmen:
  • Es wird ein Token angesetzt, wenn für einen Teil eines getrennt geschriebenen, mehrgliedrigen Wortes kein eigenständiges Lemma in DWB oder Lexer nachgewiesen werden konnte oder aus semantischen Gründen ein einzelnes Token angesetzt wurde (bspw. Separierung des Präfixes ge- bei Partizipformen).
  • Mehrere Tokens werden bei zusammengeschriebenen Wörtern angesetzt, die in der vorhandenen Form nicht als Lemma bezeugt sind (bspw. Infinitiv mit zu: zunemen).


Lemmatisierung

Jedem Token wurde, sofern möglich, das neuhochdeutsche Lemma zugewiesen. Für untergegangene Lemmata, für die sich keine neuhochdeutsche Entsprechung im Digitalen Wörterbuch der deutschen Sprache (DWDS) findet, folgt die Lemmaangabe dem Deutschen Wörterbuch von Grimm (DWB) oder ggf. dem Lexer. Ist in keinem der Wörterbücher ein entsprechendes Lemma belegt, wurde das Lemma analog zu seinem Auftreten im Text beibehalten. Von der Annotation ausgenommen sind lateinische Wörter sowie Eigennamen.


Grammatische Annotation

Die grammatische Annotation fand auf den Ebenen der Wortart (POS) und der morphosyntaktischen Merkmale (MSD) statt. Dabei wird für die Angabe der Wortart zwischen einer allgemeinen und einer belegspezifischen Annotation unterschieden (LemmaPOS-BelegPOS), während die morphosyntaktischen Angaben sich ausschließlich auf den entsprechenden Beleg beziehen. Die Wortarten-Tags folgen im Wesentlichen dem HiTS 1 . Darüber hinaus dient das Vorgehen im Rahmen des Bonner Frühneuhochdeutschkorpus 2 sowie des Frühneuhochdeutschen Referenzkorpus 3 als Vergleichswert.


Annotation untergegangener Wörter

Als untergegangene Wörter wurden sowohl Historismen als auch Archaismen aufgefasst und in ANNIS mit dem feature extinct markiert. Ausschlaggebend für die Identifizierung untergegangener Lexeme sind lediglich die folgenden Kriterien:
  • Das Wort ist im DWDS nicht enthalten ODER:
  • Der Bedeutungswandel des Wortes ist derart drastisch, dass kein Bezug zwischen heutiger Verwendung und früherem Gebrauch hergestellt werden kann ODER:
  • Das Wort wird im DWDS als veraltet, veraltend oder historisch ausgewiesen.


Annotation regionalsprachlicher Merkmale

Annotiert wurden das Auftreten und Nicht-Auftreten ausgewählter sprachlicher Merkmale des bairisch-oberdeutschen sowie ostfränkisch-mitteldeutschen Sprachraums. Aufgrund der zahlreichen Abkürzungen in den Korpustexten wurde die Annotation regionalsprachlicher Merkmale nur für diejenigen Token durchgeführt, bei denen keine Abkürzung vorliegt, das betreffende Phänomen von der gekürzten Stelle nicht betroffen ist oder die Abkürzung eindeutig aufgelöst werden kann.

Bairisch-oberdeutsche Merkmale

im Oberdeutschen realisierte Merkmale (true)

Merkmal Beschreibung Annotation
ai <ai> statt mhd. <ei>; Bsp: ainander statt einander true + false
Alternanz_wb <w> - <b>-Alternanz; Bsp: werg statt berg nur true, sonst durchsuchbar in ANNIS
Apo durchgeführte Apokope; Bsp: die klag statt die klage true + false
Diphth durchgeführte Diphthongierung; Bsp: freunde statt fründe true + false
Entrundung Entrundung von /œ/ zu /e/ zu /i:/ und von /y/ zu /ɪ/ und /i:/; Bsp.: fresch statt frösche nur true, sonst durchsuchbar in ANNIS
Initial_p <p> statt <b> Wort- oder Silbeninitial; Bsp: pote statt bote true + false
kh <ch, kch, kh> u.ä. in allen Stellungen für mhd. <k>; Bsp: khennen statt kennen true + false
nus Suffix <nus> für <nis>; Bsp: hindernus statt hindernis true + false
Sup Superlativvokalismus (besonders in Anreden); Bsp: gnedigist statt gnedigst true + false

im Oberdeutschen nicht realisierte Merkmale (false)

Merkmal Beschreibung Annotation
Assimil Auftreten von nichtassimiliertem <mb>; Bsp: umb statt um true + false
dar mhd. Präfix <dar> in proklitischer Stellung vor Vokal als <dr>; Bsp: drauf statt darauf nur false, sonst durchsuchbar in ANNIS
Monophth keine Durchführung der Monophthongierung; Bsp: guot statt gut true + false
Präfix Präfix <be> ohne <e>; Präfix <ge> ohne <e>; Bsp: gnug statt genug nur false, sonst durchsuchbar in ANNIS
Senkung keine Senkung von mhd. /u/, /u:/ und /y/, /y:/; Bsp: künig statt könig true + false

Ostfränkisch-mitteldeutsche Merkmale

Im Mitteldeutschen realisierte Merkmale (true)

Merkmal Beschreibung Annotation
Assimil Assimilation von <mb> zu <mm> ; Bsp: um statt umb true + false
erbeit erbeit statt arbeit nur true
GestDiphth Auftreten gestürzte Diphthonge: mhd. /ie/ zu /ei/, mhd. /uo/ zu /oʊ̯/, mhd. /üe/ zu /ei/ ; Bsp: daif statt tief nur true
Monophth durchgeführte Monophthongierung; Bsp: bruder statt bruoder true + false
Senkung Senkung von /i/ zu /e/, /u/ zu /o/ und /y/ zu /oe/; Bsp: könig statt künig true + false
Spirans Spirantisierung von medialem und finalem /k/ und /g/ zu /x/, auch vor /s/; Bsp: werch statt werk nur true
under under statt unser nur true
werlt r in werlt erhalten nur true

Im Mitteldeutschen nicht realisierte Merkmale (false)

Merkmal Beschreibung Annotation
nus Suffix <nis> für <nus>; Bsp: hindernis statt hindernus true + false

Literatur
1. Stefanie Dipper et al.: HiTS: ein Tagset für historische Sprachstufen des Deutschen, In: Journal for Language Technology and Computational Linguistics 28 (2013), S. 85-137.
2. Bernhard Fissini: Das Bonner Frühneuhochdeutschkorpus (FnhdC) 2017. Dokumentation, URL: https://korpora.zim.uni-duisburg-essen.de/FnhdC/Dokumentation.html, abgerufen am 25.04.2022.
3. Referenzkorpus Frühneuhochdeutsch: URL: https://www.ruhr-uni-bochum.de/wegera/ref/index.htm, abgerufen am 25.04.2022.