Nürnberger Briefbücher

Das vollständige Annotationshandbuch zum Download als pdf-Datei finden sie hier.

Korpuszusammensetzung

Das Korpus umfasst 180 Texte der Briefbücher 2 bis 5 (1408-1423), die von sechs verschiedenen Schreiberhänden eingetragen wurden. Pro Schreiber wurden Texte im Umfang von insgesamt ca. 4000 Tokens aus dem gesamten Zeitraum der Schreibertätigkeit auswählt. Dabei wurde auf den Einbezug eines breiten Adressatenspektrums Wert gelegt.

Transkription

Der Text wird möglichst handschriftengetreu wiedergegeben. Aufgrund des großen Umfangs an Wortkürzungen werden Abbreviaturen zum Zweck der besseren Lesbarkeit in ANNIS in eckigen Klammern aufgelöst. Diakritika sind, sofern sie als Buchstabenzeichen erkennbar waren, entsprechend abgebildet, übergeschriebene Punkte und Schlaufen erscheinen als Trema.

Annotationsumfang und Annotationsverfahren

Die Annotation erfolgte tokenbezogen auf den folgenden Ebenen:

Lemma (ANNIS: lemma)
Wortart/Part-of-Speech (ANNIS: pos)
morphosyntaktische Information (ANNIS: msd)
Zusammen- (ANNIS: join) bzw. Getrenntschreibung (ANNIS: part)
regionalsprachliche Merkmale und untergegangene Wörter (ANNIS: feature)

Die gesamte Annotation wurde manuell im TEI-Format durchgeführt und anschließend zur Darstellung in ANNIS automatisiert angepasst.
Beispiel: wir haben vnſern freund[e]n verſchriben

lemma (= Grundform des Wortes)	Freund
join (= Zusammenschreibung)	no
msd (= morphosyntactic description)	Masc.Dat.Pl
part (= Getrenntschreibung)	N
pos (= part-of-speech)	NA-NA
feature (= regionalsprachliche/s Merkmal/e)	Diphth true

Tokenisierung

Die Tokenisierung folgt i.d.R. der Zusammen- oder Getrenntschreibung der Handschrift.
Ausnahmen:

Es wird ein Token angesetzt, wenn für einen Teil eines getrennt geschriebenen, mehrgliedrigen Wortes kein eigenständiges Lemma in DWB oder Lexer nachgewiesen werden konnte oder aus semantischen Gründen ein einzelnes Token angesetzt wurde (bspw. Separierung des Präfixes ge- bei Partizipformen).
Mehrere Tokens werden bei zusammengeschriebenen Wörtern angesetzt, die in der vorhandenen Form nicht als Lemma bezeugt sind (bspw. Infinitiv mit zu: zunemen).

Lemmatisierung

Jedem Token wurde, sofern möglich, das neuhochdeutsche Lemma zugewiesen. Für untergegangene Lemmata, für die sich keine neuhochdeutsche Entsprechung im Digitalen Wörterbuch der deutschen Sprache (DWDS) findet, folgt die Lemmaangabe dem Deutschen Wörterbuch von Grimm (DWB) oder ggf. dem Lexer. Ist in keinem der Wörterbücher ein entsprechendes Lemma belegt, wurde das Lemma analog zu seinem Auftreten im Text beibehalten. Von der Annotation ausgenommen sind lateinische Wörter sowie Eigennamen.

Grammatische Annotation

Die grammatische Annotation fand auf den Ebenen der Wortart (POS) und der morphosyntaktischen Merkmale (MSD) statt. Dabei wird für die Angabe der Wortart zwischen einer allgemeinen und einer belegspezifischen Annotation unterschieden (LemmaPOS-BelegPOS), während die morphosyntaktischen Angaben sich ausschließlich auf den entsprechenden Beleg beziehen. Die Wortarten-Tags folgen im Wesentlichen dem HiTS¹. Darüber hinaus dient das Vorgehen im Rahmen des Bonner Frühneuhochdeutschkorpus² sowie des Frühneuhochdeutschen Referenzkorpus³ als Vergleichswert.

Annotation untergegangener Wörter

Als untergegangene Wörter wurden sowohl Historismen als auch Archaismen aufgefasst und in ANNIS mit dem feature extinct markiert. Ausschlaggebend für die Identifizierung untergegangener Lexeme sind lediglich die folgenden Kriterien:

Das Wort ist im DWDS nicht enthalten ODER:
Der Bedeutungswandel des Wortes ist derart drastisch, dass kein Bezug zwischen heutiger Verwendung und früherem Gebrauch hergestellt werden kann ODER:
Das Wort wird im DWDS als veraltet, veraltend oder historisch ausgewiesen.

Annotation regionalsprachlicher Merkmale

Annotiert wurden das Auftreten und Nicht-Auftreten ausgewählter sprachlicher Merkmale des bairisch-oberdeutschen sowie ostfränkisch-mitteldeutschen Sprachraums. Aufgrund der zahlreichen Abkürzungen in den Korpustexten wurde die Annotation regionalsprachlicher Merkmale nur für diejenigen Token durchgeführt, bei denen keine Abkürzung vorliegt, das betreffende Phänomen von der gekürzten Stelle nicht betroffen ist oder die Abkürzung eindeutig aufgelöst werden kann.

Bairisch-oberdeutsche Merkmale

im Oberdeutschen realisierte Merkmale (true)

Merkmal	Beschreibung	Annotation
ai	<ai> statt mhd. <ei>; Bsp: ainander statt einander	true + false
Alternanz_wb	<w> - <b>-Alternanz; Bsp: werg statt berg	nur true, sonst durchsuchbar in ANNIS
Apo	durchgeführte Apokope; Bsp: die klag statt die klage	true + false
Diphth	durchgeführte Diphthongierung; Bsp: freunde statt fründe	true + false
Entrundung	Entrundung von /œ/ zu /e/ zu /i:/ und von /y/ zu /ɪ/ und /i:/; Bsp.: fresch statt frösche	nur true, sonst durchsuchbar in ANNIS
Initial_p	<p> statt <b> Wort- oder Silbeninitial; Bsp: pote statt bote	true + false
kh	<ch, kch, kh> u.ä. in allen Stellungen für mhd. <k>; Bsp: khennen statt kennen	true + false
nus	Suffix <nus> für <nis>; Bsp: hindernus statt hindernis	true + false
Sup	Superlativvokalismus (besonders in Anreden); Bsp: gnedigist statt gnedigst	true + false

im Oberdeutschen nicht realisierte Merkmale (false)

Merkmal	Beschreibung	Annotation
Assimil	Auftreten von nichtassimiliertem <mb>; Bsp: umb statt um	true + false
dar	mhd. Präfix <dar> in proklitischer Stellung vor Vokal als <dr>; Bsp: drauf statt darauf	nur false, sonst durchsuchbar in ANNIS
Monophth	keine Durchführung der Monophthongierung; Bsp: guot statt gut	true + false
Präfix	Präfix <be> ohne <e>; Präfix <ge> ohne <e>; Bsp: gnug statt genug	nur false, sonst durchsuchbar in ANNIS
Senkung	keine Senkung von mhd. /u/, /u:/ und /y/, /y:/; Bsp: künig statt könig	true + false

Ostfränkisch-mitteldeutsche Merkmale

Im Mitteldeutschen realisierte Merkmale (true)

Merkmal	Beschreibung	Annotation
Assimil	Assimilation von <mb> zu <mm> ; Bsp: um statt umb	true + false
erbeit	erbeit statt arbeit	nur true
GestDiphth	Auftreten gestürzte Diphthonge: mhd. /ie/ zu /ei/, mhd. /uo/ zu /oʊ̯/, mhd. /üe/ zu /ei/ ; Bsp: daif statt tief	nur true
Monophth	durchgeführte Monophthongierung; Bsp: bruder statt bruoder	true + false
Senkung	Senkung von /i/ zu /e/, /u/ zu /o/ und /y/ zu /oe/; Bsp: könig statt künig	true + false
Spirans	Spirantisierung von medialem und finalem /k/ und /g/ zu /x/, auch vor /s/; Bsp: werch statt werk	nur true
under	under statt unser	nur true
werlt	r in werlt erhalten	nur true

Im Mitteldeutschen nicht realisierte Merkmale (false)

Merkmal	Beschreibung	Annotation
nus	Suffix <nis> für <nus>; Bsp: hindernis statt hindernus	true + false

Literatur
^{1. Stefanie Dipper et al.: HiTS: ein Tagset für historische Sprachstufen des Deutschen, In: Journal for Language Technology and Computational Linguistics 28 (2013), S. 85-137.↩}
^{2. Bernhard Fissini: Das Bonner Frühneuhochdeutschkorpus (FnhdC) 2017. Dokumentation, URL: https://korpora.zim.uni-duisburg-essen.de/FnhdC/Dokumentation.html, abgerufen am 25.04.2022.↩}
^{3. Referenzkorpus Frühneuhochdeutsch: URL: https://www.ruhr-uni-bochum.de/wegera/ref/index.htm, abgerufen am 25.04.2022.↩}