Diese Dokumentation des (elektronischen) Bonner Frühneuhochdeutschkorpus (FnhdC) und seiner Annotation soll zunächst einmal dem praktischen Zweck dienen, dieses Korpus verwenden zu können und seine Qualität einschätzen zu können. Sie ersetzt damit nicht die Dokumentation der Arbeitsschritte und der vorherigen Arbeiten (vgl. Lenders und Wegera 1982; Diel et al. 2002; Fisseni et al. 2007; sowie die Bände der Grammatik des Frühneuhochdeutschen: Wegera 1986; Dammers et al. 1988; Solms und Wegera 1991).
Zur Geschichte vgl. Lenders und Wegera (1982) und die Bände der Grammatik des Frühneuhochdeutschen: Wegera (1986); Dammers et al. (1988); Solms und Wegera (1991).
Das elektronische Korpus stellt einen Ausschnitt des großen Korpus des Frühneuhochdeutschen dar.
1972–74 am Germanistischen Seminar in Bonn erstellt
enthält ca. 1500 Texte
aus 22 Landschaften
sieben Zeitschnitte à 50 Jahren (1350–1700)
neun Textarten
Die Texte des Bonner Frühneuhochdeutsch-Korpus (FnhdC) sind
zusammenhängende Ausschnitten aus Texten. Die Nummer der Texte ist immer
nach dem Muster
<Teilkorpus-Nr>-<Landschafts-Nr>-<Zeitschnitt-Nr>
aufgebaut. Die Texte stammen also…
… aus zweimal 5 Sprachlandschaften aus dem hochdeutschen Raum
Teil | Nr | Landschaft |
---|---|---|
1 | 1 | Mittelbairisch (Wien) |
1 | 2 | Schwäbisch |
1 | 3 | Ostfränkisch (Nürnberg) |
1 | 4 | Obersächsisch |
1 | 5 | Ripuarisch (Köln) |
2 | 1 | Osthochalemannisch |
2 | 2 | Ostschwäbisch (Augsburg) |
2 | 3 | Elsässisch (Straßburg) |
2 | 4 | Hessisch |
2 | 5 | Thüringisch |
… aus vier Zeitschnitten (jeweils zweite Hälfte eines Jahrhunderts)
Nr | Jahre |
---|---|
1 | 1350–1400 |
3 | 1450–1500 |
5 | 1550–1600 |
7 | 1650–1700 |
Sie stellen eine Auswahl von 40 Texten dar, die starken Anforderungen genügen sollten; zu Begründungen vgl. die Literaturangaben oben.
‚Zuordnungsqualität 1‘ (Ziel, nicht immer erreicht): genaue Datierung und Lokalisierung, um die Zuordnung zur Landschaft und zum Zeitschnitt sicherzustellen. Unter anderm sollte bei Autoren/Druckern/Abschreibern die Landschaftszugehörigkeit eindeutig sein.
Ergiebigkeit im Flexionsbereich
Umfang: mindestens 30 Seiten „am Stück“ (⤳ Repräsentativität?)
pro Sprachlandschaft ein Schreibort für alle Zeitschnitte
keine Textgattungen mit ‚gefährlichen‘ Entstehungs- und Wirkungsbedingungen, daher auch keine Verstexte.
Das Korpus hat eine relativ lange Geschichte der Umkodierungen hinter sich. Diese brachte einerseits einen gewissen Datenverlust mit sich, andererseits war es an einigen Stellen nicht mehr möglich, die in den Daten kodierte Information zu dekodieren. Die neue Version geht hier einen Schritt weiter. Die Daten sind nun in XML kodiert und sollten daher etwas eindeutiger sein. Für Hobby-ArchäologInnen stellen wir aber auch die Daten aus den 1990ern zur Verfügung sowie ein Änderungs-Protokoll, das angibt, wie wir die Daten an einigen Stellen korrigiert haben.
Erfassung der Texte auf Lochkarten (vgl. Grammatik des Frühneuhochdeutschen); Dokumentation (Lenders und Wegera 1982)
Konvertierung der Lochkarten in PC-Kodierung (Codepage 437); undokumentiert, es sind mehr und etwas andere Kodierungen vorhanden, als in den 1970ern beschrieben.
Verlust der zweiten Hälfte von Text 117, Abraham à Santa Clara: Mercks wohl Soldat! …
Konvertierung der PC-Kodierung in ein XML-Format und eine lesbare Web-Version (HTML), dokumentiert bei (Diel et al. 2002), dabei Ergänzung der bibliographischen Daten aus der Literatur.
Erstellung einer Web-Version, die auch die morphologischen Informationen anzeigt, und einer Wortform-Suche (Fisseni et al. 2007)
Korrektürchen
Neukodierung der PC-Kodierung
Fehler oder Änderung des Unicode-Standards
Die Annotation war bisher grob dokumentiert, aber z.B. die Informationen zu Lemmata waren recht spärlich.
mit Farbe für die Wortklassen
mit Integration der bibliographischen Angaben
Anpassung für Mobil-Geräte?
Konvertierung vermittels SALT zur Verwendung mit ANNIS, sodass komplexe Suchanfragen möglich sind.
nun für mehr als eine Wortform
nach einzelnen Präfixen
mit saubererem Daten-Modell
Informationen zu Umgebung und Funktion entschlüsselt
Kodierung besser verstanden und entsprechend umgesetzt
zweite Form des Infinitivs in bestimmten Umgebungen
Wörter, die ausschließlich aus arabischen Ziffern bestehen, werden
als @typ="zahl"
ausgewiesen.
Insgesamt wurde die HTML-Kodierung ein wenig modernisiert.
Die XML-Version wurde erweitert.
Wir wollten möglichst kompatibel zur Vorversion von 2002 bleiben, haben aber Folgendes geändert:
Maßgeblich ist nun ein RelaxNG-Schema; ein XML-Schema steht auch zur Verfügung. Damit gibt es keine in der DTD gesetzten Default-Werte mehr und die XML-Dateien sind in sich vollständig.
Seiten- und Zeilen-Elemente enthalten nun die Wortformen und sind keine Trenner-Elemente mehr.
Die Seiten-Nummerierung wurde etwas lesbarer gestaltet.
Die oben erläuterten zusätzlichen Informationen wurden integriert.
Es wurde genauer unterschieden, was es bedeutet, wenn Informationen nicht vorhanden sind.
Bei der damaligen Methode der Annotation war ambig, was Fehlen von Information bedeutet: dass der Wert undefiniert ist, etwa das Tempus eines Adjektivs, oder dass er nicht bestimmbar ist, wie etwa das Genus eines Substantiv, dessen Kontext es nicht disambiguiert und bei dem bekannt ist, dass es Schwankungen in der Genuszuordnungen gibt. Außerdem gab es Merkmale, die nur im ‚positiven Falle‘ gesetzt wurden, etwa die Markierung von Substantiven als Fremdwort; hier bedeutet Nicht-Markierung also Nicht-Fremdwort.
Dies betraf mehr als 9 Prozent der Angaben.
Folge Entscheidung: wurde getroffen:
Einführung eines XML-Attributs leer
, das
Annotationen markiert, die höchstens eine Wortklassenbestimmung
enthalten.
Unzutreffende Merkmale werden nicht gesetzt.
Merkmale, die nicht bestimmt sind, aber systematisch vorkommen sollten, werden gesetzt. Dies sind:
Die Flexionskategorien, d.h.:
das Merkmal fremdwort
bei Substantiven und
das Merkmal adverbial
bei Adjektiven.
In den HTML-Versionen der Texte des Frühneuhochdeutschkorpus sind folgende Markierungen der morphologisch annotierten Fassung übernommen worden.
Für die Darstellung ist ein Browser erforderlich, der Cascading Stylesheets (CSS) beherrscht. Dies sollte mit modernen, graphischen Browsern kein Problem sein. Sollten Sie diesen Text in einer anderen Schrift sehen als den im Abschnitt „Zeichen“ und passen die Darstellungen unten zu ihrer Beschreibung (Fettes ist fett, Kursives/Schräges kursiv/schräg), sollte Ihr Browser hinreichend neu sein.
Im XML-Text sind alle Zeichen als Unicode-Zeichen realisiert; ebenso in der HTML-Version.
Wenn Ihr Browser die Einbettung von Schriften mit
@font-face
in CSS unterstützt (quasi alle modernen Browser,
Safari ≥ 3.1; Firefox ≥ 3.5 zum Beispiel), sollten Sie keine Schriften
installieren müssen. Dank der Großzügigkeit der Entwickler binden wir
Junicode und Fira Sans bzw. Fira Mono
direkt ein.
Achtung: Das Laden (bzw. die Darstellung) der Texte kann wegen der Komplexität der Darstellung u.U. recht lange dauern.
Im Folgenden wird beschrieben, welche Daten im FnhdC vorhanden sind. Dabei gehen wir vom Kleinsten (Zeichen-Kodierung) zum größeren. Die Informationen sind aus der o.g. Literatur zusammengestellt bzw. von uns erschlossen (Abkürzungen).
Übergeschriebene Zeichen und Striche sind im Original kodiert und wurden, soweit möglich, in Unicode übertragen, z.B. Koͤnig, vn̅, fuͥr zuͦ.
Diakritika wurden folgendermaßen normalisiert (vgl. Lenders und Wegera 1982); da die Normalisierung verlustbehaftet war, wurde sie bei der Umkodierung beibehalten. Bei der Umkodierung in den 1990ern wurden Vokale, soweit möglich, mit Akut versehen, bei anderen ein übergeschriebener Punkt notiert. Die Verwendung des Akuts wurde 2017 auf alle Buchstaben ausgedehnt, anstatt den übergeschriebenen Punkt beizubehalten. Der Akut hat den Vorteil, dass er auch auf einem i erkennbar ist.
Es kommen als Diakritika also vor:
us
ri, (genau einmal!), war @ superscriptum in der 1990er-Kodierung
war übergeschriebenes Fragezeichen
Gelegentlich wurde eigentlich Getrenntes zu Einheiten zusammengefasst, z.B. inne want, do wider,
Im XML-Korpus sind diese als getrennte morph
-Elemente in
einer wortform
wiedergegeben, außerdem Merkmal
gefunden
(Morph-Grenzen als #
) und
gelesen
(ohne Morphgrenzen).
In der HTML-Darstellung steht ein festes Leerzeichen zwischen den Teilen.
‚Token‘ sind im Folgenden die zusammengefassten Einheiten.
Insgesamt | 518.101 | |
Minimum | 5.857 | (Text 211) |
arithmetisches Mittel | 12.953 | |
Median | 12.988 | (zwischen 143 und 147) |
Maximum | 18.201 | (Text 233) |
unbekannt | potentiell | Adjektiv | Substantiv | Verb | Zahl in Ziffern | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|
295.646 | 2113 | 32.362 | 89.409 | 96.830 | 2.751 | ||||||
56,96 | % | 0,41 | % | 6,32 | % | 17,22 | % | 18,65 | % | 0,53 | % |
Adjektiv | Substantiv | Verb | |
---|---|---|---|
erst | 32.330 | 89.947 | 95.914 |
zweit | 32 | 62 | 916 |
Es sind keine Absätze markiert; gelegentlich kommen Leerzeilen vor. Diese wurden für die Zählung berücksichtigt.
Annotiert wurden die folgenden Einheiten, wobei durchgezählt wurde:
(gelegentlich) oder
Seitennummern können in verschiedenen Varianten auftreten.
Folio (recto, verso) oder einfach
(gelegentlich)
Zeilen wurden grundsätzlich nummeriert
[t]Layout und Meta-Information
Informationen zum Text und ggf. zum Schreiber bzw. Autor.
item
in 36 Texten (teilweise als Editions-Eingriff)
(des Editors) in 7 Texten
in 2 Texten
in 3 Texten
kommen in allen Texten vor.
(evtl. nach Edition) — auch bei Wortformen
Annotiert sind Wortformen der folgenden Typen.
In der Ursprungskodierung sind die Wortformen doppelt ausgezeichnet: einmal im Text und einmal in einer Zeile, die die annotierten Formen näher bestimmt. Bei der Konvertierung wurden die Annotationszeilen ‚in den Text gezogen‘.
Gelegentlich finden sich mehrere Annotationen für eine Wortform. Diese werden dann beide dargestellt und sind getrennt durchsuchbar.
Gelegentlich sind im Haupt-Text und in der Annotationszeile der
Originalkodierung die Bestimmungen unterschiedlich. In diesem Falle wird
der Wortform die annotierte Wortklasse zugewiesen und anschließend das
Attribut @nachträglich
gesetzt.
Beispiel: im ersten Text (111, Durandus’ Rationale) ist in
der ersten Zeile das Wort Vorrede nicht als Substantiv
annotiert, in der Annotationszeile findet sich jedoch eine Annotation
als Substantiv. Der Wortform wird daher das Merkmal
@nachträglich="substantiv"
zugewiesen, das in ANNIS und der
XML-Annotation verfügbar ist.
Folgende Informationen zu den einzelnen Wortarten sind verfügbar; bei Prozent-Angaben sind auch Werte mitgezählt, die als „unbekannt“ wiedergegeben werden (vgl. die Grafiken; „NA“ zeigt an, dass keine Daten verfügbar sind).
Lemma – die Lemmata sind in der HTML-Darstellung so Wörterbuchnetz verlinkt, dass das Lemma in allen historischen Wörterbüchern nachgeschlagen wird.
Kasus, Numerus, Genus (bis auf zwei)
Vokal (93,6 %)
Fremdwort (99,63% ausgezeichnet, etwa 1,30% Fremdwörter), Präfixe (11,89 %), Suffix (18,96 %)
Kasus, Numerus, Genus, Komparationsstufe,
Flexiv, Komparationssuffix, Angaben zum Kontext, zur adverbialen Verwendung
Vokal (97,2 %), Präfixe (11,9 %), Suffixe (42,2 %)
Form (Infinitiv, Partizip, Verbalsubstantiv)
oder Person (bei finiten Formen)
Tempus (außer bei Infinitiven und Verbalsubstantiven); Modus, Numerus (bei finiten Formen)
Präfixe (27,02 %)
Die meisten Wortformen sind nicht näher bestimmt. Dies betrifft auch Wortformen in editorischen Eingriffen u.Ä.
Eine Besonderheit stellt die Kategorie Potentiell dar, die offensichtlich anzeigt, dass Wortformen zu einer der annotierten Wortklassen gehören könnten. Für diese Wortformen findet sich keine weitere Bestimmung.
Die flektierten Formen sind oft lemmatisiert, z.B. werden (5435), sein (13587), gehen (699), stehen (469)
Eine durchsuchbare Liste der Lemmata finden Sie in der Lemma-Liste.
Wenn das Lemma auf eines der folgenden Zeichen endet, so hat dies eine besondere Bedeutung:
Verbstamm, den es nur mit Präfix gibt, z.B. lieren- (169), lingen- (9)
mhd. Form, z.B.
erschlossen – unsicher bzw. ‚murksig‘, z.B.
bdellium** (24), sonderling** [Adjektiv!] (12), aequivociren** (1), castoreum** (1, Form castorio), mathesi** (1x, sic!)
Hier werden offensichtlich Homonyme/Polyseme unterschieden.
Weitere Beispiele im Folgenden.
Die Lemmatisierung wurde sehr weit getrieben. Beispiele im Folgenden; anschließend Informationen zu Präfixen.
Herzliebst-gewesenen mit Präfix herzliebst und Lemma sein
verlos mit Lemma *lieren-, wobei es *lieren- nur mit Präfix gibt, daher der Bindestrich am Ende des Lemmas.
hin- und Her Ehret mit Lemma ern* (≈ pflügen) mit Präfixen hin (getrennt) und her.
Gedaͤchtnus mit Lemma ge-dächtnis
czwelifpoten mit Lemma bote (ohne Präfix) aber zwoͤlfbotten (mit Präfix zwölf)
Hebraischem mit Lemma hebräisch
Schatten-reichen mit Lemma reich und Präfix schatten
Präfix-Annotationen haben die folgenden Eigenschaften.
Präfixe sind grundsätzlich auf eine mittel- oder neuhochdeutsche Form normalisiert worden.
In der XML-Annotation sind die Präfixe in Präfix-Blöcke aufgeteilt, die wiederum mehrere Präfixe zusammenfassen; bei jedem Block ist vermerkt, ob er mit dem Stamm zusammensteht oder nicht. Beispiele unten.
Präfixe können in der Datenbank gesucht werden, indem das Merkmal
@praefixe
abgefragt wird. Die Blöcke werden folgendermaßen
kodiert: Enthält ein Präfixblock mehrere Präfixe, sind sie durch Komma
getrennt, also etwa ~[mit,leiden,be]
in Mitleidens-bezeigung.
Dabei steht ![BLOCK]
für getrennt stehende Blöcke und
~[BLOCK]
für nicht getrennt stehende Blöcke, also
~[selig,ab]
in einem nichtgetrennten Block aus zwei
Präfixen in seelig-abgeleibte
oder ![hoch,ehr],~[tugend,be]
in einem getrennten und einem
nichtgetrennten Block bei HochEhr– und
Tugendbegabten.
immer nur ein Präfix
endet in der Ursprungs-Annotation immer auf Raute
lexikalisierte gebundene Präfixe scheinen oft integriert zu sein, z.B. ent-schuldigung oder ver-worfenheit
aber auch z.B. Vnzucht
Substantiv-Konjunktionen: Keyser_/ Koͤnig_/ vnnd Fuͤrsten hoͤfe/ mit Lemma hof; in diesem Falle sind Keyser_ und Koͤnig_ als Substantive mit demselben Lemma ausgezeichnet.
Verben sind recht ‚brachial‘ lemmatisiert, so gibt es die Lemmata lieren-, sein, fangen etc.
Als Präfixe sind ge- bei Partizipien nur annotiert, falls zum Lexem gehörig; un- nie.
Präfixe wurden in der Fassung von 2017 in Blöcken zusammengefasst, die sich aus der alten Annotation ableiten ließen.
Partizipien stehen bekanntlich zwischen Verben und Adjektiven; dies schlägt sich in der Annotation nieder. Sie sind als eigene Verbform mit Tempus annotiert, ohne Informationen zu Numerus und Modus.
Ein Teil der Adjektive ist mit Annotationen zum Kontext versehen. Während es 2002/03 nicht gelungen war, die Annotationen zu entschlüsseln, haben wir sie für 2017 entschlüsselt. Zu beachten ist, dass die Benennungen unsere sind, nicht diejenigen der ursprünglichen Annotierer.
Das Adjektiv wird prädikativ verwendet.
Das Adjektiv wird als Substantiv verwendet.
Das Adjektiv steht in einer Nominalgruppe, ist aber nicht deren Kopf.
Das Adjektiv steht alleine, aber nicht in einer der oben genannten Rollen.
Das Adjektiv ist ‚Kopf‘ einer Potentiell-Gruppe (s.o.)
Falls vorhanden, sind Kontexte annotiert:
(Langform in XML, Abkürzung in der HTML-Version)
defArt
)DemPr
)Indef
)Konj+dArt
)Vergl/Relat.
)Possessiv
)Possessiv
)Präp+Art
)PersPr
)Präp(Gr)
)indArt
)Zahlwort
)(nichts)
)Potentiell, Adjektiv, Zahl, Substantiv, Eingriff, Name, (selbst) (d.h. steht selbst rechts)), Verb, (Etwas Anderes)
jhr liebe Burger mit Rolle: in Nominalgruppe, links: PersPr, rechts: Substantiv.
so er von boͤsen Thaten/ aͤrgerlichem Leben/ darinnen liset/ mit Rolle: in Nominalgruppe, links: Präp(Gr), rechts: Substantiv.
Hilderich der Ander/ der war in seiner Regierung gantz vnfleissig mit Rolle: prädikativ
Finit
Partizip
Infinitiv
Verbalsubstantiv: Nur in 16 Texten, bis auf einen aus Abschnitt 1 oder 3
Beispiele
Do knyat ich nẏder fur die edel Kunginn vnd ward iͤr gnad manenn an die dienst, die ich iren gnaden, vnd auch dem edelen kung, Vnd auch anderen iren gnaden kinden, dem edelen fuͤrsten geslëcht getan hab. (Text 113, Helene Kottanerin: Denkwürdigkeiten, Wien 1445-1452)
waz wir begynnen gudes zu dune (Text 241, Benediktinerregel Oxford, Nassau 14. Jahrhundert)
Vnd do er vffe die strosse kam, do siht er, wie ein mensche gegen ime kvmet, des selben menschen er vor langen ziten mit groser begirde begeret hette zu sehende , vnd óch ettewas heimelicher worte mit ime zu redende. (Text 231, Rulmann Merswin: Mannen, Straßburg 1352)