Das Deutsche Textarchiv: Unterschied zwischen den Versionen

Aktuelle Version vom 11. Mai 2015, 14:46 Uhr

Projekt Das Deutsche Textarchiv Das Deutsche Textarchiv (DTA)
Zeitraum:	2007 bis 2014/2015
Beteiligt:	Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
gefördert von:	Deutsche Forschungsgemeinschaft (DFG)
Website:	Projekt-Webseiten

Projektbeschreibung

Ziel

Ziel des von der Deutschen Forschungsgemeinschaft geförderten und an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) beheimateten Projekts Deutsches Textarchiv (DTA) ist es, einen disziplinenübergreifenden Bestand deutschsprachiger Texte vom Beginn des 17. bis zum Ende des 19. Jahrhunderts nach den Erstausgaben zu digitalisieren und als linguistisch annotiertes Volltextkorpus im Internet bereitzustellen. Alle Volltexte des DTA sind einheitlich in dem anhand der TEI P5 entwickelten DTA-Basisformat (DTABf) annotiert und schreibweisentolerant abfragbar (CAB). Das DTA-Basisformat wird als „Best-Practice“-Format für historische geschriebene Korpora im CLARIN-D-Infrastrukturprojekt empfohlen (vgl. CLARIN-D-Benutzerhandbuch).

Vorgehen

Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung in der Regel die ersten selbstständigen Ausgaben der jeweiligen Werke zugrunde gelegt. Die Volltexterfassung erfolgt vorlagengetreu und unter Verzicht auf textkritische Eingriffe und Kommentierungen. Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell (im Double Keying-Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in Fraktur vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR; jedoch wurden etwa 200 vergleichsweise einfach strukturierte Werke aus dem Zeitraum 1780–1900 wurden per OCR, mit anschließender, intensiver manueller Nachkontrolle, erfasst. Sämtliche Korpustexte werden vollautomatisch linguistisch erschlossen (u. a. Tokenisierung, Lemmatisierung, POS-Tagging, Abbildung historischer Schreibweisen auf heutige Orthographie)

Bestand und Integration externer Texte

Hinsichtlich der Entstehungszeit der für das DTA erfassten Texte sowie in Bezug auf die dabei berücksichtigten Textsorten wird eine größtmögliche Ausgewogenheit angestrebt. Derzeit (Stand 11. August 2014) stehen auf der Webseite des DTA 1321 Werke im Umfang von etwa 425000 digitalisierten Seiten als elektronische Volltexte und digitale Faksimiles zur Verfügung (Umfang: ca. 100 Millionen Textwörter bzw. etwa 1 Milliarde Zeichen). Mit einem Umfang von mehr 1.300 Texten des 17.–19. Jahrhunderts entsteht mit dem Deutschen Textarchiv ein großes historisches TEI-kodiertes Kernkorpus deutschsprachiger Texte. Der Kernbestand wird über Kooperationen und die Integration externer Texte systematisch erweitert (im Rahmen des DTA-Erweiterungsmoduls [DTAE]); die Qualitätssicherung erfolgt auf der webbasierten, kollaborativen Plattform [DTAQ]). Derzeit betrifft dies einen Gesamtbestand von etwa 120 Millionen Tokens.

Ausblick

Alle Texte der kooperierenden Partner werden ebenfalls im [DTABf] zur Verfügung gestellt und können somit interoperabel als Forschungsdaten verwendet werden. Die Korpora des Deutschen Textarchivs sollen insgesamt den Grundstock für ein zu erarbeitendes umfassendes historisches Referenzkorpus des Neuhochdeutschen bilden.

Zugang zu den vom DTA bereitgestellten Forschungsdaten (Metadaten und Texte)

Download des Gesamtkorpus und ausgewählter Pakete in TEI/P5-XML [DTABf]: http://www.deutschestextarchiv.de/download
APIs für Feeds und OAI-PMH Harvest: http://www.deutschestextarchiv.de/api

Fakten zum Deutschen Textarchiv

Zeitraum: 1600-~1900 (Geschriebene Korpora)
Umfang Kernkorpus: ca. 100 Millionen Tokens
Umfang Ergänzungskorpora: ca. 120 Millionen Tokens (Stand: Juli 2014)
Kooperationen: http://www.deutschestextarchiv.de/doku/kooperationen
DFG-gefördert: seit 2007
Antragsteller: Wolfgang Klein, Martin Grötschel, Manfred Bierwisch
Arbeitsstellenleiter: Alexander Geyken

Team

Adrien Barbaresi (Computerlinguistik)
Matthias Boenig (geb. Schulz) (Koordination)
Susanne Haaf (Koordination)
Dr. Bryan Jurish (Computerlinguistik)
Christian Thomas (Koordination)
Frank Wiegand (Software-Entwicklung und Webapplikation)
Kai Zimmer (Systemadministration)

Weitere Informationen

[DTA]: http://www.deutschestextarchiv.de
[DTAQ]: Verteilte web-basierte Korrekurumgebung: http://www.deutschestextarchiv.de/dtaq
[DTAE]: DTA-Erweiterungen: http://www.deutschestextarchiv.de/dtae
[DTABf]: DTA-Basisformat (DTABf): http://www.deutschestextarchiv.de/doku/basisformat (Interoperables TEI-P5-Format)
[CAB]: Cascaded Analysis Broker, unter anderem für schreibweisentolerante Suche: Informationen zum Programm CAB, welches die Abbildung einer historischen Schreibung auf die heutige Orthographie realisiert:
- http://www.deutschestextarchiv.de/doku/software#cab bzw.
- Online-Demo: http://www.deutschestextarchiv.de/demo/cab/
Veröffentlichungen: http://www.deutschestextarchiv.de/doku/publikationen
[CLARIN Benutzerhandbuch] http://clarin-d.de/en/language-resources/userguide.html

@@ Zeile 1: / Zeile 1: @@
 {{Infobox Projekt
-|Das Deutsche Textarchiv (DTA) an der Berlin-Brandenburgischen Akademie der
+|VollständigerName=Das Deutsche Textarchiv (DTA)
-Wissenschaften
+|ZeitraumVon=2007
-|ZeitraumVon=<Datum>
+|ZeitraumBis=2014/2015
-|ZeitraumBis=<Datum>
+|Beteiligt=Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
-|Beteiligt=<Institution><br/><Institution><br/><Institution>
+|Förderung=Deutsche Forschungsgemeinschaft (DFG)
-|Förderung=<Förderer>
+|Website=http://www.deutschestextarchiv.de
-|Website=www.deutschestextarchiv.de
 }}
+==Projektbeschreibung==
-Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed
+=== Ziel ===
-diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam
+Ziel des von der Deutschen Forschungsgemeinschaft geförderten und an der Berlin-Brandenburgischen
-erat, sed diam voluptua. At vero eos et accusam et justo duo dolores
+Akademie der Wissenschaften (BBAW) beheimateten Projekts Deutsches Textarchiv (DTA) ist
-et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est
+es, einen disziplinenübergreifenden Bestand deutschsprachiger Texte vom Beginn des 17. bis zum
-Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur
+Ende des 19. Jahrhunderts nach den Erstausgaben zu digitalisieren und als linguistisch annotiertes
-sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et
+Volltextkorpus im Internet bereitzustellen. Alle Volltexte des DTA sind einheitlich in dem anhand
-dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam
+der TEI P5 entwickelten DTA-Basisformat (DTABf) annotiert und schreibweisentolerant abfragbar
-et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea
+(CAB). Das DTA-Basisformat wird als „Best-Practice“-Format für historische geschriebene
-takimata sanctus est Lorem ipsum dolor sit amet.
+Korpora im [[Clarin-D|CLARIN-D]]-Infrastrukturprojekt empfohlen (vgl. CLARIN-D-Benutzerhandbuch).
-= Hintergrund =
+=== Vorgehen ===
+Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung
+in der Regel die ersten selbstständigen Ausgaben der jeweiligen Werke zugrunde gelegt.
+Die Volltexterfassung erfolgt vorlagengetreu und unter Verzicht auf textkritische Eingriffe und
+Kommentierungen. Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell
+(im Double Keying-Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in
+Fraktur vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR; jedoch wurden etwa
+vergleichsweise einfach strukturierte Werke aus dem Zeitraum 1780–1900 wurden per OCR,
+mit anschließender, intensiver manueller Nachkontrolle, erfasst. Sämtliche Korpustexte werden
+vollautomatisch linguistisch erschlossen (u. a. Tokenisierung, Lemmatisierung, POS-Tagging,
+Abbildung historischer Schreibweisen auf heutige Orthographie)
-Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed
+=== Bestand und Integration externer Texte ===
-diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam
+Hinsichtlich der Entstehungszeit der für das DTA erfassten Texte sowie in Bezug auf die dabei berücksichtigten
-erat, sed diam voluptua. At vero eos et accusam et justo duo dolores
+Textsorten wird eine größtmögliche Ausgewogenheit angestrebt. Derzeit (Stand 11. August 2014)
-et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est
+stehen auf der Webseite des DTA 1321 Werke im Umfang von etwa 425000 digitalisierten Seiten
-Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur
+als elektronische Volltexte und digitale Faksimiles zur Verfügung (Umfang: ca. 100 Millionen Textwörter
-sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et
+bzw. etwa 1 Milliarde Zeichen). Mit einem Umfang von mehr 1.300 Texten des 17.–19. Jahrhunderts
-dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam
+entsteht mit dem Deutschen Textarchiv ein großes historisches TEI-kodiertes Kernkorpus deutschsprachiger Texte.
-et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea
+Der Kernbestand wird über [http://www.deutschestextarchiv.de/doku/kooperationen Kooperationen] und die
-takimata sanctus est Lorem ipsum dolor sit amet.
+[http://www.deutschestextarchiv.de/clarin_kupro Integration externer Texte] systematisch erweitert
+(im Rahmen des DTA-Erweiterungsmoduls [DTAE]); die Qualitätssicherung erfolgt auf der webbasierten,
+kollaborativen Plattform [DTAQ]). Derzeit betrifft dies einen Gesamtbestand von etwa 120 Millionen Tokens.
-Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed
+=== Ausblick ===
-diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam
+Alle Texte der kooperierenden Partner werden ebenfalls im [DTABf] zur Verfügung gestellt und können somit interoperabel
-erat, sed diam voluptua. At vero eos et accusam et justo duo dolores
+als Forschungsdaten verwendet werden. Die Korpora des Deutschen Textarchivs sollen insgesamt den Grundstock für ein
-et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est
+zu erarbeitendes umfassendes historisches Referenzkorpus des Neuhochdeutschen bilden.
-Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur
-sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et
-dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam
-et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea
-takimata sanctus est Lorem ipsum dolor sit amet.
-= Ziel =
+== Zugang zu den vom DTA bereitgestellten Forschungsdaten (Metadaten und Texte) ==
+* Download des Gesamtkorpus und ausgewählter Pakete in TEI/P5-XML [DTABf]: http://www.deutschestextarchiv.de/download<br/>
+* APIs für Feeds und OAI-PMH Harvest: http://www.deutschestextarchiv.de/api
-Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed
+=== Fakten zum Deutschen Textarchiv ===
-diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam
+* Zeitraum: 1600-~1900 (Geschriebene Korpora)
-erat, sed diam voluptua. At vero eos et accusam et justo duo dolores
+* Umfang Kernkorpus: ca. 100 Millionen Tokens
-et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est
+* Umfang Ergänzungskorpora: ca. 120 Millionen Tokens (Stand: Juli 2014)
-Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur
+* Kooperationen: http://www.deutschestextarchiv.de/doku/kooperationen
-sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et
+* DFG-gefördert: seit 2007
-dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam
+* Antragsteller: Wolfgang Klein, Martin Grötschel, Manfred Bierwisch
-et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea
+* Arbeitsstellenleiter: Alexander Geyken
-takimata sanctus est Lorem ipsum dolor sit amet.
-Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed
+=== Team ===
-diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam
+*Adrien Barbaresi (Computerlinguistik)
-erat, sed diam voluptua. At vero eos et accusam et justo duo dolores
+*Matthias Boenig (geb. Schulz) (Koordination)
-et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est
+*Susanne Haaf (Koordination)
-Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur
+*Dr. Bryan Jurish (Computerlinguistik)
-sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et
+*Christian Thomas (Koordination)
-dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam
+*Frank Wiegand (Software-Entwicklung und Webapplikation)
-et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea
+*Kai Zimmer (Systemadministration)
-takimata sanctus est Lorem ipsum dolor sit amet.
-= Weblinks =
+== Weitere Informationen ==
-* [http://example.com Projektwebseite]
+* [DTA]: http://www.deutschestextarchiv.de
+* [DTAQ]: Verteilte web-basierte Korrekurumgebung: http://www.deutschestextarchiv.de/dtaq
+* [DTAE]: DTA-Erweiterungen: http://www.deutschestextarchiv.de/dtae
+* [DTABf]: DTA-Basisformat (DTABf): http://www.deutschestextarchiv.de/doku/basisformat (Interoperables TEI-P5-Format)
+* [CAB]: Cascaded Analysis Broker, unter anderem für schreibweisentolerante Suche: Informationen zum Programm CAB, welches die Abbildung einer historischen Schreibung auf die heutige Orthographie realisiert:
+** http://www.deutschestextarchiv.de/doku/software#cab bzw.
+** Online-Demo: http://www.deutschestextarchiv.de/demo/cab/
+* Veröffentlichungen: http://www.deutschestextarchiv.de/doku/publikationen
+* [CLARIN Benutzerhandbuch] http://clarin-d.de/en/language-resources/userguide.html
-= Literaturverweise =
-<references />
 [[Kategorie:Projekte]]