Das Deutsche Textarchiv: Unterschied zwischen den Versionen

Aus Forschungsdaten.org
Zur Navigation springen Zur Suche springen
(Die Seite wurde neu angelegt: „{{Infobox Projekt |Das Deutsche Textarchiv (DTA) an der Berlin-Brandenburgischen Akademie der Wissenschaften |ZeitraumVon=<Datum> |ZeitraumBis=<Datum> |Beteili…“)
 
Keine Bearbeitungszusammenfassung
Zeile 6: Zeile 6:
|Beteiligt=<Institution><br/><Institution><br/><Institution>
|Beteiligt=<Institution><br/><Institution><br/><Institution>
|Förderung=<Förderer>
|Förderung=<Förderer>
|Website=www.deutschestextarchiv.de
|www.deutschestextarchiv.de
}}
}}


Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed
Überblick
diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam
erat, sed diam voluptua. At vero eos et accusam et justo duo dolores
et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est
Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur
sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et
dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam
et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea
takimata sanctus est Lorem ipsum dolor sit amet.


= Hintergrund =
Ziel des von der Deutschen Forschungsgemeinschaft geförderten und an der Berlin- Brandenburgischen
Akademie der Wissenschaften (BBAW) beheimateten Projekts Deutsches Textarchiv (DTA) ist
es, einen disziplinenübergreifenden Bestand deutschsprachiger Texte vom Beginn des 17. bis zum
Ende des 19. Jahrhunderts nach den Erstausgaben zu digitalisieren und als linguistisch annotiertes
Volltextkorpus im Internet bereitzustellen. Alle Volltexte des DTA sind einheitlich in dem anhand
der TEI P5 entwickelten DTA-Basisformat (DTABf) annotiert und schreibweisentolerant abfragbar
([CAB]). Das DTA-Basisformat ist seit Januar 2013 „Best-Practice“- Format für historische
Korpora im CLARIN-D-Infrastrukturprojekt (vgl. [CLARIN-D- Benutzerhandbuch]).


Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed
Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung
diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam
in der Regel die ersten selbstständigen Ausgaben der jeweiligen Werke zugrunde gelegt.
erat, sed diam voluptua. At vero eos et accusam et justo duo dolores
Die Volltexterfassung erfolgt vorlagengetreu und unter Verzicht auf textkritische Eingriffe und
et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est
Kommentierungen. Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell
Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur
(im Double Keying- Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in
sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et
Fraktur vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR; jedoch wurden etwa
dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam
200 vergleichsweise einfach strukturierte Werke aus dem Zeitraum 1780–1900 wurden per OCR
et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea
mit anschließender manueller Nachkontrolle, erfasst.
takimata sanctus est Lorem ipsum dolor sit amet.


Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed
Hinsichtlich der Entstehungszeit der für das DTA erfassten Texte sowie in Bezug auf die dabei berücksichtigten
diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam
Textsorten wird eine größtmögliche Ausgewogenheit angestrebt. Derzeit (Stand 5.
erat, sed diam voluptua. At vero eos et accusam et justo duo dolores
Dezember 2013) stehen auf der Webseite des DTA 1 281 Werke im Umfang von etwa 414 810
et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est
digitalisierten Seiten als elektronische Volltexte und digitale Faksimiles zur Verfügung (Umfang:
Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur
ca. 100 Millionen Textwörtern bzw. etwa 680 Millionen Zeichen). Mit einem Umfang von mehr
sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et
1.300 Texten des 17.–19. Jahrhunderts entsteht mit dem Deutschen Textarchiv ein großes historisches
dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam
TEI- kodiertes Kernkorpus deutschsprachiger Texte. Der Kernbestand wird über Kooperationen
et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea
und die Integration externer Texte systematisch über Kooperationen mit anderen Korpuserstellungsprojekten
takimata sanctus est Lorem ipsum dolor sit amet.
erweitert (im Rahmen des DTA-Erweiterungsmoduls [DTAE]); die Qualitätssicherung
erfolgt auf der webbasierten, kollaborativen Plattform [DTAQ]). Derzeit betrifft dies einen Gesamtbestand
von etwa 120 Millionen Tokens. Alle Texte der kooperierenden Partner werden
ebenfalls im DTA-Basisformat zur Verfügung stehen und somit interoperabel als Forschungsdaten
verwendbar sein. Die Korpora des Deutschen Textarchivs sollen insgesamt den Grundstock für ein
zu erarbeitendes umfassendes historisches Referenzkorpus des Neuhochdeutschen bilden.


= Ziel =
Einige Fakten zum Deutschen Textarchiv
− Zeitraum: 1600-~1900 (Geschriebene Korpora)
− Umfang Kernkorpus: 100 Millionen; Umfang Ergänzungskorpora: 120 Millionen
− Interoperables TEI-P5-Format: www.deutschestextarchiv.de/doku/basisformat
− DFG-gefördert: seit 2007
− Antragsteller: Wolfgang Klein, Martin Grötschel, Manfred Bierwisch


Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed
Weitere Informationen
diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam
− [DTA]: www.deutschestextarchiv.de
erat, sed diam voluptua. At vero eos et accusam et justo duo dolores
− [CAB]: Schreibweisentolerante Suche: Informationen zum Programm CAB, welches die
et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est
Abbildung einer historischen Schreibung auf die heutige Orthographie realisiert:
Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur
http://www.deutschestextarchiv.de/doku/software#cab bzw.
sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et
http://www.deutschestextarchiv.de/demo/cab/
dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam
− [DTAQ]: Verteilte web-basierte Korrekurumgebung: www.deutschestextarchiv.de/dtaq
et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea
− [DTAE]: DTA-Erweiterungen: www.deutschestextarchiv.de/dtae
takimata sanctus est Lorem ipsum dolor sit amet.
− Veröffentlichungen: http://www.deutschestextarchiv.de/doku/publikationen
[CLARIN Benutzerhandbuch] http://clarin-d.de/en/language-resources/userguide.html


Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed
diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam
erat, sed diam voluptua. At vero eos et accusam et justo duo dolores
et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est
Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur
sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et
dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam
et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea
takimata sanctus est Lorem ipsum dolor sit amet.
= Weblinks =
* [http://example.com Projektwebseite]
= Literaturverweise =
<references />


[[Kategorie:Projekte]]
[[Kategorie:Projekte]]

Version vom 7. August 2014, 09:11 Uhr

Projekt
Das Deutsche Textarchiv
Zeitraum: <Datum> bis <Datum>
Beteiligt: <Institution>
<Institution>
<Institution>
gefördert von: <Förderer>
Website: [ Projekt-Webseiten]


Überblick

Ziel des von der Deutschen Forschungsgemeinschaft geförderten und an der Berlin- Brandenburgischen Akademie der Wissenschaften (BBAW) beheimateten Projekts Deutsches Textarchiv (DTA) ist es, einen disziplinenübergreifenden Bestand deutschsprachiger Texte vom Beginn des 17. bis zum Ende des 19. Jahrhunderts nach den Erstausgaben zu digitalisieren und als linguistisch annotiertes Volltextkorpus im Internet bereitzustellen. Alle Volltexte des DTA sind einheitlich in dem anhand der TEI P5 entwickelten DTA-Basisformat (DTABf) annotiert und schreibweisentolerant abfragbar ([CAB]). Das DTA-Basisformat ist seit Januar 2013 „Best-Practice“- Format für historische Korpora im CLARIN-D-Infrastrukturprojekt (vgl. [CLARIN-D- Benutzerhandbuch]).

Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung in der Regel die ersten selbstständigen Ausgaben der jeweiligen Werke zugrunde gelegt. Die Volltexterfassung erfolgt vorlagengetreu und unter Verzicht auf textkritische Eingriffe und Kommentierungen. Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell (im Double Keying- Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in Fraktur vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR; jedoch wurden etwa 200 vergleichsweise einfach strukturierte Werke aus dem Zeitraum 1780–1900 wurden per OCR mit anschließender manueller Nachkontrolle, erfasst.

Hinsichtlich der Entstehungszeit der für das DTA erfassten Texte sowie in Bezug auf die dabei berücksichtigten Textsorten wird eine größtmögliche Ausgewogenheit angestrebt. Derzeit (Stand 5. Dezember 2013) stehen auf der Webseite des DTA 1 281 Werke im Umfang von etwa 414 810 digitalisierten Seiten als elektronische Volltexte und digitale Faksimiles zur Verfügung (Umfang: ca. 100 Millionen Textwörtern bzw. etwa 680 Millionen Zeichen). Mit einem Umfang von mehr 1.300 Texten des 17.–19. Jahrhunderts entsteht mit dem Deutschen Textarchiv ein großes historisches TEI- kodiertes Kernkorpus deutschsprachiger Texte. Der Kernbestand wird über Kooperationen und die Integration externer Texte systematisch über Kooperationen mit anderen Korpuserstellungsprojekten erweitert (im Rahmen des DTA-Erweiterungsmoduls [DTAE]); die Qualitätssicherung erfolgt auf der webbasierten, kollaborativen Plattform [DTAQ]). Derzeit betrifft dies einen Gesamtbestand von etwa 120 Millionen Tokens. Alle Texte der kooperierenden Partner werden ebenfalls im DTA-Basisformat zur Verfügung stehen und somit interoperabel als Forschungsdaten verwendbar sein. Die Korpora des Deutschen Textarchivs sollen insgesamt den Grundstock für ein zu erarbeitendes umfassendes historisches Referenzkorpus des Neuhochdeutschen bilden.

Einige Fakten zum Deutschen Textarchiv − Zeitraum: 1600-~1900 (Geschriebene Korpora) − Umfang Kernkorpus: 100 Millionen; Umfang Ergänzungskorpora: 120 Millionen − Interoperables TEI-P5-Format: www.deutschestextarchiv.de/doku/basisformat − DFG-gefördert: seit 2007 − Antragsteller: Wolfgang Klein, Martin Grötschel, Manfred Bierwisch

Weitere Informationen − [DTA]: www.deutschestextarchiv.de − [CAB]: Schreibweisentolerante Suche: Informationen zum Programm CAB, welches die Abbildung einer historischen Schreibung auf die heutige Orthographie realisiert: http://www.deutschestextarchiv.de/doku/software#cab bzw. http://www.deutschestextarchiv.de/demo/cab/ − [DTAQ]: Verteilte web-basierte Korrekurumgebung: www.deutschestextarchiv.de/dtaq − [DTAE]: DTA-Erweiterungen: www.deutschestextarchiv.de/dtae − Veröffentlichungen: http://www.deutschestextarchiv.de/doku/publikationen [CLARIN Benutzerhandbuch] http://clarin-d.de/en/language-resources/userguide.html