Das Deutsche Textarchiv: Unterschied zwischen den Versionen

Aus Forschungsdaten.org
Zur Navigation springen Zur Suche springen
Keine Bearbeitungszusammenfassung
Zeile 2: Zeile 2:
|VollständigerName=Das Deutsche Textarchiv (DTA)
|VollständigerName=Das Deutsche Textarchiv (DTA)
|ZeitraumVon=2007
|ZeitraumVon=2007
|ZeitraumBis=2013/2014
|ZeitraumBis=2014/2015
|Beteiligt=Berlin- Brandenburgische
|Beteiligt=Berlin- Brandenburgische
Akademie der Wissenschaften (BBAW)
Akademie der Wissenschaften (BBAW)
Zeile 8: Zeile 8:
|Website=http://www.deutschestextarchiv.de
|Website=http://www.deutschestextarchiv.de
}}
}}
'''Das Deutsche Textarchiv (DTA) an der Berlin-Brandenburgischen Akademie der Wissenschaften'''
'''Das Deutsche Textarchiv (DTA), www.deutschestextarchiv.de'''


==Projektbeschreibung==
==Projektbeschreibung==


=== Ziel ===
=== Ziel ===
Ziel des von der Deutschen Forschungsgemeinschaft geförderten und an der Berlin- Brandenburgischen
Ziel des von der Deutschen Forschungsgemeinschaft geförderten und an der Berlin-Brandenburgischen  
Akademie der Wissenschaften (BBAW) beheimateten Projekts Deutsches Textarchiv (DTA) ist
Akademie der Wissenschaften (BBAW) beheimateten Projekts Deutsches Textarchiv ([DTA]) ist
es, einen disziplinenübergreifenden Bestand deutschsprachiger Texte vom Beginn des 17. bis zum
es, einen disziplinenübergreifenden Bestand deutschsprachiger Texte vom Beginn des 17. bis zum
Ende des 19. Jahrhunderts nach den Erstausgaben zu digitalisieren und als linguistisch annotiertes
Ende des 19. Jahrhunderts nach den Erstausgaben zu digitalisieren und als linguistisch annotiertes
Volltextkorpus im Internet bereitzustellen. Alle Volltexte des DTA sind einheitlich in dem anhand
Volltextkorpus im Internet bereitzustellen. Alle Volltexte des DTA sind einheitlich in dem anhand
der TEI P5 entwickelten DTA-Basisformat (DTABf) annotiert und schreibweisentolerant abfragbar
der TEI P5 entwickelten DTA-Basisformat ([DTABf]) annotiert und schreibweisentolerant abfragbar
([CAB]). Das DTA-Basisformat ist seit Januar 2013 „Best-Practice“- Format für historische
([CAB]). Das DTA-Basisformat wird als „Best-Practice“-Format für historische geschriebene
Korpora im CLARIN-D-Infrastrukturprojekt (vgl. [CLARIN-D- Benutzerhandbuch]).
Korpora im CLARIN-D-Infrastrukturprojekt empfohlen (vgl. [CLARIN-D- Benutzerhandbuch]).


=== Vorgehen ===
=== Vorgehen ===
Zeile 27: Zeile 27:
Die Volltexterfassung erfolgt vorlagengetreu und unter Verzicht auf textkritische Eingriffe und
Die Volltexterfassung erfolgt vorlagengetreu und unter Verzicht auf textkritische Eingriffe und
Kommentierungen. Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell
Kommentierungen. Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell
(im Double Keying- Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in
(im Double Keying-Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in
Fraktur vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR; jedoch wurden etwa
Fraktur vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR; jedoch wurden etwa
200 vergleichsweise einfach strukturierte Werke aus dem Zeitraum 1780–1900 wurden per OCR
200 vergleichsweise einfach strukturierte Werke aus dem Zeitraum 1780–1900 wurden per OCR,
mit anschließender manueller Nachkontrolle, erfasst.
mit anschließender, intensiver manueller Nachkontrolle, erfasst. Sämtliche Korpustexte werden
vollautomatisch linguistisch erschlossen (u. a. Tokenisierung, Lemmatisierung, POS-Tagging,
Abbildung historischer Schreibweisen auf heutige Orthographie)


=== Bestand und Integration externer Texte ===
=== Bestand und Integration externer Texte ===
Hinsichtlich der Entstehungszeit der für das DTA erfassten Texte sowie in Bezug auf die dabei berücksichtigten
Hinsichtlich der Entstehungszeit der für das DTA erfassten Texte sowie in Bezug auf die dabei berücksichtigten
Textsorten wird eine größtmögliche Ausgewogenheit angestrebt. Derzeit (Stand 5.
Textsorten wird eine größtmögliche Ausgewogenheit angestrebt. Derzeit (Stand 11. August 2014)
Dezember 2013) stehen auf der Webseite des DTA 1 281 Werke im Umfang von etwa 414 810
stehen auf der Webseite des DTA 1321 Werke im Umfang von etwa 425000 digitalisierten Seiten  
digitalisierten Seiten als elektronische Volltexte und digitale Faksimiles zur Verfügung (Umfang:
als elektronische Volltexte und digitale Faksimiles zur Verfügung (Umfang: ca. 100 Millionen Textwörter
ca. 100 Millionen Textwörtern bzw. etwa 680 Millionen Zeichen). Mit einem Umfang von mehr
bzw. etwa 1 Milliarde Zeichen). Mit einem Umfang von mehr 1.300 Texten des 17.–19. Jahrhunderts  
1.300 Texten des 17.–19. Jahrhunderts entsteht mit dem Deutschen Textarchiv ein großes historisches
entsteht mit dem Deutschen Textarchiv ein großes historisches TEI-kodiertes Kernkorpus deutschsprachiger Texte.  
TEI- kodiertes Kernkorpus deutschsprachiger Texte. Der Kernbestand wird über Kooperationen
Der Kernbestand wird über [http://www.deutschestextarchiv.de/doku/kooperationen Kooperationen] und die  
und die Integration externer Texte systematisch über Kooperationen mit anderen Korpuserstellungsprojekten
[http://www.deutschestextarchiv.de/clarin_kupro Integration externer Texte] systematisch erweitert
erweitert (im Rahmen des DTA-Erweiterungsmoduls [DTAE]); die Qualitätssicherung
(im Rahmen des DTA-Erweiterungsmoduls [DTAE]); die Qualitätssicherung erfolgt auf der webbasierten,  
erfolgt auf der webbasierten, kollaborativen Plattform [DTAQ]). Derzeit betrifft dies einen Gesamtbestand
kollaborativen Plattform [DTAQ]). Derzeit betrifft dies einen Gesamtbestand von etwa 120 Millionen Tokens.
von etwa 120 Millionen Tokens.  


=== Ausblick ===
=== Ausblick ===
Alle Texte der kooperierenden Partner werden
Alle Texte der kooperierenden Partner werden ebenfalls im [DTABf] zur Verfügung gestellt und können somit interoperabel  
ebenfalls im DTA-Basisformat zur Verfügung stehen und somit interoperabel als Forschungsdaten
als Forschungsdaten verwendet werden. Die Korpora des Deutschen Textarchivs sollen insgesamt den Grundstock für ein
verwendbar sein. Die Korpora des Deutschen Textarchivs sollen insgesamt den Grundstock für ein
zu erarbeitendes umfassendes historisches Referenzkorpus des Neuhochdeutschen bilden.
zu erarbeitendes umfassendes historisches Referenzkorpus des Neuhochdeutschen bilden.


=== Fakten zum Deutschen Textarchiv ===
=== Fakten zum Deutschen Textarchiv ===
− Zeitraum: 1600-~1900 (Geschriebene Korpora)<br/>
− Zeitraum: 1600-~1900 (Geschriebene Korpora)<br/>
− Umfang Kernkorpus: 100 Millionen; Umfang Ergänzungskorpora: 120 Millionen<br/>
− Umfang Kernkorpus: ca. 100 Millionen Tokens<br/>
− Interoperables TEI-P5-Format: www.deutschestextarchiv.de/doku/basisformat<br/>
Umfang Ergänzungskorpora: ca. 120 Millionen Tokens (Stand: Juli 2014)<br/>
*Kooperationen: http://www.deutschestextarchiv.de/doku/kooperationen
− DFG-gefördert: seit 2007<br/>
− DFG-gefördert: seit 2007<br/>
− Antragsteller: Wolfgang Klein, Martin Grötschel, Manfred Bierwisch<br/>
− Antragsteller: Wolfgang Klein, Martin Grötschel, Manfred Bierwisch<br/>
− Arbeitsstellenleiter: Alexander Geyken


=== Weitere Informationen ===
=== Weitere Informationen ===
− [DTA]: www.deutschestextarchiv.de<br/>
− [DTA]: http://www.deutschestextarchiv.de<br/>
− [CAB]: Schreibweisentolerante Suche: Informationen zum Programm CAB, welches die
− [DTAQ]: Verteilte web-basierte Korrekurumgebung: http://www.deutschestextarchiv.de/dtaq<br/>
− [DTAE]: DTA-Erweiterungen: http://www.deutschestextarchiv.de/dtae<br/>
− [DTABf]: DTA-Basisformat (DTABf): http://www.deutschestextarchiv.de/doku/basisformat (Interoperables TEI-P5-Format)<br/>
− [CAB]: = „Cascaded Analysis Broker“, unter anderem für schreibweisentolerante Suche: Informationen zum Programm CAB, welches die
Abbildung einer historischen Schreibung auf die heutige Orthographie realisiert:<br/>
Abbildung einer historischen Schreibung auf die heutige Orthographie realisiert:<br/>
*http://www.deutschestextarchiv.de/doku/software#cab bzw.<br/>
* http://www.deutschestextarchiv.de/doku/software#cab bzw.<br/>
*http://www.deutschestextarchiv.de/demo/cab/<br/>
* Online-Demo: http://www.deutschestextarchiv.de/demo/cab/<br/>
− [DTAQ]: Verteilte web-basierte Korrekurumgebung: www.deutschestextarchiv.de/dtaq<br/>
− [DTAE]: DTA-Erweiterungen: www.deutschestextarchiv.de/dtae<br/>
− Veröffentlichungen: http://www.deutschestextarchiv.de/doku/publikationen<br/>
− Veröffentlichungen: http://www.deutschestextarchiv.de/doku/publikationen<br/>
− [CLARIN Benutzerhandbuch] http://clarin-d.de/en/language-resources/userguide.html<br/>
− [CLARIN Benutzerhandbuch] http://clarin-d.de/en/language-resources/userguide.html<br/>

Version vom 11. August 2014, 13:42 Uhr

Projekt
Das Deutsche Textarchiv
Das Deutsche Textarchiv (DTA)
Zeitraum: 2007 bis 2014/2015
Beteiligt: Berlin- Brandenburgische

Akademie der Wissenschaften (BBAW)

gefördert von: Deutsche Forschungsgemeinschaft (DFG)
Website: Projekt-Webseiten

Das Deutsche Textarchiv (DTA), www.deutschestextarchiv.de

Projektbeschreibung

Ziel

Ziel des von der Deutschen Forschungsgemeinschaft geförderten und an der Berlin-Brandenburgischen Akademie der Wissenschaften (BBAW) beheimateten Projekts Deutsches Textarchiv ([DTA]) ist es, einen disziplinenübergreifenden Bestand deutschsprachiger Texte vom Beginn des 17. bis zum Ende des 19. Jahrhunderts nach den Erstausgaben zu digitalisieren und als linguistisch annotiertes Volltextkorpus im Internet bereitzustellen. Alle Volltexte des DTA sind einheitlich in dem anhand der TEI P5 entwickelten DTA-Basisformat ([DTABf]) annotiert und schreibweisentolerant abfragbar ([CAB]). Das DTA-Basisformat wird als „Best-Practice“-Format für historische geschriebene Korpora im CLARIN-D-Infrastrukturprojekt empfohlen (vgl. [CLARIN-D- Benutzerhandbuch]).

Vorgehen

Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung in der Regel die ersten selbstständigen Ausgaben der jeweiligen Werke zugrunde gelegt. Die Volltexterfassung erfolgt vorlagengetreu und unter Verzicht auf textkritische Eingriffe und Kommentierungen. Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell (im Double Keying-Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in Fraktur vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR; jedoch wurden etwa 200 vergleichsweise einfach strukturierte Werke aus dem Zeitraum 1780–1900 wurden per OCR, mit anschließender, intensiver manueller Nachkontrolle, erfasst. Sämtliche Korpustexte werden vollautomatisch linguistisch erschlossen (u. a. Tokenisierung, Lemmatisierung, POS-Tagging, Abbildung historischer Schreibweisen auf heutige Orthographie)

Bestand und Integration externer Texte

Hinsichtlich der Entstehungszeit der für das DTA erfassten Texte sowie in Bezug auf die dabei berücksichtigten Textsorten wird eine größtmögliche Ausgewogenheit angestrebt. Derzeit (Stand 11. August 2014) stehen auf der Webseite des DTA 1321 Werke im Umfang von etwa 425000 digitalisierten Seiten als elektronische Volltexte und digitale Faksimiles zur Verfügung (Umfang: ca. 100 Millionen Textwörter bzw. etwa 1 Milliarde Zeichen). Mit einem Umfang von mehr 1.300 Texten des 17.–19. Jahrhunderts entsteht mit dem Deutschen Textarchiv ein großes historisches TEI-kodiertes Kernkorpus deutschsprachiger Texte. Der Kernbestand wird über Kooperationen und die Integration externer Texte systematisch erweitert (im Rahmen des DTA-Erweiterungsmoduls [DTAE]); die Qualitätssicherung erfolgt auf der webbasierten, kollaborativen Plattform [DTAQ]). Derzeit betrifft dies einen Gesamtbestand von etwa 120 Millionen Tokens.

Ausblick

Alle Texte der kooperierenden Partner werden ebenfalls im [DTABf] zur Verfügung gestellt und können somit interoperabel als Forschungsdaten verwendet werden. Die Korpora des Deutschen Textarchivs sollen insgesamt den Grundstock für ein zu erarbeitendes umfassendes historisches Referenzkorpus des Neuhochdeutschen bilden.

Fakten zum Deutschen Textarchiv

− Zeitraum: 1600-~1900 (Geschriebene Korpora)
− Umfang Kernkorpus: ca. 100 Millionen Tokens
− Umfang Ergänzungskorpora: ca. 120 Millionen Tokens (Stand: Juli 2014)

− DFG-gefördert: seit 2007
− Antragsteller: Wolfgang Klein, Martin Grötschel, Manfred Bierwisch
− Arbeitsstellenleiter: Alexander Geyken

Weitere Informationen

− [DTA]: http://www.deutschestextarchiv.de
− [DTAQ]: Verteilte web-basierte Korrekurumgebung: http://www.deutschestextarchiv.de/dtaq
− [DTAE]: DTA-Erweiterungen: http://www.deutschestextarchiv.de/dtae
− [DTABf]: DTA-Basisformat (DTABf): http://www.deutschestextarchiv.de/doku/basisformat (Interoperables TEI-P5-Format)
− [CAB]: = „Cascaded Analysis Broker“, unter anderem für schreibweisentolerante Suche: Informationen zum Programm CAB, welches die Abbildung einer historischen Schreibung auf die heutige Orthographie realisiert:

− Veröffentlichungen: http://www.deutschestextarchiv.de/doku/publikationen
− [CLARIN Benutzerhandbuch] http://clarin-d.de/en/language-resources/userguide.html