<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="de">
	<id>https://www.forschungsdaten.org/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Frank.wiegand</id>
	<title>Forschungsdaten.org - Benutzerbeiträge [de]</title>
	<link rel="self" type="application/atom+xml" href="https://www.forschungsdaten.org/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Frank.wiegand"/>
	<link rel="alternate" type="text/html" href="https://www.forschungsdaten.org/index.php/Spezial:Beitr%C3%A4ge/Frank.wiegand"/>
	<updated>2026-04-10T22:51:16Z</updated>
	<subtitle>Benutzerbeiträge</subtitle>
	<generator>MediaWiki 1.43.8</generator>
	<entry>
		<id>https://www.forschungsdaten.org/index.php?title=Das_Deutsche_Textarchiv&amp;diff=1592</id>
		<title>Das Deutsche Textarchiv</title>
		<link rel="alternate" type="text/html" href="https://www.forschungsdaten.org/index.php?title=Das_Deutsche_Textarchiv&amp;diff=1592"/>
		<updated>2014-10-08T08:37:12Z</updated>

		<summary type="html">&lt;p&gt;Frank.wiegand: /* Zugang zu den vom DTA bereitgestellten Forschungsdaten (Metadaten und Texte) */ typo&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox Projekt&lt;br /&gt;
|VollständigerName=Das Deutsche Textarchiv (DTA)&lt;br /&gt;
|ZeitraumVon=2007&lt;br /&gt;
|ZeitraumBis=2014/2015&lt;br /&gt;
|Beteiligt=Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)&lt;br /&gt;
|Förderung=Deutsche Forschungsgemeinschaft (DFG)&lt;br /&gt;
|Website=http://www.deutschestextarchiv.de&lt;br /&gt;
}}&lt;br /&gt;
&#039;&#039;&#039;Das Deutsche Textarchiv (DTA)&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
==Projektbeschreibung==&lt;br /&gt;
&lt;br /&gt;
=== Ziel ===&lt;br /&gt;
Ziel des von der Deutschen Forschungsgemeinschaft geförderten und an der Berlin-Brandenburgischen &lt;br /&gt;
Akademie der Wissenschaften (BBAW) beheimateten Projekts Deutsches Textarchiv (DTA) ist&lt;br /&gt;
es, einen disziplinenübergreifenden Bestand deutschsprachiger Texte vom Beginn des 17. bis zum&lt;br /&gt;
Ende des 19. Jahrhunderts nach den Erstausgaben zu digitalisieren und als linguistisch annotiertes&lt;br /&gt;
Volltextkorpus im Internet bereitzustellen. Alle Volltexte des DTA sind einheitlich in dem anhand&lt;br /&gt;
der TEI P5 entwickelten DTA-Basisformat (DTABf) annotiert und schreibweisentolerant abfragbar&lt;br /&gt;
(CAB). Das DTA-Basisformat wird als „Best-Practice“-Format für historische geschriebene &lt;br /&gt;
Korpora im [[Clarin-D|CLARIN-D]]-Infrastrukturprojekt empfohlen (vgl. CLARIN-D-Benutzerhandbuch).&lt;br /&gt;
&lt;br /&gt;
=== Vorgehen ===&lt;br /&gt;
Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung&lt;br /&gt;
in der Regel die ersten selbstständigen Ausgaben der jeweiligen Werke zugrunde gelegt.&lt;br /&gt;
Die Volltexterfassung erfolgt vorlagengetreu und unter Verzicht auf textkritische Eingriffe und&lt;br /&gt;
Kommentierungen. Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell&lt;br /&gt;
(im Double Keying-Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in&lt;br /&gt;
Fraktur vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR; jedoch wurden etwa&lt;br /&gt;
200 vergleichsweise einfach strukturierte Werke aus dem Zeitraum 1780–1900 wurden per OCR,&lt;br /&gt;
mit anschließender, intensiver manueller Nachkontrolle, erfasst. Sämtliche Korpustexte werden &lt;br /&gt;
vollautomatisch linguistisch erschlossen (u. a. Tokenisierung, Lemmatisierung, POS-Tagging, &lt;br /&gt;
Abbildung historischer Schreibweisen auf heutige Orthographie)&lt;br /&gt;
&lt;br /&gt;
=== Bestand und Integration externer Texte ===&lt;br /&gt;
Hinsichtlich der Entstehungszeit der für das DTA erfassten Texte sowie in Bezug auf die dabei berücksichtigten&lt;br /&gt;
Textsorten wird eine größtmögliche Ausgewogenheit angestrebt. Derzeit (Stand 11. August 2014) &lt;br /&gt;
stehen auf der Webseite des DTA 1321 Werke im Umfang von etwa 425000 digitalisierten Seiten &lt;br /&gt;
als elektronische Volltexte und digitale Faksimiles zur Verfügung (Umfang: ca. 100 Millionen Textwörter &lt;br /&gt;
bzw. etwa 1 Milliarde Zeichen). Mit einem Umfang von mehr 1.300 Texten des 17.–19. Jahrhunderts &lt;br /&gt;
entsteht mit dem Deutschen Textarchiv ein großes historisches TEI-kodiertes Kernkorpus deutschsprachiger Texte. &lt;br /&gt;
Der Kernbestand wird über [http://www.deutschestextarchiv.de/doku/kooperationen Kooperationen] und die &lt;br /&gt;
[http://www.deutschestextarchiv.de/clarin_kupro Integration externer Texte] systematisch erweitert &lt;br /&gt;
(im Rahmen des DTA-Erweiterungsmoduls [DTAE]); die Qualitätssicherung erfolgt auf der webbasierten, &lt;br /&gt;
kollaborativen Plattform [DTAQ]). Derzeit betrifft dies einen Gesamtbestand von etwa 120 Millionen Tokens.&lt;br /&gt;
&lt;br /&gt;
=== Ausblick ===&lt;br /&gt;
Alle Texte der kooperierenden Partner werden ebenfalls im [DTABf] zur Verfügung gestellt und können somit interoperabel &lt;br /&gt;
als Forschungsdaten verwendet werden. Die Korpora des Deutschen Textarchivs sollen insgesamt den Grundstock für ein&lt;br /&gt;
zu erarbeitendes umfassendes historisches Referenzkorpus des Neuhochdeutschen bilden.&lt;br /&gt;
&lt;br /&gt;
== Zugang zu den vom DTA bereitgestellten Forschungsdaten (Metadaten und Texte) ==&lt;br /&gt;
− Download des Gesamtkorpus und ausgewählter Pakete in TEI/P5-XML [DTABf]: http://www.deutschestextarchiv.de/download&amp;lt;br/&amp;gt;&lt;br /&gt;
− APIs für Feeds und OAI-PMH Harvest: http://www.deutschestextarchiv.de/api&lt;br /&gt;
&lt;br /&gt;
== Fakten zum Deutschen Textarchiv ==&lt;br /&gt;
− Zeitraum: 1600-~1900 (Geschriebene Korpora)&amp;lt;br/&amp;gt;&lt;br /&gt;
− Umfang Kernkorpus: ca. 100 Millionen Tokens&amp;lt;br/&amp;gt;&lt;br /&gt;
− Umfang Ergänzungskorpora: ca. 120 Millionen Tokens (Stand: Juli 2014)&amp;lt;br/&amp;gt;&lt;br /&gt;
*Kooperationen: http://www.deutschestextarchiv.de/doku/kooperationen&lt;br /&gt;
− DFG-gefördert: seit 2007&amp;lt;br/&amp;gt;&lt;br /&gt;
− Antragsteller: Wolfgang Klein, Martin Grötschel, Manfred Bierwisch&amp;lt;br/&amp;gt;&lt;br /&gt;
− Arbeitsstellenleiter: Alexander Geyken&lt;br /&gt;
&lt;br /&gt;
=== Team ===&lt;br /&gt;
*Adrien Barbaresi (Computerlinguistik)&lt;br /&gt;
*Matthias Boenig (geb. Schulz) (Koordination)&lt;br /&gt;
*Susanne Haaf (Koordination)&lt;br /&gt;
*Dr. Bryan Jurish (Computerlinguistik)&lt;br /&gt;
*Christian Thomas (Koordination)&lt;br /&gt;
*Frank Wiegand (Software-Entwicklung und Webapplikation)&lt;br /&gt;
*Kai Zimmer (Systemadministration)&lt;br /&gt;
&lt;br /&gt;
== Weitere Informationen ==&lt;br /&gt;
− [DTA]: http://www.deutschestextarchiv.de&amp;lt;br/&amp;gt;&lt;br /&gt;
− [DTAQ]: Verteilte web-basierte Korrekurumgebung: http://www.deutschestextarchiv.de/dtaq&amp;lt;br/&amp;gt;&lt;br /&gt;
− [DTAE]: DTA-Erweiterungen: http://www.deutschestextarchiv.de/dtae&amp;lt;br/&amp;gt;&lt;br /&gt;
− [DTABf]: DTA-Basisformat (DTABf): http://www.deutschestextarchiv.de/doku/basisformat (Interoperables TEI-P5-Format)&amp;lt;br/&amp;gt;&lt;br /&gt;
− [CAB]: Cascaded Analysis Broker, unter anderem für schreibweisentolerante Suche: Informationen zum Programm CAB, welches die&lt;br /&gt;
Abbildung einer historischen Schreibung auf die heutige Orthographie realisiert:&amp;lt;br/&amp;gt;&lt;br /&gt;
* http://www.deutschestextarchiv.de/doku/software#cab bzw.&amp;lt;br/&amp;gt;&lt;br /&gt;
* Online-Demo: http://www.deutschestextarchiv.de/demo/cab/&amp;lt;br/&amp;gt;&lt;br /&gt;
− Veröffentlichungen: http://www.deutschestextarchiv.de/doku/publikationen&amp;lt;br/&amp;gt;&lt;br /&gt;
− [CLARIN Benutzerhandbuch] http://clarin-d.de/en/language-resources/userguide.html&amp;lt;br/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[Kategorie:Projekte]]&lt;/div&gt;</summary>
		<author><name>Frank.wiegand</name></author>
	</entry>
	<entry>
		<id>https://www.forschungsdaten.org/index.php?title=Das_Deutsche_Textarchiv&amp;diff=1591</id>
		<title>Das Deutsche Textarchiv</title>
		<link rel="alternate" type="text/html" href="https://www.forschungsdaten.org/index.php?title=Das_Deutsche_Textarchiv&amp;diff=1591"/>
		<updated>2014-10-08T08:36:36Z</updated>

		<summary type="html">&lt;p&gt;Frank.wiegand: typos&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Infobox Projekt&lt;br /&gt;
|VollständigerName=Das Deutsche Textarchiv (DTA)&lt;br /&gt;
|ZeitraumVon=2007&lt;br /&gt;
|ZeitraumBis=2014/2015&lt;br /&gt;
|Beteiligt=Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)&lt;br /&gt;
|Förderung=Deutsche Forschungsgemeinschaft (DFG)&lt;br /&gt;
|Website=http://www.deutschestextarchiv.de&lt;br /&gt;
}}&lt;br /&gt;
&#039;&#039;&#039;Das Deutsche Textarchiv (DTA)&#039;&#039;&#039;&lt;br /&gt;
&lt;br /&gt;
==Projektbeschreibung==&lt;br /&gt;
&lt;br /&gt;
=== Ziel ===&lt;br /&gt;
Ziel des von der Deutschen Forschungsgemeinschaft geförderten und an der Berlin-Brandenburgischen &lt;br /&gt;
Akademie der Wissenschaften (BBAW) beheimateten Projekts Deutsches Textarchiv (DTA) ist&lt;br /&gt;
es, einen disziplinenübergreifenden Bestand deutschsprachiger Texte vom Beginn des 17. bis zum&lt;br /&gt;
Ende des 19. Jahrhunderts nach den Erstausgaben zu digitalisieren und als linguistisch annotiertes&lt;br /&gt;
Volltextkorpus im Internet bereitzustellen. Alle Volltexte des DTA sind einheitlich in dem anhand&lt;br /&gt;
der TEI P5 entwickelten DTA-Basisformat (DTABf) annotiert und schreibweisentolerant abfragbar&lt;br /&gt;
(CAB). Das DTA-Basisformat wird als „Best-Practice“-Format für historische geschriebene &lt;br /&gt;
Korpora im [[Clarin-D|CLARIN-D]]-Infrastrukturprojekt empfohlen (vgl. CLARIN-D-Benutzerhandbuch).&lt;br /&gt;
&lt;br /&gt;
=== Vorgehen ===&lt;br /&gt;
Um den historischen Sprachstand möglichst genau abzubilden, werden als Vorlage für die Digitalisierung&lt;br /&gt;
in der Regel die ersten selbstständigen Ausgaben der jeweiligen Werke zugrunde gelegt.&lt;br /&gt;
Die Volltexterfassung erfolgt vorlagengetreu und unter Verzicht auf textkritische Eingriffe und&lt;br /&gt;
Kommentierungen. Hierzu werden die Texte in einem standardisierten Prozess größtenteils manuell&lt;br /&gt;
(im Double Keying-Verfahren) erfasst. Dies ist aufgrund der Textvorlagen, die überwiegend in&lt;br /&gt;
Fraktur vorliegen, bedeutend zuverlässiger als eine Texterfassung durch OCR; jedoch wurden etwa&lt;br /&gt;
200 vergleichsweise einfach strukturierte Werke aus dem Zeitraum 1780–1900 wurden per OCR,&lt;br /&gt;
mit anschließender, intensiver manueller Nachkontrolle, erfasst. Sämtliche Korpustexte werden &lt;br /&gt;
vollautomatisch linguistisch erschlossen (u. a. Tokenisierung, Lemmatisierung, POS-Tagging, &lt;br /&gt;
Abbildung historischer Schreibweisen auf heutige Orthographie)&lt;br /&gt;
&lt;br /&gt;
=== Bestand und Integration externer Texte ===&lt;br /&gt;
Hinsichtlich der Entstehungszeit der für das DTA erfassten Texte sowie in Bezug auf die dabei berücksichtigten&lt;br /&gt;
Textsorten wird eine größtmögliche Ausgewogenheit angestrebt. Derzeit (Stand 11. August 2014) &lt;br /&gt;
stehen auf der Webseite des DTA 1321 Werke im Umfang von etwa 425000 digitalisierten Seiten &lt;br /&gt;
als elektronische Volltexte und digitale Faksimiles zur Verfügung (Umfang: ca. 100 Millionen Textwörter &lt;br /&gt;
bzw. etwa 1 Milliarde Zeichen). Mit einem Umfang von mehr 1.300 Texten des 17.–19. Jahrhunderts &lt;br /&gt;
entsteht mit dem Deutschen Textarchiv ein großes historisches TEI-kodiertes Kernkorpus deutschsprachiger Texte. &lt;br /&gt;
Der Kernbestand wird über [http://www.deutschestextarchiv.de/doku/kooperationen Kooperationen] und die &lt;br /&gt;
[http://www.deutschestextarchiv.de/clarin_kupro Integration externer Texte] systematisch erweitert &lt;br /&gt;
(im Rahmen des DTA-Erweiterungsmoduls [DTAE]); die Qualitätssicherung erfolgt auf der webbasierten, &lt;br /&gt;
kollaborativen Plattform [DTAQ]). Derzeit betrifft dies einen Gesamtbestand von etwa 120 Millionen Tokens.&lt;br /&gt;
&lt;br /&gt;
=== Ausblick ===&lt;br /&gt;
Alle Texte der kooperierenden Partner werden ebenfalls im [DTABf] zur Verfügung gestellt und können somit interoperabel &lt;br /&gt;
als Forschungsdaten verwendet werden. Die Korpora des Deutschen Textarchivs sollen insgesamt den Grundstock für ein&lt;br /&gt;
zu erarbeitendes umfassendes historisches Referenzkorpus des Neuhochdeutschen bilden.&lt;br /&gt;
&lt;br /&gt;
== Zugang zu den vom DTA bereitgestellten Forschungsdaten (Metadaten und Texte) ==&lt;br /&gt;
− Download des Gesamtkorpus und ausgewählter Pakete in TEI/P5-XML [DTABf]: http://www.deutschestextarchiv.de/download&amp;lt;br/&amp;gt;&lt;br /&gt;
− APIs für Feeds und OIA-PMH Harvest: http://www.deutschestextarchiv.de/api&lt;br /&gt;
&lt;br /&gt;
== Fakten zum Deutschen Textarchiv ==&lt;br /&gt;
− Zeitraum: 1600-~1900 (Geschriebene Korpora)&amp;lt;br/&amp;gt;&lt;br /&gt;
− Umfang Kernkorpus: ca. 100 Millionen Tokens&amp;lt;br/&amp;gt;&lt;br /&gt;
− Umfang Ergänzungskorpora: ca. 120 Millionen Tokens (Stand: Juli 2014)&amp;lt;br/&amp;gt;&lt;br /&gt;
*Kooperationen: http://www.deutschestextarchiv.de/doku/kooperationen&lt;br /&gt;
− DFG-gefördert: seit 2007&amp;lt;br/&amp;gt;&lt;br /&gt;
− Antragsteller: Wolfgang Klein, Martin Grötschel, Manfred Bierwisch&amp;lt;br/&amp;gt;&lt;br /&gt;
− Arbeitsstellenleiter: Alexander Geyken&lt;br /&gt;
&lt;br /&gt;
=== Team ===&lt;br /&gt;
*Adrien Barbaresi (Computerlinguistik)&lt;br /&gt;
*Matthias Boenig (geb. Schulz) (Koordination)&lt;br /&gt;
*Susanne Haaf (Koordination)&lt;br /&gt;
*Dr. Bryan Jurish (Computerlinguistik)&lt;br /&gt;
*Christian Thomas (Koordination)&lt;br /&gt;
*Frank Wiegand (Software-Entwicklung und Webapplikation)&lt;br /&gt;
*Kai Zimmer (Systemadministration)&lt;br /&gt;
&lt;br /&gt;
== Weitere Informationen ==&lt;br /&gt;
− [DTA]: http://www.deutschestextarchiv.de&amp;lt;br/&amp;gt;&lt;br /&gt;
− [DTAQ]: Verteilte web-basierte Korrekurumgebung: http://www.deutschestextarchiv.de/dtaq&amp;lt;br/&amp;gt;&lt;br /&gt;
− [DTAE]: DTA-Erweiterungen: http://www.deutschestextarchiv.de/dtae&amp;lt;br/&amp;gt;&lt;br /&gt;
− [DTABf]: DTA-Basisformat (DTABf): http://www.deutschestextarchiv.de/doku/basisformat (Interoperables TEI-P5-Format)&amp;lt;br/&amp;gt;&lt;br /&gt;
− [CAB]: Cascaded Analysis Broker, unter anderem für schreibweisentolerante Suche: Informationen zum Programm CAB, welches die&lt;br /&gt;
Abbildung einer historischen Schreibung auf die heutige Orthographie realisiert:&amp;lt;br/&amp;gt;&lt;br /&gt;
* http://www.deutschestextarchiv.de/doku/software#cab bzw.&amp;lt;br/&amp;gt;&lt;br /&gt;
* Online-Demo: http://www.deutschestextarchiv.de/demo/cab/&amp;lt;br/&amp;gt;&lt;br /&gt;
− Veröffentlichungen: http://www.deutschestextarchiv.de/doku/publikationen&amp;lt;br/&amp;gt;&lt;br /&gt;
− [CLARIN Benutzerhandbuch] http://clarin-d.de/en/language-resources/userguide.html&amp;lt;br/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[Kategorie:Projekte]]&lt;/div&gt;</summary>
		<author><name>Frank.wiegand</name></author>
	</entry>
</feed>