Source Code des Corpus der Drucksachen des Deutschen Bundestages (CDRS-BT-Source) [article]

Sean Fobbe
2021 Zenodo  
Überblick Dieses R-Skript lädt die im XML-Format veröffentlichten Drucksachen des Deutschen Bundestags von dessen Open Data Portal herunter und verarbeitet sie in einen reichhaltigen menschen- und maschinenlesbaren Korpus. Es ist die Basis für den Corpus der Drucksachen des Deutschen Bundestages (CDRS-BT). Alle mit diesem Skript erstellten Datensätze werden dauerhaft kostenlos und urheberrechtsfrei auf Zenodo, dem wissenschaftlichen Archiv des CERN, veröffentlicht. Jede Version ist mit ihrem
more » ... enen, persistenten Digital Object Identifier (DOI) versehen. Die neueste Version des Datensatzes ist immer über diesen Link erreichbar: https://doi.org/10.5281/zenodo.4643065 Der CDRS-BT ist der Zwillings-Korpus des Corpus der Plenarprotokolle des Deutschen Bundestages (CPP-BT). Beide Korpora bauen auf der gleichen Datenstruktur auf, wurden nach den gleichen Prinzipien mit größtenteils identischem Code konstruiert und sind vollständig miteinander kompatibel. Durch die Verbindung beider Korpora können Sie Plenarprotokolle und Drucksachen — und damit alle Vorgänge des Bundestages — in einheitlichen Analysen untersuchen. Beachten Sie aber bitte, dass der CDRS-BT zusätzliche Variablen enthält, weil die Datengrundlage reichhaltiger ist. Aktualisierung Diese Software wird mindestens einmal pro Legislaturperiode aktualisiert. Benachrichtigungen über neue und aktualisierte Datensätze veröffentliche ich immer zeitnah auf Twitter unter @FobbeSean. Systemanforderungen Das Skript in seiner veröffentlichten Form kann nur unter Linux ausgeführt werden, da es Linux-spezifische Optimierungen (z.B. Fork Cluster) und Shell-Kommandos (z.B. OpenSSL) nutzt. Das Skript wurde unter Fedora Linux entwickelt und getestet. Die zur Kompilierung benutzte Version entnehmen Sie bitte dem sessionInfo()-Ausdruck am Ende des Compilation Reports. In der Standard-Einstellung wird das Skript vollaut [...]
doi:10.5281/zenodo.4643068 fatcat:uffml53ykjfozgmny6xe45bcom