A few links on Citizen Science

This year we’re going to develop and employ some DIY-environmental monitoring stations in Graz (more info to come soon), so I started gathering some info about citizen science: projects, as well as best practices and general reflections about this topic.

If you have any additional material, please post it to comments or to @chris_kittel. Thanks!

Citizen Science Can Produce Reliable Data: A short piece about procedures, problems and data quality when involving volunteers in gathering empirical data. OKFN, John Gollan.

Of Citizen Science, Ethics and IRBs: Clarifying thoughts about Citizen / DIY-Science, ethical questions and Institutional Review Boards (IRBs). Contains lots of links to further reading and discussion. Scientific American, Judy Stone.

Posting the Flu. The Web and Pandemic Surveillance: This post is about practical experiences in tracking the spreading of diseases, tools and scopes of analysis, and has links regarding modeling and visualization techniques. MyScienceWork, Abby Tabor.

Citizen Science and Air Quality Monitoring in Tokyo: This blog is about a DIY-Project to monitor various air quality variables (Carbon Monoxide, Volatile Organic Compounds, temperature, humidity) in Tokyo. It was developed during a weeklong Hackathon, and is already producing data. Safecast, levi.

Public Invited to Webinar on Citizen Science: Together with CoCoRaHS (Community, Collaborative Rain, Hail and Snow Network), the NASA invites the public to attend a free Webinar on Citizen Science with Dalia Kirschbaum (GPM application scientist and education and outreach coordinator), and Gail Skofronick-Jackson (GPM deputy project scientist). The GPM is a satellite mission for Global Precipitation Measurement. The Webinar will be on Feb. 13th, and you can register here. NASA, Ellen Gray.

In old tradition, I’ll add a linklist to this linklist, from Sciencecitizen.org. It has scientific papers about Citizen Science in various fields: Astronomy, Biology, Computer Science and Robotics.

Press Coverage of Climate Change Issues in Nigeria and Implications for Public Participation Opportunities: This paper analyzes the role of media in transporting scientific research and involving the public. It offers insight into problems and possible improvements regarding more empowering narratives and discourses, inclusion or exclusion through framing, and better collaboration opportunities through choice of information sources. Journal of Sustainable Development, Herbert Batta.

Participatory Sensing. The Tension between Social Translucence and Privacy: This paper sheds some light on the trade-offs between visibility of contribution and protecting privacy. It reviews processes and technical solutions that can help building trust and reputation systems, in order to build communities around, and maintain quality of, generating data. Academia.edu, Ioannis Krontiris & Nicolas Maisonneuve.

There are also questions about outsourcing, unpaid work and whether this is a new form of exploiting voluntariness for reducing research costs, that have to be addressed in future works.

iKNOW 2013: Call for Papers

The iKNOW, a Conference on Knowledge Management and Knowledge Computing, has issued a Call for Papers.

The Conference, which will take place from September 4th to 6th, 2013 at the Messe Congress in Graz (Austria), has three main topics next year. Each of the the topics is very differentiated – more detailed info here. From an Open Science point of view, one sub-topic is especially interesting, which I here want to emphasize first:

Science 2.0: This concept (fielded under “Knowledge Management in Industry and Science”) encompasses new research and publication processes, new quality indicator systems, new communication and feedback mechanisms among researchers as well as between science and society, new forms of collaboration as well as new techniques such as semantic web standards for science.

The three main topics are summarized here.

Knowledge and Data Analytics: “I-KNOW 2013 seeks for novel contributions in advancing the field of knowledge & data analytics as well as in providing new means to utilize, navigate and search large, heterogeneous data pools. We aim to bridge data-centric and user-centric approaches and welcome contributions from both ends of the spectrum.
Besides new algorithms and techniques, we are also interested on applications in the wild, user-centric evaluations of real-world applications as well as empirical studies.”

Social and Mobile Computing: “IKNOW 2013 seeks for innovative contributions in the fields of social and ubiquitous computing, specifically with the focus on supporting to mobile knowledge work. We aim at developing deeper insights into the mechanisms of collaborations, communities, content quality, etc. – not only based on user behaviour in virtual environments but also in the real world.
The currently open challenge is, to technically deal with behaviour and usage data and to analyse it in such a way as to benefit the individual in highly distributed and mobile situations at work and in personal tasks, such as in health care and crisis settings as well as in community engagements and self-directed learning. Besides new apps, methods, and architectures, we are also interested on applications in the wild, user-centric evaluations of real-world applications as well as conceptual overviews that help us understand – or challenge our understanding of – the impact of these technologies.”

Knowledge Management in Industry and Science: “Like all major societal challenges, knowledge management touches diverse aspects of life and thus needs a multi-disciplinary approach for finding solutions. We seek for novel contributions from management science, social sciences, psychology and computer science which address the challenges of managing knowledge in increasingly distributed and mobile work settings as well as turning knowledge into high impact innovations.
We will examine these topics within enterprise and the scientific settings. Besides new theories, models and approaches, we are also interested on applications in the wild, user-centric evaluations of real-world applications as well as empirical studies.

The submissions are required to be scientific and in english (submission guidelines), and there are some important dates not to be missed:

For full papers:

  • Abstract Submission Deadline: March 25, 2013
  • Paper Submission Deadline: April 1, 2013
  • Notification of Acceptance: May 3, 2013
  • Camera-Ready Paper: June 10, 2013

and for Posters and Demonstrations:

  • Submission Deadline: May 21, 2012
  • Notification of Acceptance: June 18, 2012

Please have a further look also on the homepage of the conference.

Open Week Tag 1: Stallman, Creative Commons 4.0 und GPL

Die Open Week wurde gemütlich eröffnet, mit einer Tasse Tee und Marmeladenbrot. Für heute haben wir uns dem Querschnittsthema aller Open-Bereiche zugewendet, dem Urheberrecht.

Wir arbeiten alle zusammen parallel im Etherpad der OpenKnowledge-Foundation:

Open Knowledge Pad zu Tag 1 – Urheberrecht

Einführung: Stallman

Zum Einstieg in die Thematik haben wir uns zwei Videos von Richard Stallman angeschaut: Im Video auf der ETH Zürich spricht Stallman über die digitale Gesellschaft, wie sie ausschauen kann, und welche aktuellen freiheitsbedrohenden Entwicklungen es gibt. Dabei spricht er verschiedene Teilbereiche an:

  • Überwachung & Zensur
  • Freie Software, Interoperabilität und Sharing
  • e-Voting
  • Freie Bildung und Freie Kunst
  • und wie sich jeweils verschiedene Alternativen mit dem Ideal einer freien, demokratischen Gesellschaft messen
  • ps: Linux ist GNU + Linux-Kernel!

Im zweiten Video spricht Stallman gegen Ende (ab ca. Minute 45) über Urheberrecht, angewandt auf drei konkrete Bereiche, und die in jedem Bereich notwendigen Freiheiten:
  • funktionale, praktische Anwendungen: alles was benutzt oder zum Herstellen von Dingen verwendet wird, z.B. Software, Rezepte, Referenzwerke, Bildungsmaterialien
    • eine Lizenz für diesen Bereich muss Veränderung/Modifikation am Werk ermöglichen, sowie eine Weiterverbreitung von modifizierten und unmodifizierten Versionen
    • dahinter steht der Gedanke, dass Kontrolle über Erzeugnisse Kontrolle über das eigene Leben bedeutet, im konkreten Fall der Software Kontrolle des Entwicklers über den Nutzer
  • Gedanken – Wiedergeben: Memoiren, wissenschaftliche Papers, Kommentare und Meinungsäußerungen
    • aus sozialer Sicht macht die Bearbeitung eines Werkes hier keinen Sinn, daher muss die grundsätzliche Lizenz unmodifizierte und nicht-kommerzielle Weiterverbreitung garantieren
    • dennoch kann ein kleiner Teil des bestehenden Urheberrechtssystems weiterbestehen, der erlaubt, bearbeitete Versionen auch für kommerzielle Zwecke zu verwenden, solange die Erlaubnis dazu vorliegt
  • Unterhaltung & Kunst – Werke die über ihre Auswirkungen auf die Gesellschaft definiert werden:
    • aus Sicht der künstlerischen Integrität sollte eine Lizenz unmodifizierte Verbreitung garantieren; es sprechen allerdings genauso viele Argumente dafür, weitere Transformation und Anpassungen im Sinne einer künstlerischen Auseinandersetzung zuzulassen
    • auch aus zeitlicher Sicht ist dieses Feld als nicht so dringlich zu betrachten

Stallmans Argumentation ist in einigen Punkten kritisch zu hinterfragen:
Eine klare Trennung zwischen Werken die eine Funktion erfüllen, Werken die Meinungen wiedergeben, oder Kunst ist schwierig. Weiters nimmt er bei den KünsterInnen eine Fremdbestimmung vor und er hat einige Grundannahmen darüber, wie sich Menschen (“die Mehrheit”) verhalten oder eine Gesellschaftsorganisation vorstellen. Diese Grundannahmen legt Stallman allerdings selten offen dar.

Recherche: Creative Commons 4.0

  • Übersicht: http://wiki.creativecommons.org/4.0
  • Status: Der Entwurf der Creative Commons 4.0 – Lizenzen befindet sich aktuell in der Phase der 2. Öffentlichen Kommentierung, diese wird bis Ende August laufen. Nach einer dritten öffentlichen Phase und Portierung ab Oktober soll im Dezember 2012 die CC-4.0 veröffentlicht werden.
  • neu an mehreren Stellen: “Specified that the URI can be a hyperlink to make inclusion easier.” Durch eine mögliche Verlinkung wird die Veröffentlichung unter CC-Lizenz vereinfacht.
  • ››Section 6(d) – Comment: “Designed to address needs of governments and intergovernmental organizations. No intended change from how 3.0 operates.”‹‹
  • NonCommercial-Definition: keine Änderungen aus Kompatibilitätsgründen und Erwartungen der Lizenzgeber
  • neu ist die Anwendbarkeit auf Datenbanken über verwandte Schutzrechte (“neighboring rights”): Die Diskussion über Rechte an Datenbanken ist sehr spannend und sollte von jeder/m im Bereich OpenData verfolgt werden!
  • Meinung der CC-Community: “SGDRs are bad policy and have not proven to garner the economic benefits they were designed to achieve. Accordingly, CC needs to be careful not to do anything that would be seen as an endorsement of SGDRs or that would have the effect of encouraging compliance with license conditions in jurisdictions where SGDRs do not apply.”
  • Eine erste Durchsicht ergibt, dass mit 4.0 deutlich mehr Klarheit in den Formulierungen entsteht. Die Lesbarkeit wird durch eine Listenformatierung erhöht, und klarere Definitionen erhöhen das Verständnis. Neu wird die Anwendbarkeit auf Datenbanken sein, und wir sind schon sehr gespannt welche Alternative es zum Europäischen Sui-Generis Modell gibt.
  • Fundstück: Solderpad Hardware License, die schaut momentan eher nach Entwurf aus.

Updates im Wiki

Unser letzter Arbeitsschritt war, gemeinsam eine Reihe von Lizenzen in unsere OpenScience Wissenssammlung im wiki einzutragen. Diese ist hier zu finden.

Ein Pfad durch den Dschungel von Big Data und Knowledge Discovery

Linked Open Data Graph

In diesem Eintrag versuche ich, einen groben Überblick über das weite Themenfeld von Big Data, Machine Learning und der Überschneidung beider Gebiete, Wissensentdeckung in Datenbanken, zu erarbeiten.

Ergänzt werden beide Gebiete mit Hinweisen auf Software, Tools und Methoden (Open Source/Access soweit möglich). Der Eintrag ist daher vor allem an Neulinge und technisch Interessierte gerichtet.

Wie so oft haben sich  die technischen Möglichkeiten schneller entwickelt als die Fähigkeiten des Menschen, mit ihnen umzugehen (Moore’s Gesetz, die enorme Verbilligung von Massenspeichern und das Aufkommen von überall vorhandenen und äußerst schnellen Internetzugängen). Ab ca. 2011 zieht “Big Data” Kreise (google trends). Die Möglichkeiten, die sich ergeben wenn man die enormen Datenbestände mit Hilfe statistischer Methoden und Algorithmen untersucht, erwecken leicht den Anschein, als könnten sie die quantitativen Methoden in eine neue Dimension katapultieren (s. “The Unreasonable Effectiveness of Data“, IEEE 2011).

Als völlige_r Neueinsteiger_in in das Thema sollte man mit 3-4 Wochen Einarbeitungszeit rechnen, bereits das Einlesen in dieses Thema führt sehr schnell zu einem Informationsüberfluss: Fachbegriffe wie Support Vector Machines, Distributed Processing, CAP-Theorem, Fuzzy C-Means Clustering schwirren um die Ohren und man begegnet einer Vielzahl von Werkzeugen, die man sinnvollerweise können sollte: Data Mining Toolkits, Programmiersprachen und verschiedenste Datenbanksysteme. Vorher möchte ich kurz die Themenfelder, die oft gemeinsam behandelt werden, kurz etwas trennen und die wichtigsten Begriffe ordnen.

http://www.flickr.com/photos/lenards/3954268119/

Big Data

Die generierte Datenmenge steigt exponentiell an, der Vizepräsident von Cleversafe rechnet damit, dass es bereits 2015 Unternehmen geben wird, die 80 Exabyte Daten pro Monat analysieren müssen – Cleversafe selbst hat kürzlich das erste 10 Exabyte-Speichersystem auf den Markt gebracht. Außer der Herausforderung, die Infrastruktur zur Datenübertragung an den enorm gestiegenen Traffic (für ein paar Zahlen vgl. das Cisco White Paper 2011, “Entering the Zettabyte Era“) anzupassen, stehen Unternehmen und Wissenschaftler vor der Frage, wie aus der unüberschaubaren Menge von unstrukturierten Daten verschiedenster Quellen Informationen und Wissen gewonnen werden kann.

Der Supercomputer hat ausgedient und wird durch tausende einzelne Maschinen ersetzt, die in verteilten Serverfarmen zu virtuellen Clustern zusammengeschaltet werden. So werden verschiedene Probleme wie Abwärme, Platzbedarf und physische Sicherheit gelöst, während die Virtualisierung beliebige Skalierbarkeit möglich macht. Dadurch tauchen aber neue Probleme auf: Wie lassen sich solche verteilten Systeme managen, wenn mit ausreichend Geschwindigkeit 1000 Queries pro Sekunde in einer Datenbank verwaltet werden müssen, die auf 5.000 Servern verteilt liegt?

http://www.flickr.com/photos/marc_smith/6879238126/Das Konzept dahinter nennt sich Distributed Computing, wie es z.B. das Open Source Framework Apache Hadoop ermöglicht, und wie es z.B. von BOINC und ähnlichen Projekten zivilgesellschaftlich genutzt wird.

Parallel haben sich neue Datenbanksysteme (NoSQL – Not only SQL) entwickelt, die besser als objektrelationale Systeme geeignet sind, mit extrem großen Datenmengen umzugehen. Ein ausführlicher radiotux-podcast (Binärgewitter #1) liefert einen Einstieg in NoSQL, und befasst sich auch mit den Vorreitern, Amazons Dynamo und Googles BigTable. Der Talk beginnt bei den Grundlagen (wichtige Papers sind verlinkt) und ist sehr informativ, erklärt Column Stores (Cassandra, HBase), Datastructure Stores (Redis), KeyValue Stores (Riak), Document Stores (MongoDB), Graphdatenbanken, und liefert viele Anwendungsbeispiele.

Von ihrer Linkliste möchte ich (Dawn of Polyglot Persistence) herausheben, da dort die Differenzierung nach Anwendungsfällen (Archivierung, Suche, Navigation, Reporting) und eine mögliche Evolution hin zu automatisierten Systemen mit Garbage Collection beschrieben wird. Wer schon eine genauere Vorstellung eines Anwendungsfalles hat, bzw. weiß, mit welchen Daten er/sie es zu tun hat, findet einen Vergleich verschiedener NoSQL-Systeme.

Die technischen Schwierigkeiten sind aber nicht die einzigen, die uns vor große Hürden stellen. Soll das Internet als eines der wichtigsten Medien nicht an seinem Wachstum und Komplexität scheitern, müssen wir Lösungen finden, wie unsere kleinen Helferlein (Laptops, Smartphones, Webcrawler) selbstständiger navigieren und uns die Orientierung in der Datensphäre erleichtern können.

Damit das passieren kann, muss dem Web eine zusätzliche Ebene eingezogen werden, eine Ebene die das Web für Maschinen so lesbar macht, wie es Websites für uns Menschen sind. Das geht weit darüber hinaus was Suchmaschinen leisten, die einfach nur Abbilder scannen, ohne wirklich zu verstehen was sie vor sich haben. Ein seit längerem diskutierter Ansatz ist das Semantic Web, nach Anregung von Tim Berners-Lee (weitere Infos vom W3C). Dabei sollen Algorithmen entwickelt werden, die Informationen in ihrem Kontext verstehen können, so wie wir die unterschiedlichen Bedeutungen eines Wortes abhängig vom Kontext verstehen können. http://www.flickr.com/photos/kaeru/123614933/Hierfür muss zuerst die semantische Lücke geschlossen werden, was meiner Meinung nach noch eine Weile dauern kann, weil es effektiv bedeutet, Computern das Sprechen bei zu bringen.

Das Web of Data setzt eine Ebene darunter an: Dabei werden Daten (als potenzielle Informationen) miteinander verknüpft. In diese Kerbe schlägt das ebenfalls von Tim Berners-Lee entwickelte Konzept von Linked Open Data (linkeddata.org). Das Ziel der Datenverknüpfung und -integration aus verschiedenen Quellen lässt sich auf technischer Ebene mit Hilfe von Uniform Resource Identifiers und Resource Description Frameworks bereits erreichen.

Spannend ist daher die Forderung der OpenData – Bewegung, dem Allgemeinwohl dienende Daten freizugeben. Abgesehen davon, dass eine Menge nützlicher Rohdaten aus Wissenschaft & Forschung, öffentlichen Einrichtungen und Echtzeit-Sensoren allgemein verfügbar wird, kann dies zu starken Demokratisierungsprozessen führen, weil Informationen die Eigenschaft haben, Entscheidungen zu beeinflussen, und neue Informationsflüsse neue Entscheidungsprozesse erzeugen.

Offene Fragen, die immer wichtiger werden je höher die Vernetzung werden soll, entstehen beim Datenschutz und geistigen Eigentum in und an Datenbanken. Die Creative Commons-Lizenzen für Datenbanken versuchen dafür eine Lösung zu entwickeln. Es gibt auch einen Konflikt mit dem Europäischen Datenbankrecht, zu welchem ich allerdings keine genaueren Informationen habe. Wer da weiterhelfen kann, bitte in den Comments posten, danke.

Knowledge Discovery in Databases

http://www.flickr.com/photos/fseoane/4442992244/

Separating Hyperplane - cc-by-nc-sa Fabian Pedregosa (flickr)

Machine Learning und Data Mining existieren konzeptionell und auch praktisch seit Jahrzehnten. Fayyad et al. z.B. beschrieben 1996, die Möglichkeiten und Notwendigkeiten der Anwendung von Machine Learning Techniken auf große Datenbestände (KDD, Knowledge Discovery in Databases). Dieser Prozess umfasst mehrere Teilschritte (Aufbereitung der Daten, Data Mining, Visualisierung, Interpretation, und das Ganze iterativ) mit dem Ziel, in einer großen Menge von Rohdaten verschiedenster Quellen (Finanzmarktdaten, Sensorennetzwerke, Soziale Netze, physikalische/chemische/biologische Experimente) Muster zu erkennen und so Daten zu klassifizieren, sortieren, Prognosen zu erstellen. Data Mining ist im Kern nichts anderes als statistische Methoden, die auf außergewöhnlich große Datenbestände angewendet werden. Diese quantitative Dimension ist es, die neue Methoden und Herangehensweisen notwendig macht.

Was man alles lernen sollte, ist auf quora gut zusammengefasst:

  • Handwerkszeug: Python, v.a. wegen dem MATLAB ähnlichen Paket numpy, C++ für schnelleren Code, R v.a. zur Visualisierung, Java weil viele Tools, z.B. Hadoop und weka, darin geschrieben sind, und auch die UNIX-Tools wie sed, AWK, grep gehören zum Alltag.
  • Aus theoretischer Sicht sind Wahrscheinlichkeitstheorie, Statistik und Angewandte Mathematik für das Verständnis der verwendeten Algorithmen unerlässlich.
  • Aus praktischer Sicht sollte technisches Verständnis für Distributed Computing und Parallelisierung vorhanden sein, weil das das Mittel der Wahl ist, wie Speicherplatz und Rechenleistung heutzutage erzeugt werden.

Zu Data Mining als Technik und Werkzeug will ich hier nur auf die Links als weiterführende Literatur verweisen, vor allem kdnuggets ist eine reichhaltige Fundgrube.

http://www.flickr.com/photos/alpha_auer/5069070964/Wo ist der Haken?

Die spannende Frage ist: Wo kommen die Daten her? Riesige Datenmengen entstehen in den Naturwissenschaften, bei astronomischen Beobachtungen (Sky Survey), physikalischen Experimenten (CERN), oder in biochemischen Studien (z.B. zur Proteinfaltung bei der Medikamentenentwicklung).  Eine andere Quelle sind Menschen selbst, denen oft nicht bewusst ist, dass sie als Quelle von Erkenntnis dienen – oft Profanes bzgl. ihres Nutzungsverhaltens im Web oder ihres Kaufverhaltens in Online- oder Offline-Stores. Hier fehlen noch weitgehend rechtliche und ethische Rahmen über das, was zulässig ist. Wer an Daten kommt, kann machen was er/sie will. Hier fehlt – in Zeiten wo  Sensoren und Netzwerke überall sind und beinahe jede Alltagsaktivität digitale Abdrücke hinterlässt – das Bewusstsein, dass die individuelle Aktivität selbst zu einer zentralen Datenquelle geworden ist. Der gesellschaftliche Diskurs darüber, wie mit der Datensphäre umgegangen werden soll und darf, läuft der praktischen Realität hinterher. Mir persönlich fehlt auch eine klare Prioritätensetzung hin zu Umgang mit Daten, die Menschen nützen – Erkennung von Krisen wie Krankheiten, Ressourcenknappheiten, Konfliktpotenzialen.

Und auch weiterhin gilt: Die beste Maschine kann Interpretation des Users, und damit Allgemeinbildung, Expertenwissen, und kritische Reflexionsfähigkeit noch lange nicht ersetzen.

Einfach mal ausprobieren

http://www.flickr.com/photos/75279887@N05/6914441342/

cc-by-sa "luckey_sun" (flickr)

Wer Statistik hört und “langweilig” ruft, hat den Moment noch nicht erlebt, wenn man nach langer Vorbereitungszeit (Bereinigen des Datensatzes, Aufsetzen einer Datenbank, Einrichtung eines parallelisierten Systems und Zusammensammeln, Auswahl der Analysewerkzeuge) das erste Mal Algorithmen durchlaufen lässt, auf eine heiße Spur stößt und vom Jagdfieber gepackt wird.

Es gibt eine Reihe von Wettbewerben mit aufbereiteten Datensätzen, an den man ausprobieren kann: IEEE VAST Challenge 2012 und der KDD-Cup 2012 beispielsweise.

Als guter Einstieg bieten sich Data Mining Tools an, die sehr anwenderfreundlich sind: kdnuggets hat eine ausführliche Liste freier / Open Source DataMining-Software in verschiedenen Sprachen (C++, R, Python, Java,…). RapidMiner und weka sind zwei bekannte.

Die nächste Stufe wären toolkits für z.B. python (orange, scrapy, scikit-learn, und ohne numpy/scipy kommt man sowieso nicht aus, dazu dann das selbstständige Einbinden großer Daten in z.B. MongoDB), bei denen man sich der Maschine schon nähert, und in der Lage ist, maßgeschneiderte Lösungen zu programmieren.

Generell gilt: Erstmal das eigene Problem definieren, dann das passende Tool raussuchen – und möglichst viel experimentieren, ausprobieren, selber machen, und die gelernte Theorie gleich in die Praxis umsetzen. Viel Spaß dabei!

Weitersuchen, z.B. bei:

Erste wisssenschaftliche Arbeit ausgetüftelt

Nach dem Entschluss das Open Science Projekt zu starten, suchten wir nach einer wissenschaftlichen Arbeit mit der wir erste Erfahrungen sammeln können, und fanden sie dort, wo nur selten gesucht wird.

Open Science goes waste

Ideen vernetzten sich schon seit geraumer Zeit zwischen Christopher und mir, und als wir nach einer Lehrveranstaltung durch den frisch ergrünten Grazer Stadtpark spazierten und uns in voller Begeisterung über die Möglichkeiten der Wissenschaft im 21. Jahrhundert austauschten, setzten wir uns mit dem Hosenboden auf eine Bank, und fingen an Nägel mit Köpfen zu schleifen.

Stefan, mit der für ihn typischen Anfangseuphorie zu den gerade erlernten Geotechnologien (Digitale Kartographie), und Chris, der von den systemwissenschaftlichen Anwendungsmöglichkeiten in der VWL erzählte – suchten nach einer Schnittmenge der beiden Bereiche, was schneller als erwartet ging.

Die Wahl fiel auf “Abfall”, genauer beschrieben dem Abfallaufkommen der europäischen Staaten, da dies sowohl volkswirtschaftliche als auch räumliche Analysen ermöglicht, die interaktive Visualisierung mit einer thematischen Karte dazu offensichtlich und der analytische Aufwand sehr gering, sprich eigentlich nicht vorhanden, ist. Es sollte in erster Linie um das Erlernen von Methoden und Technologien und Sammeln von praktischer Erfahrung zu Open Science gehen. Dies alleine wird schon sehr viel Zeit beanspruchen.

Die Schwerpunktlegung ist wie folgt:

  • Erstellen eines Frameworks zum Arbeiten nach Open Science Methoden für Kommunikation und Dokumentation
  • Definieren des Begriffes Open Science für uns, und Ausarbeitung der Methoden
  • Durchlaufen des gesamten wissenschaftlichen Arbeitsprozess – beginnend bei der Formulierung einer Aufgaben-/Problemstellung, über Recherche und Analyse, bis hin zu einer allgemein verständlichen Präsentation der Ergebnisse
  • einfache Aufgabenstellung um sich auf das Erlernen neuer Technologien und Methoden konzentrieren zu können