Im Zentrum einer jeden BigData-Anwendung stehen die von einer Institution aggregierten Daten und die Fragestellungen, welche Erkenntnisse aus diesen Daten gezogen werden können. Gerade im unternehmerischen Umfeld ist die Aggregation der Daten intuitiv umzusetzen, da es hier in vielerlei Hinsicht kontinuierliche Datenströme existieren. Dazu gehören beispielsweise Nutzer-Metriken. Jedoch ist beispielsweise im wissenschaftlichen Umfeld in vielen Fällen eine andere Situation vorherrschend. Es existieren bereits die zu untersuchenden Fragestellungen, jedoch fehlt für die Beantwortung dieser die Datenbasis. In den letzten Jahren haben sich gerade soziale Netzwerke als wertvolle Datenquellen erwiesen. Insbesondere Twitter hat sich in diesen Gebiet etabliert. Mit mehr als 280.000.000 aktiven NutzerInnen und 500.000.000 täglich verschickten Tweets [1], werden unterschiedlichste Themen in einer hohen Vielfalt global ausgetauscht und diskutiert [2]. Zudem beinhaltet jeder Tweet neben den 140 Zeichen Text eine Vielzahl von Metadaten, die für weiterführende Auswertungen von hoher Relevanz sein können. Dazu zählen unter anderem Lokationen, Informationen über den/die VerfasserIn und Medieninhalte, sowie Bilder und Videos [3]. Der Vortrag/Workshop beschäftigt sich mit Strategien und Best Practices zur Aggregtation von Tweets. Dazu gehört die Betrachtung von Grundlagen zu Twitter, der Einrichtung eines Developer Accounts, bis hin zur Speicherung der Tweets. Die gesammelten Erkenntnisse stammen aus dem DataFlex-Forschungsprojekt [4] an der Charité Berlin [5], welches sich derzeit mit der Analyse von Tweets beschäftigt um neue Aspekte der personalisierten Medizin zu betrachten. Derzeit wird ein im Hause entwickelter Stack genutzt, basierend auf der in Go [6] implementierten Twitterstream-Library [7] und ElasticSearch [8]. Im ersten Teil werden Grundlagen zu Twitter, den Aufbau und Inhalt von Tweets erläutert. Zudem wird gezeigt welche Schritte notwendig sind um einen Developer Account einzurichten und die Anwendung zu registrieren. Anschließend werden drei unterschiedliche Strategien zur Aggregation von Tweets vorgestellt und diskutiert: 1. Den OpenSource ELK-Stacks [9] 2. Twitterstream und ElasticSearch 3. Plain Go und CouchDB [10] Die drei vorgestellten Variationen decken eine Vielzahl von Use-Cases ab, ob einer umfassenden und leichtgewichtigen Aggregations- und Analyse-Pipeline oder Lösungen die sich an interne Infrastrukturen anpasst und als schmaler Daemon dient. Alle drei Varianten werden ausführlich erläutert und deren Vor- und Nachteile diskutiert. Zuletzt werden Hinweise zu möglichen Limitierungen der Twitter-API gegeben, sowie für die Weiterverarbeitung der Tweets. Für einen möglichst nahen Praxisbezug, werden die vorgestellten Punkte mit Hilfe eines anwendungsorientierten Themas verknüpft. Es wird erläutert wie Tweet zum Thema Diabetes aggregiert werden, wie die Integration der Strategien vorgenommen wird und welche Einflüsse diese auf eine spätere Analyse haben. Nach der Präsentation sollen die TeilnehmerInnen in der Lage sein die Vor- und Nachteile bei der Nutzung von Twitter als Datenquelle einschätzen zu können, sowie erste Ansätze zur Integration in ihr eigenes Umfeld kennengelernt zu haben.
Quellen

      [1] https://about.twitter.com/company

 

      [2] Zhao, Wayne Xin, et al. “Comparing twitter and traditional media using topic models.” Advances in Information Retrieval. Springer Berlin Heidelberg, 2011. 338-349.

 

      [3] https://dev.twitter.com/overview/api/tweets

 

    [4] http://www.bmbf.de/pubRD/VIP_Dienstleistung.pdf