ILAB BLOG

hallo

Big Data

Ich hab ja nichts zu verstecken ...

Google, Microsoft (und angeblich auch die NSA) sammeln permanent Daten von und über uns - das wissen die Meisten ja bereits. Interessant sind die Ausmaße, die die Sammelleidenschaft inzwischen erreicht hat, und die Versuche sich der Datenkrake zu entziehen.

Big Data ist ein Stichwort, das seit einiger Zeit immer öfter in den Diskussionen rund um das Internet auftaucht. Gemeint sind damit Datenmengen größeren Ausmaßes, die mit herkömmlichen Datenbank Systemen nicht mehr beherrschbar oder analysierbar sind. Du kannst dir das so vorstellen, dass alles was eine Excel-Tabelle sprengt, in diesen Bereich fallen dürfte (Wikipedia zu Big Data). Der Begriff ist ein wenig mehr in den gesellschaftlichen Mittelpunkt gerückt, seit die Datensammelleidenschaft der NSA einem breiteren Publikum zugetragen wurde. Auch die Reaktionen der Internetnutzer wurden dadurch emotionaler und es fand eine Sensibilisierung in diesem Bereich statt.

Nur weil du paranoid bist, heißt das noch lange nicht, dass da draußen niemand hinter dir her ist.

Sammeln von Daten im großen Ausmaß wird nicht nur von der NSA betrieben, sondern Unternehmen wie Google, Microsoft, Amazon oder Apple - und die Liste ist beliebig fortsetzbar - sammeln mehr oder weniger legal alle Benutzerdaten, die sie bekommen können. Dabei kommen gigantische Mengen an Daten zusammen - die Begriffe Peta und Exabyte tauchen dabei oft auf. Seien wir mal ehrlich, wer kann sich ein Exabyte schon wirklich vorstellen? Früher hätte man noch eine Trillion Byte dazu gesagt - eine Zahl mit 18 Nullen! Datenmengen dieser Größenordnung werden heute an nur einem Tag im Internet erzeugt. Was machen die Konzerne mit so unvorstellbar vielen Daten? Analysieren, no na! Die Daten werden zerlegt und gefiltert, bis hinunter zu den Daten eines einzelnen Internetnutzers, dessen Weg im Internet damit nachverfolgbar wird.

© Fotos www.infocux.com Infocux Technologies
© Fotos www.infocux.com Infocux Technologies
© Fotos www.infocux.com Infocux Technologies

Aber wozu der riesige technische Aufwand? Also soviel ich weiß, sagen die Untermehnem unisono, dass der Aufwand betrieben wird um das Service der Organisation zu verbessern.
Ein konkretes Beispiel bei dem Google Auswertungen großer Datenmengen für dich und mich aufbereitet (quasi rückführt) sind die Google-Trends. Speziell die Flu-trends möchte ich kurz erwähnen. Google wertet aus allen eingegebenen Suchbgriffen weltweit jene Wörter aus, die mit dem Begriff „Grippe“ - Englisch „flu“ - in Verbindung stehen. Der dahinter liegende Gedanke dabei ist, dass ein Mensch wie du und ich, der denkt, dass ihm die Grippe im Nacken sitzt, zuerst im Internet nach geeigneter Medizin oder vergessenen Hausmitteln sucht. Du würdest nicht glauben wie viele das wirklich so machen, denn dieser Trend deckt sich ganz gut mit der tatsächlichen Ausbreitung von Grippeerkrankungen. Noch dazu ist der Trend ein wenig seiner Zeit voraus - somit hätten Ärzte die Möglichkeit sich rechtzeitig mit genügend Medikamenten zu versorgen. Das ist doch toll, da leistet das Datensammeln also wirklich einen Beitrag zur Verbesserung unseres Lebens.

Bei Facebook zum Beispiel, werden Daten des Benutzerverhaltens herangezogen, um die Datenflut aus Posts für den Newsstream des Benutzers zu filtern und so einen möglichst individuell zugeschnittenen Querschnitt anbieten zu können. Auch Google macht das, denn die Suchergebnisse die mir nach einer Suche angezeigt werden unterscheiden sich ziemlich sicher von jenen, die ein Anderer angezeigt bekommt, der nach dem gleichen Stichwort sucht. Personalisierung ist dabei das Stichwort - Facebook, Google & Co. versuchen zu erraten was du sehen möchtest, und zeigen dir nur die entsprechenden Inhalte. Böse Zungen könnten behaupten, dass das Internet zunehmend für dich denkt - ich bin auch so eine böse Zunge!

"Filter Bubbles", TED talk von Eli Pariser

Und um die Dimension in der das passiert ein wenig zu illustrieren darf ich Herrn Eric Schmidt zitieren, der im August 2010 (er war damals CEO von Google und ist seit April 2011 Executive Chairman) in einem Interview mit dem Wall Street Journal sagte:

It will be very hard for people to watch or consume something that has not in some sense been tailored for them.

Und wer nun neugierig geworden ist was Google über ihn so denkt, dem möchte ich zwei URLs ans Herz legen: die Google Werbeeinstellungen - so denkt Google über deine Interessen (im aktuellen Browser) obwohl du nicht bei einem Google-Service eingeloggt bist. Wenn du ein Google Service nutzt, wie z. B. Gmail, dann log dich ein und besuche danach dein Dashboard - du wirst sehen, dass Google sehr genau protokolliert was genau du nutzt.

Aber wurde ich gefragt, ob ich das will? Hat man mich gefragt, ob ich mich am Datensammeln beteiligen möchte und meine Daten überhaupt hergeben mag? Klar wurde man gefragt (Stichwort: Es steht alles in den AGBs), meistens jedenfalls. Machen wir uns also bewusst: Wir alle speisen den Ozean der Daten. Die Daten sind die neue Währung der Informationsgesellschaft, mit welchen die Benutzer vermeintliche Gratisangebote wie eben Facebook oder Gmail bezahlen.

Der moderne Zechpreller!

Du willst nichts bezahlen? Nein, die Zeche zu prellen wird wohl nicht so einfach werden. Aber trotzdem kann man etwas tun, um nicht ungewollt zu viel von sich preiszugeben.
Neben einer Vielzahl von Tools, die die Privatsphäre im weltweiten Netz zu schützen versuchen, gilt es aber in erster Linie sein Hirn einzuschalten (Stichwort Hausverstand)! Was nützt dir das beste Tool, wenn dein Facebookprofil öffentlich einsehbar ist (Privatsphäreeinstellungen - boah, schon das Wort allein ist ja dermaßen kompliziert). Und noch dazu leidest du unter textueller Inkontinenz - vielleicht gibt's das Wort nicht - aber die Leute die ihre Mitmenschen an jeder Minute ihres Lebens teilhaben lassen wollen, die gibt es wirklich.

Also, wenn schon ein Service wie Facebook oder Google+ genutzt wird, dann empfiehlt es sich auch die Einstellungen zur Privatspäre anzuschauen und generell nicht allzu viel Intimes von sich preiszugeben - weniger ist mehr, denn das Internet vergisst bekanntlich nie und Google weiß sowieso schon genug über dich, auch wenn du nix zu verstecken hast. Diese Strategie gilt natürlich umso mehr für dein Smartphone, denn dein Smartphone weiß eine ganze Menge über deine Gewohnheiten.

Jetzt gibt es da auch hilfreiche Tools, die versuchen die Privatsphäre zu schützen, und bei welchen du keinen Abschluss in Informatik brauchst, um sie zu benutzen. Vier davon, die kostenlos verwendet werden können und fürs tägliche Arbeiten im Internet hilfreich sind, möchte ich dir vorstellen.

StartPage

StartPage ist ein alternativer Suchanbieter! Ja ich weiß, es gibt quasi keine Alternative zu Google (Bing ist kein Thema) aber, und jetzt kommt das Beste, startpage.com ist kein alternativer Suchindex, sondern startpage.com initiiert eine Google Suche - nur das dabei deine Suchabfrage anonymisiert wird. Das Ergebnis der Suche wird dann zu deinem Browser weitergereicht. Es werden keine IP-Adressen aufgezeichnet und kein Tracking betrieben - und trotzdem wird aus dem vollen Datenbestand von Google geschöpft! Name ist Programm!

Ghostery

Disable Tracking - Ein Plugin verhindert, dass auf Websiten deine Daten an dritte weitergereicht werden. Du wunders dich, dass Google weiß welche Seiten du im Internet besuchst? Der Trick heißt Tracking - viele Seiten informieren Google darüber, dass du dir die Seite gerade ansiehst (Google Analytics) - als kleines Dankeschön bekommt der Besitzer der Seite eine schöne Statistik, wer sich die Seite so anschaut.
Ghostery ist ein gratis Plugin für alle gängigen Browser, das genau diese Weitergabe der Daten blockiert. Das Tool kann auf www.ghostery.com gefunden werden. Allerdings möchte ich erwähnen, dass die Option GhostRank besser deaktiviert wird, da Ghostery selbst sonst Daten über das Surfverhalten abgreift.


Tor Network

Das Tor Network leitet deinen Internetzugang über mehrere Knoten um, wobei die Daten bei jedem Knoten neu verschlüsselt werden. Das Ergebnis ist, dass du auf das öffentliche Internet über einen entfernten Exit-Node zugreifst, also die Daten schwerer zu dir zurückverfolgt werden können. Das Tor Browser Bundle enthält einen eigenen Browser mit dem das Internet möglichst anonym durchsurft werden kann. Zum Kontrollieren der Verbindung dient Valida - eine grafische Oberfläche zur Steuerung des Tor Clients. Das Tor Browser Bundle gibts hier - ein bißchen sollte man sich mit der Materie auseinandersetzen, bevor man zur Tat schreitet.


PGP

PGP oder OpenPGP bedeutet „Pretty Good Privacy“ und ist eine Software um E-Mails zu verschlüsseln. Leider ist die PGP Verschlüsselung mit ein wenig mehr Aufwand verbunden, zumindest muss Software installiert werden und ein privater sowie ein öffentlicher Schlüssel werden benötigt/erzeugt. Für die meisten E-Mail Programme gibt es aber Plugins z. B. das Outlook Privacy Plugin für Outlook 2010 und 2013 oder Enigmail für den Thunderbird E-Mail-Client.

 

Wer diese Toos - und auch seinen Hausverstand - nutzt, der ist im Kampf um seine Privatsphäre schon gut gerüstet - die NSA wird das aller Wahrscheinlichkeit aber dennoch nicht abhalten deine E-Mails zu lesen. Abschließen möchte ich mit einem Zitat des ehemaligen deutschen Bundeskanzlers Helmut Schmidt, dessen Haltung ich jedem ans Herz legen möchte:

Während der Jahrzehnte in der Politik bin ich stets davon ausgegangen, dass meine Telefongespräche von fremden Händen mitgeschnitten wurden

Buchtipp

Ach ja, und bevor ich es vergesse - ihr wisst ja, digitale Demenz - einen Buchtipp für alle, die auf unterhaltsame Weise noch mehr zur digitalen Selbstverteidigung erfahren wollen: Mich kriegt ihr nicht! Gebrauchsanweisung zur digitalen Selbstverteidigung.  Aber ein Wort der Warnung ist angebracht: Das Buch könnte dein Leben verändern - zumindest dein digitales!

Bildquelle Titelfoto: Ishan Manjrekar, flickr.com