Nach der 2018 erschienenen zweiten Auflage von »Big Data in der Praxis« legt Stefan Papp mit Autoren der Vienna Data Science Group (VDSG) und weiteren KI- und Datenexperten nach. Wir haben mit dem VDSG-Vorstandsmitglied über das »Handbuch Data Science« gesprochen, das im Juni erscheint.
Report: Data Science ist in aller Munde, viele tun sich aber schwer, Berufsbilder dazu überhaupt zu definieren. Worauf fokussieren Sie in Ihrem Buch?
Stefan Papp: Wir glauben, dass es derzeit nur wenige Bücher am Markt gibt, welche das Thema Data Science als Ganzes behandeln. Deshalb wollten wir ein Buch schreiben, das wirklich in die Tiefe geht und ein breites Spektrum abdeckt – mit technischen Kapiteln, über statistische Grundlagen und Anwendungen, bis hin zu Rechtsthemen, Datenplattformen und der Frage, wie Data Science und KI in die Praxis umgesetzt werden können. So haben wir auch der DSGVO ein ganzes Kapitel gewidmet. Das ist auch notwendig. Ohne DSGVO-Vorwissen sollte man keine personenbezogenen Daten auswerten.
Report: Dies sind viele Bereiche, die nicht direkt mit Data Science und Machine Learning zusammenhängen.
Papp: Ja – und dass genau dieses Wissen fehlt, ist ein Problem. Wir haben mit vielen gesprochen, welche die Kurse von Andrew Ng und vielen weiteren Koryphäen besucht haben. Diese Experten sind in der Lage, auf der Basis von aufbereiteten Daten neurale Netzwerke zu bauen. Wenn sie aber Daten in die Cloud aufbereiten sollen und dabei auf Hindernisse stoßen, wird es für sie schwer. Manche scheitern schon am Aufbau einer SSH-Verbindung. Dieses Grundwissen handeln wir auch im Buch ab.
Report: Im Buch sind auch etwas umstrittene Aussagen zu finden, wie zu einem unumkehrbaren Trend zu Cloud-Services oder Python als Lingua Franca der Data Community.
Papp: Data Science bietet nach wie vor ein sehr dynamisches Umfeld, in dem sich noch vieles ändern wird. Vor ein paar Jahren noch war ein Hadoop Cluster mit Pig und Hive das Maß aller Dinge. Apache Spark und auch die Angebote in der Cloud haben das auf den Kopf gestellt. Wir gehen davon aus, dass einige unserer Aussagen, die man heute vertritt, in der Zukunft anders ausschauen können.
Report: Welche Chancen bietet Data Science für unsere Gesellschaft?
Papp: Es gibt einige Meilensteine in der Informationstechnologie, die die Welt für immer verändert haben: Heimcomputer, Internet, Mobiltelefone und soziale Medien. Mit autonomem Fahren steht uns eine weitere Innovation bevor, die das Zusammenleben für immer verändern wird. Wir lernen nun, dass es sicherer sein kann, einer Maschine als einem Menschen zu vertrauen. Das kann viele Türen öffnen. Viele würden vielleicht eher von einer Maschine eine Operation am Herz durchführen lassen, wenn sie keine Erschöpfungszustände aufweist und statisch gesehen erfolgreicher ist. Klarerweise wird KI aber etwa auch Spionageaktivitäten beeinflussen und in der Kriegsführung Einklang finden. Was wir aber aus allen diesen Möglichkeiten machen, wird immer noch der Mensch bestimmen.
Report: Worauf sollte man sich bei einem Beruf im Data-Science-Umfeld einlassen? Was erwartet Menschen hier?
Papp: Die Datenwelt ist komplex und immer noch sehr dynamisch. Es ist kein Feld, in dem sich Menschen wohlfühlen, die immer das Gleiche machen wollen und sich vom Leben erwarten, irgendwann einmal genug gelernt zu haben. Man muss flexibel und stets offen für Neues sein. Manchmal ist die Arbeit trocken, vor allem wenn man sich mit Firewall-Regeln herumschlagen und sicherstellen muss, dass es zu keinem Datenmissbrauch kommt. Abgesehen davon kann es einer der »sexiest« Jobs im 21. Jahrhundert sein.
Buchtipp
»Handbuch Data Science – Mit Datenanalyse und Machine Learning Wert aus Daten generieren.«
Autoren: Stefan Papp, Wolfgang Weidinger, Mario Meir-Huber, Bernhard Ortner, Georg Langs, Rania Wazir
Inhalt: Das Buch zeigt, wie Big-Data-Plattformen aufgebaut werden und einzelne Tools anwendbar sind. Darüber hinaus werden statistisch-mathematische sowie rechtliche Themen angeschnitten. Fallbeispiele aus der Praxis veranschaulichen, wie aus Daten generiertes Wissen Industrien nachhaltig verändert. Nach der Lektüre des Buches sollen LeserInnen in der Lage sein, einfache Datenanalyse-Projekte durchzuführen.
Carl Hanser Verlag, 06/2019
41,10 Euro, 320 Seiten, flexibler Einband, inkl. E-Book
ISBN: 978-3-446-45710-2