Einführung, Datenschutz vs. Datensicherheit, Informationsethik - Datenanalyseprozess CRISP-DM, Data Understanding, Data Preparation, Modeling, Evaluation und Deployment - Datenqualität, Explorative Datenanalyse (EDA), Feature Engineering - Naive Bayes und Entscheidungsbaum, Gütekriterien I, Overfitting, Kreuzvalidierung - Bias vs. Varianz, Ensemble Learning (Random Forest, Gradient Boosted Trees) - Datentransformation und Normalisierung, Künstliche Neuronale Netzwerke - Verteilungen und synthetische Daten, Hyperparameteroptimierung - Regression vs. Korrelation, Interpolation vs. Extrapolation, Methode der kleinsten Quadrate - Lineare und polynomiale (multiple) Regression, Gütekriterien II - Regularisierung, LASSO, Ridge Regression, Elastic Net - Logistische Regression, Regression vs. Klassifikation - Ausblick
Stefan Selle ist seit 2007 Professor für Wirtschaftsinformatik an der Hochschule für Technik und Wirtschaft des Saarlandes und lehrt dort Daten- und Geschäftsprozessmanagement, Digitale Transformation, Software Engineering, Data Science und Künstliche Intelligenz.
Dieses Lehrbuch erklärt auf narrative und direkte Weise die wichtigen Zusammenhänge zwischen Data Science, Künstlicher Intelligenz und anderen Disziplinen und Domänen wie Datenschutz und Ethik, mit Fokus auf überwachtes Lernen (Supervised Learning).
Wir begleiten Anna und Karl während ihrer Traineephase in einer internationalen Versicherung. Schritt für Schritt reifen sie zu Data Scientists, indem sie sich intensiv mit der Titanic-Katastrophe auseinandersetzen. Anna kann Python programmieren, während Karl ein grafisches Werkzeug (KNIME Analytics Platform) benutzt. Bei ihren Untersuchungen stoßen sie auf interessante Fakten und Mythen. Mit Unterstützung von Max und Sophia verarbeiten sie historische Daten, um Vorhersagen zu erstellen (Predictive Analytics). Dabei benutzen sie Methoden und Algorithmen des maschinellen Lernens.
Begleitende Zusatzmaterialien (KNIME Workflows, Jupyter Notebooks, Erklärvideos) stehen den Lernenden online zur Verfügung. Und wenn in diesem Buch Anna und Karl sich auf Themen des überwachten Lernens konzentrieren, werden wir künftig mit ihnen noch weitere Gebiete der Data Science entdecken.
Stefan Selle ist seit 2007 Professor für Wirtschaftsinformatik an der Hochschule für Technik und Wirtschaft des Saarlandes und lehrt dort Daten- und Geschäftsprozessmanagement, Digitale Transformation, Software Engineering, Data Science und Künstliche Intelligenz.