Ziel:
Auffrischung der Kenntnisse im Umgang mit Python sowie
mathematischer Grundlagen Beschreibung
Beschreibung:
Teilnehmende führen Analysen und Datenmanipulationen in Python aus
und nutzen dabei die Pakete Pandas und Matplotlib.
Kapitel 1 – Data Analytics with Python:
Teilnehmende machen sich mit unserer interaktiven
Programmierumgebung – dem Data Lab – vertraut und frischen die
wichtigsten Programmier- und Python-Grundlagen zur Datenverarbeitung
mit Pandas, Datenvisualisierung mit Matplotlib und Seaborn und
Datenbankabfrage mit SQL Alchemy auf.
Kapitel 2 – Linear Algebra:
Teilnehmende machen sich mit dem mathematischen Hintergrund von
Data-Science-Algorithmen vertraut und lernen die Grundbegriffe der
linearen Algebra kennen. Unter Verwendung des Pakets Numpy rechnen
die Teilnehmenden mit Vektoren und Matrizen.
Kapitel 3 – Probability Distributions:
Teilnehmende lernen mehr über den statistischen Hintergrund von DataScience-Algorithmen.
Sie beschäftigen sich mit wichtigen statistischen
Konzepten und lernen diskrete und kontinuierliche Verteilungen
kennen. Darüber hinaus erhalten Teilnehmende einen Einblick in die
Versionierung von Code mit Git.
Ziel:
Lösen von überwachten und unüberwachten Machine-Learning-Problemen
mit sklearn
Beschreibung:
Teilnehmende erstellen Data-Science-Workflows mit sklearn, evaluieren ihre
Modell-Performance anhand von geeigneten Metriken und werden für das
Problem des Overfittings sensibilisiert.
Kapitel 1 – Supervised Learning (Regression):
Anhand der linearen Regression erlernen Teilnehmende den Umgang
mit dem Python-Paket sklearn. Weiterhin beschäftigen sie sich mit den
Annahmen des Regressionsmodells und der Evaluation der erzeugten
Prognosen. In diesem Zuge werden auch der Bias-Variance Trade-Off,
Konzepte der Regularisierung sowie verschiedene Maße der Modellgüte
verdeutlicht.
Kapitel 2 – Supervised Learning (Classification):
Teilnehmende werden in Klassifizierungsalgorithmen anhand des
k-Nearest-Neighbors-Algorithmus eingeführt und lernen, den Algorithmus
zu evaluieren und die Klassifizierungsperformance einzuschätzen. Sie
optimieren die Parameter ihres Modells unter Beachtung der Aufteilung der
Daten in Trainings- und Evaluationssets.
Kapitel 3 – Unsupervised Learning (Clustering):
Teilnehmende lernen den k-Means-Algorithmus als Beispiel eines
Algorithmus des unüberwachten Lernens kennen. Die Annahmen und
Performance-Metriken des Algorithmus werden kritisch beleuchtet und ein
kurzer Ausblick auf eine Alternative zum k-Means-Clustering geworfen.
Kapitel 4 – Unsupervised Learning (Dimensionality Reduction):
Teilnehmende lernen, wie sie mithilfe einer Principal Component Analysis
(PCA) die Dimension der Daten verringern können und nutzen die PCA, um
unkorrelierte Features aus den Ursprungsdaten zu erzeugen. In diesem