Übungsaufgaben Klausurvorbereitung
- In der Klausur kann ein A4-Papier-Dokument (Vorder- und Rückseite) mit den wichtigsten Formeln, Tests und Konzepten verwendet werden. Notwendige Z-Wert-Tabellen werden gestellt.
- Folgende Übungsaufgaben sollen Ihnen helfen, sich auf die Klausur vorzubereiten.
Theorieaufgaben für einen Bachelorstudiengang
1. Variablentypen und Tidy Data
- Beschreiben Sie die Konzepte von “Tidy Data” nach Hadley Wickham. Geben Sie ein Beispiel für einen “unordentlichen” Datensatz und zeigen Sie, wie er in ein Tidy Data-Format umgewandelt werden könnte.
- Erklären Sie mindestens vier verschiedene Variablentypen (z.B. nominal, ordinal, intervall, verhältnis/ratio) und geben Sie für jeden Typ ein Beispiel
2. Deskriptive Statistik
Erklären Sie die folgenden deskriptiven Statistiken: Arithmetischer Mittelwert, Median, Standardabweichung, Minimum, Maximum und den Interquartilsabstand (IQR) und erklären Sie jeweils, wie empfindlich sie gegenüber Ausreißern sind. Welche beiden Definitionen der Standardabweichung kennen Sie und wie unterscheiden sie sich?
Hypothetische Ergebnisse für den “Auto”-Datensatz:
Statistik | mpg |
horsepower |
weight |
---|---|---|---|
Mittelwert | 23.5 | 104.5 | 2970 |
Median | 23.0 | 93.5 | 2800 |
Standardabw. | 7.8 | 38.5 | 840 |
Minimum | 9.0 | 46 | 1600 |
Maximum | 46.6 | 230 | 5100 |
IQR | 10.0 | 50.0 | 1400 |
3. Grundlagen der Verteilungen
- Erklären Sie den Unterschied zwischen diskreten und kontinuierlichen Verteilungen. Nennen Sie jeweils zwei Beispiele für jede Art von Verteilung und beschreiben Sie kurz, wo sie in der Praxis Anwendung finden könnten.
4. Datenvisualisierung
- Wählen Sie zwei geeignete Variablen aus dem “Auto”-Datensatz oder einem anderen Datensatz ihrer Wahl und skizzieren Sie:
- Ein Histogramm für eine kontinuierliche Variable.
- Ein Box-Plot für eine kontinuierliche Variable in Abhänigkeit einer kategorialen Variable.
- Erläutern Sie, welche Informationen aus diesen Visualisierungen gewonnen werden können.
5. Korrelation vs. Kausalität
- Erläutern Sie den Unterschied zwischen Korrelation und Kausalität anhand eines selbstgewählten Beispiels (nicht das Piraten-Beispiel aus dem Skript). Diskutieren Sie, warum es wichtig ist, diese Unterscheidung zu verstehen, insbesondere im Kontext von Datenanalyse und maschinellem Lernen. Was von beiden kann direkt aus den Daten gemessen werden und was nicht? Wie können wir Kausalität in der Praxis untersuchen?
6. Zentraler Grenzwertsatz
- Erklären Sie den Zentralen Grenzwertsatz in eigenen Worten. Warum ist er für die statistische Inferenz so wichtig?
7. Einfache Lineare Regression
- Nehmen Sie an, Sie möchten den Kraftstoffverbrauch (
mpg
) eines Autos mithilfe der Leistung (horsepower
) vorhersagen.- Formulieren Sie ein einfaches lineares Regressionsmodell.
- Erläutern Sie die Bedeutung der Parameter \(\beta_0\) und \(\beta_1\) in diesem Kontext.
- Diskutieren Sie, was ein hohes \(R^2\) in diesem Modell bedeuten würde.
8. Hypothesentest - T-Test Grundlagen
- Erläutern Sie die Schritte eines Hypothesentests. Nehmen Sie an, Sie möchten testen, ob der durchschnittliche Kraftstoffverbrauch (
mpg
) von US-Autos signifikant von 20 Meilen pro Gallone abweicht. Formulieren Sie die Null- und Alternativhypothese für diesen Test.
9. Multiple Lineare Regression
- Erweitern Sie das Modell aus Aufgabe 7, indem Sie zusätzlich das Gewicht (
weight
) und Herkunft (aus USA, Europa oder Japan) als Prädiktor fürmpg
aufnehmen.- Formulieren Sie das multiple lineare Regressionsmodell.
- Würden Sie erwarten, dass die Koeffizienten für den Intercept und horsepower signifikant anders sind als im einfachen linearen Modell? Warum?
10. Fehlermaße in der Regression
- Erklären Sie die Bedeutung von “Mean Squared Error” (MSE) und “Root Mean Squared Error” (RMSE) als Fehlermaße in der linearen Regression. Warum wird oft der RMSE dem MSE vorgezogen?
11. Bias-Varianz-Tradeoff
- Beschreiben Sie den Bias-Varianz-Tradeoff im Kontext von Vorhersagemodellen (Prognosemodellen).
12. Kreuzvalidierung
- Erläutern Sie das Prinzip der \(k\)-Fold-Kreuzvalidierung (gerne mit einer Sizze). Warum ist diese Methode dem einfachen Train-Test-Split bei der Modellbewertung oft überlegen? Nennen Sie mindestens einen Vorteil. Was ist ein Vorteil der \(k\)-Fold-Kreuzvalidierung gegenübert der Leave-One-Out-Kreuzvalidierung (LOOCV)?
13. Logistische Regression - Grundlagen
- Erklären Sie, warum lineare Regression für binäre Klassifikationsprobleme ungeeignet ist. Wie löst die logistische Regression dieses Problem? Wie viel Aussagekraft haben die Koeffizienten in der logistischen Regression im Vergleich zu denen in der linearen Regression?
14. Konfidenzintervalle
- Erläutern Sie das Konzept eines Konfidenzintervalls. Was bedeutet es, wenn Sie ein 95%-Konfidenzintervall für den Mittelwert einer Stichprobe berechnet haben?
15. Chi-Quadrat-Test
- Sie möchten untersuchen, ob es einen Zusammenhang zwischen der Herkunft (
origin
) eines Autos und dem Vorhandensein eines Turboladers (hypothetische kategoriale Variable, die Sie erstellen könnten) gibt.- Welchen statistischen Test würden Sie verwenden? Begründen Sie Ihre Wahl.
- Formulieren Sie die Null- und Alternativhypothese für diesen Test.
- Erklären Sie, warum dieser Test als nicht-parametrisch gilt.
16. ROC-Kurve und AUC
- Erklären Sie, was eine ROC-Kurve darstellt und wie sie interpretiert wird. Was misst die AUC (Area Under the Curve) und welche Werte sind wünschenswert? Warum sind diese Metriken besonders nützlich für die Bewertung von Klassifikationsmodellen?
17. Overfitting und Underfitting
- Definieren Sie Overfitting und Underfitting im Kontext von maschinellem Lernen. Welche Auswirkungen haben sie auf die Generalisierungsfähigkeit eines Modells? Nennen Sie jeweils eine Strategie zur Vermeidung von Overfitting und Underfitting.
18. Anwendung des CRISP-DM Modells
- Nehmen Sie ein beliebiges Problem, das Sie mit Datenanalyse lösen möchten (z.B. Vorhersage von Immobilienpreisen). Beschreiben Sie, wie Sie die ersten drei Phasen des CRISP-DM Modells (Business Understanding, Data Understanding, Data Preparation) auf dieses Problem anwenden würden, basierend auf den im Kurs behandelten Konzepten und den bereitgestellten Dokumenten.
19. Datenaufbereitung in der Praxis
- Angenommen, Sie erhalten einen neuen Datensatz, der unsauber ist (z.B. fehlende Werte, inkonsistente Formate, Duplikate). Beschreiben Sie mindestens drei Schritte zur Datenbereinigung, die Sie durchführen würden, um den Datensatz für eine weitere Analyse vorzubereiten. Erläutern Sie die Wichtigkeit einer reproduzierbaren Datenaufbereitung.
Rechenaufgaben
1. Deskriptive Statistik & Z-Transformation
Gegeben sei eine Stichprobe von Autogeschwindigkeiten (in mph): \([60, 65, 70, 72, 75, 80, 85, 90]\).
- Berechnen Sie den Mittelwert und die Standardabweichung dieser Stichprobe.
- Angenommen, diese Geschwindigkeiten sind annähernd normalverteilt. Wie würden Sie die Geschwindigkeit von 72 mph in einen Z-Wert umwandeln? Interpretieren Sie das Ergebnis (Skizze).
2. Wahrscheinlichkeitsberechnung - Normalverteilung
Die Lebensdauer von Glühbirnen sei normalverteilt mit einem Mittelwert von \(1200\) Stunden und einer Standardabweichung von \(150\) Stunden. Auf für Skizzen der Verteilung und der Wahrscheinlichkeiten gibt es Teilpunkte.
- Wie groß ist die Wahrscheinlichkeit, dass eine zufällig ausgewählte Glühbirne weniger als \(1000\) Stunden brennt?
- Wie groß ist die Wahrscheinlichkeit, dass sie zwischen \(1100\) und \(1300\) Stunden brennt? (Verwenden Sie eine Z-Tabelle oder einen Taschenrechner/Software für die Normalverteilung).
3. Konfidenzintervall für den Mittelwert
Eine Stichprobe von \(n=49\) Studierenden hatte eine durchschnittliche Bearbeitungszeit für eine Prüfung von \(\bar{X} = 75\) Minuten mit einer Stichprobenstandardabweichung von \(S = 14\) Minuten.
- Konstruieren Sie ein \(95\%\)-Konfidenzintervall für die wahre durchschnittliche Bearbeitungszeit aller Studierenden. (Nutzen Sie den passenden kritischen Wert für die \(t\)-Verteilung mit \(df = n-1\)).
4. Einfache Lineare Regression - Parameter Schätzung
Sie haben die folgenden Beobachtungen für \(X\) (Werbeausgaben in Tsd. €) und \(Y\) (Verkaufszahlen in Tsd. Stück):
\(X = [10, 20, 30, 40, 50]\)
\(Y = [5, 12, 18, 25, 30]\)
Schätzen Sie die Parameter \(\beta_0\) (Achsenabschnitt) und \(\beta_1\) (Steigung) der einfachen linearen Regression \(Y = \beta_0 + \beta_1 X + \epsilon\) mittels der Formeln für die Kleinste-Quadrate-Schätzung oder einer Skizze:
- \(\beta_1 = \frac{\sum (X_i - \bar{X})(Y_i - \bar{Y})}{\sum (X_i - \bar{X})^2}\)
- \(\beta_0 = \bar{Y} - \beta_1 \bar{X}\)
Interpretieren Sie die geschätzten Koeffizienten.
5. Hypothesentest - Einstichproben-t-Test
Ein Hersteller behauptet, dass seine neuen Batterien eine durchschnittliche Lebensdauer von \(50\) Stunden haben (\(\mu_0 = 50\)). Eine Stichprobe von \(25\) Batterien ergibt eine durchschnittliche Lebensdauer von \(48\) Stunden mit einer Standardabweichung von \(5\) Stunden.
- Führen Sie einen Einstichproben-t-Test durch, um zu prüfen, ob die wahre Lebensdauer signifikant von \(50\) Stunden abweicht (zweiseitiger Test) bei einem Signifikanzniveau von \(\alpha = 0.05\).
- Berechnen Sie die Teststatistik \(t = \frac{\bar{X} - \mu_0}{\frac{S}{\sqrt{n}}}\).
- Vergleichen Sie den berechneten \(t\)-Wert mit dem kritischen \(t\)-Wert oder dem p-Wert (wenn Sie eine \(t\)-Tabelle oder Software verwenden können). Was ist Ihre Schlussfolgerung?
- Es gibt wieder Teilpunkte für die Skizze von der Hypothesentest-Skizze, der Teststatistik und dem kritischen Bereich.
6. Multiple Lineare Regression - Vorhersage
Ein Modell zur Vorhersage des Kraftstoffverbrauchs (mpg
) hat folgende geschätzte Parameter:
\(\hat{\beta}_0 = 45\) (Konstante)
\(\hat{\beta}_1 = -0.1\) (für
horsepower
)\(\hat{\beta}_2 = -0.005\) (für
weight
)Berechnen Sie den vorhergesagten
mpg
für ein Auto mit \(150\) PS (horsepower
) und \(3000\) lbs (weight
).Wie würde sich die Vorhersage ändern, wenn das Auto \(100\) PS und \(2000\) lbs hätte?
7. Würfelsumme
Zwei faire Würfel werden geworfen.
- Wie hoch ist die Wahrscheinlichkeit, dass die Summe der Augenzahlen kleiner als 5 ist?
- Wie hoch ist die Wahrscheinlichkeit, dass mindestens ein Würfel eine 6 zeigt?
8. Fehlermaße in der Regression
Sie haben die folgenden beobachteten (\(Y\)) und vorhergesagten (\(\hat{Y}\)) Werte:
\(Y = [10, 15, 20, 25]\)
\(\hat{Y} = [11, 14, 21, 23]\)
Berechnen Sie den Mean Squared Error (MSE) und den Root Mean Squared Error (RMSE) für diese Vorhersagen.
MSE \(= \frac{1}{n} \sum (Y_i - \hat{Y}_i)^2\)
RMSE \(= \sqrt{MSE}\)
MAPE \(= \frac{1}{n} \sum \left| \frac{Y_i - \hat{Y}_i}{Y_i} \right|\) (optional, aber hilfreich für die Interpretation).
Welchen Nachteil kann der MAPE haben?
9. Konfusionsmatrix & Metriken
Ein Klassifikationsmodell hat folgende Ergebnisse für ein binäres Problem geliefert:
Wahre Positive (TP): 80
Wahre Negative (TN): 150
Falsche Positive (FP): 20
Falsche Negative (FN): 50
Berechnen Sie:
- Genauigkeit (Accuracy)
- Präzision (Precision)
- Sensitivität (Recall / True Positive Rate)
- F1-Score (Optional, aber empfehlenswert für tiefere Einsicht)
Formeln:
- Accuracy \(= \frac{TP+TN}{TP+TN+FP+FN}\)
- Precision \(= \frac{TP}{TP+FP}\)
- Recall \(= \frac{TP}{TP+FN}\)
- F1-Score \(= 2 \cdot \frac{\text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall}}\)
10. Kreditnehmer-Datensatz
Für diese Aufgabe nutzen wir den loan50-Datensatz, der 50 Beobachtungen über Kreditnehmer enthält. Gehen Sie davon aus, dass dieser Datensatz eine repräsentative Zufallsstichprobe der Grundgesamtheit von Kreditnehmern darstellt, und dass die relativen Häufigkeiten in dieser Stichprobe als Schätzungen für die tatsächlichen Wahrscheinlichkeiten in der Grundgesamtheit verwendet werden können.
Die relevante Kreuztabelle aus dem Skript ist wie folgt gegeben:
second_income False True
Mortgage 20 6
Own 2 1
Rent 18 3
Beantworten Sie die folgenden Fragen:
- Wie hoch ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter Kreditnehmer eine Hypothek (Mortgage) hat?
- Wie hoch ist die Wahrscheinlichkeit, dass ein zufällig ausgewählter Kreditnehmer ein zweites Einkommen (has_second_income = True) hat, wenn bekannt ist, dass er eine Hypothek (homeownership = Mortgage) hat?