Survival-Analysen beantworten eine zentrale Frage: Wann tritt ein bestimmtes Ereignis ein? Ob ein Patient rückfällig wird, ein Kunde abwandert oder ein Strafgefangener erneut straffällig wird – die Antwort hängt oft von zahlreichen Faktoren ab. Während parametrische Modelle wie die Weibull- oder Exponentialverteilung eine konkrete Form der Risikofunktion voraussetzen, bietet das Cox-Proportional-Hazards-Modell einen flexibleren Ansatz. Es verzichtet auf die Modellierung der Basishazard und konzentriert sich stattdessen auf die relativen Effekte der Kovariaten. Diese Eigenschaft macht es zum Standardwerkzeug in der Medizin, Kriminologie und Marktforschung.
Doch wie funktioniert das Modell genau? Und wie lässt es sich praktisch anwenden? Dieser Artikel führt Sie durch die Grundlagen, zeigt eine Beispielanalyse mit realen Daten und erklärt, wie Sie Hazard-Ratios interpretieren sowie Annahmen prüfen.
Die Datenbasis: Rückfallquote nach Haftentlassung
Die Rossi-Datensammlung erfasst 432 männliche Strafgefangene über ein Jahr nach ihrer Entlassung. Im Fokus steht die Frage, ob finanzielle Unterstützung nach der Haft die Rückfallquote senkt. Jeder Datensatz enthält sieben Basisdaten wie Alter, Ethnie, Arbeitserfahrung oder Vorstrafen sowie wöchentliche Beschäftigungsindikatoren. Innerhalb des Beobachtungszeitraums wurden 114 Personen (26 %) erneut straffällig, während 318 Probanden zensiert wurden – bei ihnen trat das Ereignis nicht ein.
Eine erste visuelle Analyse liefert die Kaplan-Meier-Kurve, die den Anteil der nicht rückfälligen Personen über die Zeit darstellt:
- Nach einem Jahr sind etwa 74 % der ehemaligen Gefangenen nicht rückfällig.
- Die Kurve zeigt einen deutlichen Abfall in den ersten Wochen, der sich später verlangsamt.
Allerdings verrät die Grafik nicht, welche Faktoren die Rückfallquote beeinflussen. Hier kommt die Cox-Regression ins Spiel.
Praktische Umsetzung: Ein Cox-Modell in Python
Mit der Python-Bibliothek lifelines lässt sich ein Cox-Modell in wenigen Zeilen erstellen. Zunächst laden wir die Daten und passen das Modell an:
import pandas as pd
from lifelines import CoxPHFitter
from lifelines.datasets import load_rossi
# Daten laden
rossi = load_rossi()
print(f"{len(rossi)} Gefangene, {rossi['arrest'].sum()} Rückfälle")
# Cox-Modell anpassen
cph = CoxPHFitter()
cph.fit(rossi, duration_col="week", event_col="arrest")
cph.print_summary()Das Modell identifiziert drei signifikante Prädiktoren für Rückfälle:
- Alter (HR = 0,94, p = 0,01): Jedes zusätzliche Lebensjahr reduziert das Rückfallrisiko um 6 %. Ältere Gefangene neigen seltener zu erneuten Straftaten.
- Vorstrafen (HR = 1,10, p < 0,005): Jede zusätzliche Vorstrafe erhöht das Risiko um 10 %. Die kriminelle Vorgeschichte ist der stärkste Risikofaktor.
- Finanzielle Unterstützung (HR = 0,68, p = 0,05): Die Zuweisung von finanzieller Hilfe senkt das Rückfallrisiko um 32 %. Dieser Effekt ist zwar statistisch nur grenzwertig signifikant, aber relevant für die ursprüngliche Studie.
Die Konkordanz des Modells liegt bei 0,64 – es ordnet Paare von Gefangenen mit 64 % Wahrscheinlichkeit korrekt nach ihrem Rückfallrisiko ein.
Wie das Cox-Modell funktioniert
Die mathematische Grundlage
Das Cox-Modell definiert die Hazard-Funktion für eine Person i zum Zeitpunkt t als:
h_i(t) = h_0(t) * exp(β₁x₁ + β₂x₂ + ... + β_p x_p)
Dabei ist:
h_0(t)die Basishazard, die für alle Beobachtungseinheiten gleich ist.- Der Term
exp(β_j x_j)skaliert die Basishazard basierend auf den Kovariaten.
Der entscheidende Vorteil: Das Modell schätzt keine konkrete Form der Basishazard. Stattdessen nutzt es die partielle Likelihood, um die Regressionskoeffizienten β_j zu berechnen – ein Verfahren, das der Statistiker David Cox 1972 einführte. Diese Methode eliminiert die Notwendigkeit, die Basishazard zu modellieren, und macht das Cox-Modell semi-parametrisch.
Hazard-Ratios verstehen und interpretieren
Die Hazard-Ratio (HR) ist der zentrale Kennwert des Modells. Sie berechnet sich als exp(β) und gibt an, wie stark eine Kovariate das Risiko beeinflusst:
- HR < 1: Die Kovariate wirkt protektiv (senkt das Risiko).
- HR > 1: Die Kovariate erhöht das Risiko.
- HR = 1: Kein Einfluss.
Für die finanzielle Unterstützung bedeutet ein HR von 0,68: Personen, die Unterstützung erhielten, hatten nur 68 % des Rückfallrisikos derjenigen ohne Unterstützung. Das entspricht einer Risikoreduktion von 32 %.
Bei kontinuierlichen Variablen wie dem Alter lässt sich die HR ebenfalls anwenden: Ein HR von 0,94 pro Lebensjahr bedeutet, dass eine 30-Jährige im Vergleich zu einer 20-Jährigen ein um 46 % geringeres Risiko hat (0,94^10 ≈ 0,54).
Annahmen prüfen und Modelle erweitern
Die Proportional-Hazards-Annahme
Das Cox-Modell setzt voraus, dass sich die Effekte der Kovariaten über die Zeit nicht verändern – die Proportional-Hazards-Annahme. Diese Annahme lässt sich mit dem Schoenfeld-Test überprüfen:
cph.check_assumptions(rossi)Falls die Annahme verletzt ist, können Zeitabhängigkeiten berücksichtigt werden. Beispielsweise lässt sich das Rückfallrisiko in Abhängigkeit von der Beschäftigungssituation modellieren:
cph.add_covariate_to_timedependent_covariates("weekly_employment")Interpretation der Modellausgabe
Die print_summary()-Methode von lifelines liefert eine übersichtliche Tabelle mit folgenden Spalten:
| Spalte | Bedeutung | |--------|-----------| | coef | Regressionskoeffizient (logarithmierte Hazard-Ratio) | | exp(coef) | Hazard-Ratio | | se(coef) | Standardfehler des Koeffizienten | | z | Wald-Test-Statistik (β / Standardfehler) | | p | p-Wert für die Hypothese H₀: β = 0 | | exp(coef) lower/upper 95% | 95 %-Konfidenzintervall der Hazard-Ratio |
Ein Kovariat ist signifikant, wenn das Konfidenzintervall die HR = 1 nicht einschließt. Im Rossi-Datensatz trifft dies für Alter, Vorstrafen und finanzielle Unterstützung zu.
Fazit: Warum das Cox-Modell unverzichtbar ist
Das Cox-Proportional-Hazards-Modell vereint Flexibilität mit Präzision. Es ermöglicht es, Überlebenszeiten zu analysieren, ohne starre Annahmen über die Basishazard treffen zu müssen. Durch die partielle Likelihood bleibt das Modell robust und lässt sich auf eine Vielzahl von Anwendungsfällen übertragen – von klinischen Studien bis zur Kundensegmentierung.
Moderne Bibliotheken wie lifelines machen die Implementierung zugänglich, während Tests zur Überprüfung der Modellannahmen für Transparenz sorgen. Wer Überlebensdaten analysiert, kommt am Cox-Modell kaum vorbei. Mit den hier gezeigten Schritten können Sie eigene Analysen durchführen und fundierte Entscheidungen treffen – sei es in der Kriminologie, Medizin oder im Marketing.
KI-Zusammenfassung
Learn how Cox regression works, interpret hazard ratios, and apply survival analysis to real-world data without assuming baseline hazard shapes.