Kolmogorov-Smirnov-Test: Was ist das und wie wird er angewendet?
Parametrische und nicht-parametrische Tests werden in der Inferenzstatistik häufig verwendet. Zu den nicht-parametrischen Tests gehört der Kolmogorov-Smirnov-Test. Er liefert uns einen Indikator, der uns bei der Entscheidung hilft, ob die Daten einer bestimmten Stichprobe einer Wahrscheinlichkeitsverteilung entsprechen und welche Konsequenzen dies für die Datenanalyse hat.
Dieser Test geht auf die Beiträge von Nikolajewitsch Kolmogorov und Wladimir Iwanowitsch Smirnov zurück. Der Beitrag von Kolmogorov bezieht sich auf das Problem einer einzelnen Stichprobe, während der Beitrag von Smirnov sich mit der Beantwortung des Problems zweier Stichproben befasst, wobei versucht wird, die Hypothese der Gleichheit zwischen den Ursprungspopulationen der einen und der anderen zu testen.
Was ist der Kolmogorov-Smirnov-Test?
Der Kolmogorov-Smirnov-Test ist ein nicht-parametrischer Anpassungsgütetest, der verwendet wird, um einen Indikator zu erhalten, der dem Forscher Aufschluss darüber gibt, ob zwei Verteilungen unterschiedlich sind oder ob eine zugrunde liegende Wahrscheinlichkeitsverteilung von einer angenommenen Verteilung abweicht (Dodge, 2008).
Er wird vor allem dann verwendet, wenn wir in einer Untersuchung zwei Stichproben aus zwei unterschiedlichen Populationen haben. Einige der Merkmale dieser Art von nichtparametrischen Tests sind die folgenden (Gómez-Gómez et al., 2003):
- Sie sind unabhängig von zufälligen Beobachtungen, außer bei gepaarten Daten.
- Außerdem haben sie nur wenige Annahmen bezüglich der Bevölkerungsverteilung.
- Die abhängige Variable wird auf einer kategorialen Skala gemessen.
- Das Hauptaugenmerk liegt auf der Rang- oder Häufigkeitsordnung.
- Es werden Annahmen über Spannen, Mediane oder Häufigkeiten der Daten getroffen.
- Die erforderliche Stichprobengröße ist kleiner (20 oder <).
Wozu ist dieser Test gut?
Dieser Test wird in folgenden Situationen verwendet:
- Um zu überprüfen, ob die aus unserer Stichprobe gewonnenen Werte einer Normalverteilung folgen oder nicht.
- Messung des Grades der Übereinstimmung zwischen der Verteilung einer Reihe von Daten und einer bestimmten theoretischen Verteilung.
- Beurteilung, welche Verteilung am besten zu den Daten passt.
- Vergleich, ob die Beobachtungen aus einer bestimmten Verteilung stammen.
- Beurteilung von Unterschieden in der Lage und Form von Verteilungen.
- Bewertung, ob sich zwei Verteilungen ausreichend voneinander unterscheiden, wenn wir Vorhersageszenarien erstellen wollen.
Mithilfe des Kolmogorov-Smirnov-Tests können wir die kumulative Verteilung der theoretischen Häufigkeiten mit der kumulativen Verteilung der beobachteten Häufigkeiten vergleichen. Die Idee ist, den Punkt der maximalen Abweichung zu finden und zu bestimmen, wie hoch die Wahrscheinlichkeit ist, dass eine Differenz dieser Größe zufällig auftritt.
Die Berechnung
Zur Berechnung gehen wir von der größten Differenz (in absoluten Werten) zwischen der kumulativen Verteilung einer Stichprobe (beobachtet) und der theoretischen Verteilung aus. Die Anpassungsgüte der Stichprobe erlaubt die begründete Annahme, dass die Beobachtungen der spezifischen Verteilung entsprechen (Gómez-Gómez et al., 2003).
Wenn wir die empirische Verteilungsfunktion der beobachteten Daten mit der kumulativen Verteilungsfunktion vergleichen wollen, die mit der Nullhypothese verbunden ist, gehen wir wie folgt vor (Kawwa, 2020):
- Sortierung der Beobachtungen in aufsteigender Reihenfolge.
- Berechnung der empirischen Verteilungsfunktion der Beobachtungen.
- Die Berechnung jeder Beobachtung xi F exp (xi) = P (Z ≤ xi).
- Berechnung der absoluten Differenzen.
- Notieren der maximalen Differenz.
- Erkennung des kritischen Werts.
- Die Nullhypothese verwerfen oder akzeptieren.
Wenn wir prüfen wollen, ob zwei Stichproben aus der gleichen Verteilung gezogen wurden, müssen wir die folgenden Schritte befolgen (Kawwa, 2020):
- Sortierung jeder Probe.
- Erstellung einer geordneten Matrix.
- Berechnung der beobachteten kumulativen Verteilungsfunktionen der beiden Stichproben.
- Die Berechnung ihrer maximalen absoluten Differenz.
- Vergleich der Ergebnisse.
Bei der Anwendung dieses Tests müssen wir immer davon ausgehen, dass die Parameter der Testverteilung im Voraus festgelegt wurden. Bei diesem Verfahren werden die Parameter anhand der Stichprobe geschätzt. Andererseits müssen wir auch davon ausgehen, dass der Stichprobenmittelwert und die Standardabweichung die Parameter einer Normalverteilung sind.
Kolmogorov-Smirnov-Test: Einschränkungen
Eine der Einschränkungen des Kolmogorov-Smirnov-Tests besteht darin, dass die Parameter für Ort, Maßstab und Form angegeben werden müssen, damit er funktioniert. Wenn diese Parameter aus den Daten geschätzt werden, ist der Test ungültig. Wenn wir also nicht wissen, wie diese Parameter lauten, ist es besser, einen weniger formalen Test anzuwenden.
Eine weitere Einschränkung ist, dass er im Allgemeinen nicht für diskrete Verteilungen verwendet werden kann, vor allem wenn du Software verwendest, da die meisten Softwarepakete nicht über die notwendigen Erweiterungen für den Kolmogorov-Smirnov-Test verfügen und manuelle Berechnungen kompliziert sind.
Alle zitierten Quellen wurden von unserem Team gründlich geprüft, um deren Qualität, Verlässlichkeit, Aktualität und Gültigkeit zu gewährleisten. Die Bibliographie dieses Artikels wurde als zuverlässig und akademisch oder wissenschaftlich präzise angesehen.
- Dodge, Y. (2008). Kolmogorov–Smirnov Test. The concise encyclopedia of statistics (pp. 283-287). https://doi.org/10.1007/978-0-387-32833-1_214
- Gómez-Gómez, M., Danglot-Banck, C., & Vega-Franco, L. (2003). Sinopsis de pruebas estadísticas no paramétricas. Cuándo usarlas. Revista mexicana de pediatría, 70(2), 91-99. https://www.medigraphic.com/pdfs/pediat/sp-2003/sp032i.pdf
- Kawwa, N. (2020, 14 de febrero). When to Use the Kolmogorov-Smirnov Test. Towards data science. https://towardsdatascience.com/when-to-use-the-kolmogorov-smirnov-test-dd0b2c8a8f61