Was ist lm?
LM (Lineares Modell)
Ein lineares Modell (LM) ist ein statistisches Modell, das davon ausgeht, dass die Beziehung zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen linear ist. Es ist ein weit verbreitetes Werkzeug in der Statistik und im Machine Learning.
Kernkonzept: Das lineare Modell versucht, eine lineare Gleichung zu finden, die die beste Anpassung an die beobachteten Daten bietet.
Bestandteile eines linearen Modells:
- Abhängige Variable (Zielvariable, Response): Die Variable, die vorhergesagt oder erklärt werden soll.
- Unabhängige Variable(n) (Prädiktorvariablen, Kovariaten): Die Variablen, die zur Vorhersage oder Erklärung der abhängigen Variable verwendet werden.
- Koeffizienten (Parameter): Werte, die die Stärke und Richtung der Beziehung zwischen den unabhängigen Variablen und der abhängigen Variable quantifizieren. Diese werden durch Minimierung einer Kostenfunktion (z.B. kleinste Quadrate) geschätzt.
- Fehlerterm (Residuum): Repräsentiert die Variation in der abhängigen Variable, die nicht durch die unabhängigen Variablen erklärt wird.
Arten von linearen Modellen:
- Einfache lineare Regression: Ein unabhängige Variable.
- Multiple lineare Regression: Mehrere unabhängige Variablen.
- Polynomielle Regression: Die Beziehung zwischen den Variablen wird durch ein Polynom modelliert (kann durch Transformationen in ein lineares Modell umgewandelt werden).
Annahmen linearer Modelle:
Lineare Modelle basieren auf einer Reihe von Annahmen. Die Verletzung dieser Annahmen kann die Gültigkeit der Ergebnisse beeinträchtigen. Wichtige Annahmen sind:
- Linearität: Die Beziehung zwischen den unabhängigen und der abhängigen Variable ist linear. (Linearität)
- Unabhängigkeit der Fehler: Die Fehlerterme sind unabhängig voneinander.
- Homoskedastizität: Die Varianz der Fehlerterme ist konstant über alle Werte der unabhängigen Variablen. (Homoskedastizität)
- Normalverteilung der Fehler: Die Fehlerterme sind normalverteilt. (Normalverteilung)
Vorteile linearer Modelle:
- Einfachheit: Leicht zu verstehen und zu interpretieren.
- Effizienz: Rechentechnisch effizient.
- Weit verbreitet: Viele Tools und Ressourcen sind verfügbar.
Nachteile linearer Modelle:
- Annahmen: Erfordern das Erfüllen bestimmter Annahmen.
- Lineare Beziehung: Können nicht-lineare Beziehungen nicht modellieren, ohne Transformationen.
- Ausreißer: Empfindlich gegenüber Ausreißern.
Anwendungen:
Lineare Modelle werden in vielen Bereichen eingesetzt, darunter:
- Ökonometrie: Vorhersage von Wirtschaftsindikatoren.
- Biostatistik: Analyse klinischer Studiendaten.
- Ingenieurwesen: Modellierung physikalischer Systeme.
- Marketing: Vorhersage von Verkaufszahlen.
Bewertung linearer Modelle:
Die Leistung eines linearen Modells kann mit verschiedenen Metriken bewertet werden, darunter:
- R-Quadrat (Bestimmtheitsmaß): Misst den Anteil der Varianz in der abhängigen Variable, der durch das Modell erklärt wird. (R-Quadrat)
- Adjustiertes R-Quadrat: Berücksichtigt die Anzahl der unabhängigen Variablen im Modell.
- Root Mean Squared Error (RMSE): Misst die durchschnittliche Größe des Fehlers des Modells.
- P-Werte: Testen die Signifikanz der einzelnen Koeffizienten. (P-Wert)