Was ist unterwart?

Unterwartung

Unterwartung (auch "Underfitting" genannt) ist ein Begriff aus dem Bereich des Machine Learnings, der auftritt, wenn ein Modell die zugrunde liegenden Muster in den Trainingsdaten nicht ausreichend erfasst. Dies führt dazu, dass das Modell sowohl auf den Trainingsdaten als auch auf neuen, ungesehenen Daten schlecht abschneidet.

Merkmale der Unterwartung:

  • Hoher Bias: Das Modell macht starke Annahmen über die Daten, die nicht korrekt sind.
  • Geringe Varianz: Das Modell ist wenig empfindlich gegenüber Veränderungen in den Trainingsdaten.
  • Schlechte Leistung auf Trainingsdaten: Das Modell kann selbst die Trainingsdaten nicht gut vorhersagen.
  • Schlechte Leistung auf Testdaten: Das Modell generalisiert schlecht auf neue Daten.

Ursachen von Unterwartung:

  • Zu einfaches Modell: Das Modell ist nicht komplex genug, um die komplexen Beziehungen in den Daten zu erfassen. Dies kann beispielsweise ein lineares Modell für nichtlineare Daten sein.
  • Zu wenig Features: Das Modell hat nicht genügend Informationen, um Vorhersagen zu treffen.
  • Zu starke Regularisierung: Regularisierungstechniken (wie L1-Regularisierung oder L2-Regularisierung) können das Modell zu stark einschränken und zu Unterwartung führen.
  • Zu geringe Trainingsdaten: Das Modell hat nicht genügend Daten, um die Muster zu lernen.

Behebung von Unterwartung:

  • Komplexeres Modell wählen: Verwenden Sie ein komplexeres Modell, das in der Lage ist, die zugrunde liegenden Muster in den Daten zu erfassen (z.B. von linear zu polynomial oder neuronale Netze).
  • Mehr Features hinzufügen: Erweitern Sie den Feature-Satz, um dem Modell mehr Informationen zu geben.
  • Regularisierung reduzieren oder entfernen: Verringern Sie die Stärke der Regularisierung oder entfernen Sie sie ganz.
  • Mehr Trainingsdaten sammeln: Erhöhen Sie die Menge der Trainingsdaten, um dem Modell mehr Möglichkeiten zum Lernen zu geben.
  • Feature Engineering: Entwickeln Sie neue, aussagekräftigere Features.

Zusammenfassend: Unterwartung ist ein Problem, bei dem ein Modell nicht in der Lage ist, die Muster in den Daten zu erfassen, was zu schlechter Leistung führt. Die Behebung von Unterwartung erfordert in der Regel die Erhöhung der Modellkomplexität, das Hinzufügen von Features, die Reduzierung der Regularisierung oder das Sammeln von mehr Daten. Es ist wichtig, Unterwartung von Überanpassung zu unterscheiden, bei der ein Modell die Trainingsdaten zu gut lernt und nicht auf neue Daten generalisiert. Das Ziel ist es, ein Modell zu finden, das ein gutes Gleichgewicht zwischen Bias und Varianz aufweist.