Was ist nicht überwachtes Lernen?

Unüberwachtes Lernen künstlicher Intelligenz ist eine Art des maschinellen Lernens, bei dem die KI ohne menschliche Aufsicht aus Daten lernt. Anders als beim überwachten Lernen erhalten die Modelle für nicht überwachtes maschinelles Lernen Daten ohne Label und können so ohne ausdrückliche Anleitung oder Anweisungen Muster erkennen und zu Erkenntnissen kommen. 

Unabhängig davon, ob es Ihnen bewusst ist, wirken sich künstliche Intelligenz und maschinelles Lernen auf jeden Aspekt des täglichen Lebens aus und helfen dabei, aus Daten Erkenntnisse zu gewinnen, die Ihnen dabei helfen können, Effizienzen zu steigern, Kosten zu senken und fundierte Entscheidungen zu treffen. Heutzutage setzen Unternehmen maschinelles Lernen ein, um personalisierte Empfehlungen, Echtzeit-Übersetzungen und sogar die automatische Generierung von Text, Bildern und anderen Inhalten zu ermöglichen.

Hier lernen Sie die Grundlagen des unüberwachten maschinellen Lernens, dessen Funktionsweise und einige seiner gängigen Anwendungen kennen.

Neukunden erhalten ein Guthaben von bis zu 300 $, um Vertex AI und andere Google Cloud-Produkte auszuprobieren. 

Wie funktioniert unüberwachtes Lernen?

Wie der Name schon sagt, werden beim unüberwachten Lernen selbstlernende Algorithmen eingesetzt – sie lernen ohne Labels und ohne vorheriges Training. Stattdessen erhält das Modell unbeschriftete Rohdaten und muss seine eigenen Regeln ableiten und die Informationen auf der Grundlage von Ähnlichkeiten, Unterschieden und Mustern strukturieren, ohne ausdrückliche Anweisungen zur Arbeit mit den einzelnen Daten.

Algorithmen für unüberwachtes Lernen eignen sich besser für komplexere Verarbeitungsaufgaben, wie das Organisieren großer Datasets in Clustern. Sie sind hilfreich, um zuvor nicht erkannte Muster in Daten zu identifizieren, und können dabei helfen, Funktionen zu identifizieren, die für die Kategorisierung von Daten nützlich sind.

Angenommen, Sie haben ein großes Dataset zum Wetter. Ein Algorithmus für unüberwachtes Lernen geht die Daten durch und identifiziert Muster in den Datenpunkten. Beispielsweise können Daten nach Temperatur oder ähnlichen Wettermustern gruppiert werden.

Auch wenn der Algorithmus selbst diese Muster nicht anhand der von Ihnen bereitgestellten Informationen versteht, können Sie dann die Datengruppierungen durchgehen und versuchen, sie basierend auf Ihrem Verständnis des Datasets zu klassifizieren. Sie könnten zum Beispiel erkennen, dass die verschiedenen Temperaturgruppen alle vier Jahreszeiten repräsentieren oder dass die Wettermuster in verschiedene Wetterarten wie Regen, Graupel oder Schnee unterteilt sind.

Unbeaufsichtigtes Lernen

Unüberwachtes maschinelles Lernen

Im Allgemeinen gibt es drei Arten von unüberwachten Lernaufgaben: Clustering, Verknüpfungsregeln und Dimensionalitätsreduzierung.

Im Folgenden sehen wir uns die verschiedenen Techniken des unbeaufsichtigten Lernens etwas genauer an.

Clustering

Clustering ist eine Technik, mit der unbeschriftete Rohdaten untersucht und basierend auf Ähnlichkeiten oder Unterschieden in Gruppen (oder Cluster) gegliedert werden. Es wird in einer Vielzahl von Anwendungen eingesetzt, darunter Kundensegmentierung, Betrugserkennung und Bildanalyse. Clustering-Algorithmen teilen Daten in natürliche Gruppen auf, indem sie ähnliche Strukturen oder Muster in nicht kategorisierten Daten finden.

Clustering ist einer der beliebtesten Ansätze für unüberwachtes maschinelles Lernen. Es gibt verschiedene Arten von Algorithmen für unüberwachtes Lernen, die für das Clustering verwendet werden, darunter exklusiv, überlappend, hierarchisch und probabilistisch.  

  • Exklusives Clustering: Daten werden so gruppiert, dass ein einzelner Datenpunkt nur in einem Cluster vorhanden sein kann. Dies wird auch als „hartes“ Clustering bezeichnet. Ein gängiges Beispiel für exklusives Clustering ist der K-Means-Clustering-Algorithmus, der Datenpunkte in eine benutzerdefinierte Anzahl K von Clustern partitioniert.
  • Überlappende Clustering: Daten werden so gruppiert, dass ein einzelner Datenpunkt in zwei oder mehr Clustern mit unterschiedlichen Mitgliedschaftsgraden vorhanden sein kann. Dies wird auch als „weiches“ Clustering bezeichnet.
  • Hierarchisches Clustering: Daten werden anhand von Ähnlichkeiten in verschiedene Cluster unterteilt, die dann wiederholt zusammengeführt und basierend auf ihren hierarchischen Beziehungen organisiert werden. Es gibt zwei Haupttypen des hierarchischen Clusterings: agglomeratives und divisives Clustering. Diese Methode wird auch als hierarchische Clusteranalyse (HAC) bezeichnet.
  • Probabilistisches Clustering: Daten werden basierend auf der Wahrscheinlichkeit, dass jeder Datenpunkt zu jedem Cluster gehört, in Clustern gruppiert. Dieser Ansatz unterscheidet sich von den anderen Methoden, bei denen Datenpunkte anhand ihrer Ähnlichkeiten mit anderen Methoden in einem Cluster gruppiert werden.

Verknüpfung

Das Mining von Zuordnungsregeln ist ein regelbasierter Ansatz, um interessante Beziehungen zwischen Datenpunkten in großen Datasets aufzudecken. Algorithmen für unüberwachtes Lernen suchen nach häufigen Wenn-dann-Verknüpfungen – auch Regeln genannt –, um Korrelationen und gemeinsame Vorkommen innerhalb der Daten und die verschiedenen Verbindungen zwischen Datenobjekten zu erkennen.

Es wird am häufigsten verwendet, um Warenkörbe oder Datensätze zu Transaktionen zu analysieren und darzustellen, wie oft bestimmte Artikel zusammen gekauft werden. Diese Algorithmen identifizieren Kaufmuster der Kunden und bisher verborgene Beziehungen zwischen Produkten, die als Grundlage für Empfehlungssysteme oder andere Cross-Selling-Möglichkeiten dienen. Vielleicht kennen Sie diese Regeln aus den Abschnitten „Häufig zusammen gekauft“ und „Nutzer, die diesen Artikel gekauft haben, kauften auch“ in Ihrem Lieblings-Onlineshop.

Verknüpfungsregeln werden auch häufig verwendet, um medizinische Datensätze für klinische Diagnosen zu organisieren. Mithilfe von unbeaufsichtigtem maschinellem Lernen und Assoziationsregeln können Ärzte die Wahrscheinlichkeit einer bestimmten Diagnose ermitteln, indem sie die Zusammenhänge zwischen Symptomen aus früheren Patientenfällen vergleichen.

In der Regel sind Apriori-Algorithmen die am weitesten verbreitete Methode für das Lernen von Verknüpfungsregeln, um zusammengehörige Sammlungen von Objekten oder Gruppen von Elementen zu identifizieren. Es werden jedoch auch andere Typen verwendet, wie Eclat- und FP-Wachstumsalgorithmen.

Dimensionalitätsreduktion

Die Dimensionalitätsreduzierung ist eine Methode des unbeaufsichtigten Lernens, mit der die Anzahl der Merkmale oder Dimensionen in einem Datensatz reduziert wird. Mehr Daten sind im Allgemeinen besser für das maschinelle Lernen, aber sie können auch die Visualisierung der Daten erschweren.

Bei der Dimensionalitätsreduktion werden wichtige Merkmale aus dem Dataset extrahiert und die Anzahl irrelevanter oder zufällig vorhandener Merkmale reduziert. Bei dieser Methode werden PCA-Algorithmen (Principle Component Analysis) und SVD-Algorithmen (Singular Value Decomposition) verwendet, um die Anzahl der Dateneingaben zu reduzieren, ohne die Integrität der Merkmale in den Originaldaten zu beeinträchtigen.

Beispiele für unüberwachtes Lernen aus der Praxis

Sie kennen nun die Grundlagen des unüberwachten Lernens. Als Nächstes sehen wir uns die gängigsten Anwendungsfälle an, mit denen Unternehmen schnell große Datenmengen untersuchen können.

  

Hier einige Beispiele aus der Praxis für unüberwachtes Lernen:

  • Anomalieerkennung: Unüberwachtes Clustering kann große Datasets verarbeiten und Datenpunkte ermitteln, die in einem Dataset atypisch sind.
  • Empfehlungssysteme: Mithilfe von Verknüpfungsregeln kann unüberwachtes maschinelles Lernen bei Transaktionsdaten helfen, Muster oder Trends zu erkennen und personalisierte Empfehlungen für Onlinehändler zu erhalten.
  • Kundensegmentierung: Unüberwachtes Lernen wird häufig verwendet, um Profile der Käuferidentität zu erstellen. Dazu werden die gemeinsamen Merkmale oder das Kaufverhalten der Kunden gruppiert. Diese Profile können dann als Grundlage für Marketing- und andere Geschäftsstrategien verwendet werden.
  • Betrugserkennung: Unüberwachtes Lernen ist nützlich für die Anomalieerkennung, bei der ungewöhnliche Datenpunkte in Datasets aufgedeckt werden. So lassen sich Ereignisse oder Verhaltensweisen aufdecken, die von den normalen Datenmustern abweichen und betrügerische Transaktionen oder ungewöhnliches Verhalten wie Bot-Aktivitäten aufdecken.
  • Natural Language Processing (NLP): Unüberwachtes Lernen wird häufig für verschiedene NLP-Anwendungen verwendet, z. B. für die Kategorisierung von Artikeln in Nachrichtenbereichen, die Textübersetzung und ‐klassifizierung oder die Spracherkennung in dialogorientierten Benutzeroberflächen.
  • Genetische Forschung: Genetisches Clustering ist ein weiteres häufiges Beispiel für unüberwachtes Lernen. Hierarchische Clustering-Algorithmen werden häufig verwendet, um DNA-Muster zu analysieren und evolutionäre Beziehungen aufzudecken.

Unüberwachtes Lernen eignet sich gut für Aufgaben, bei denen große Mengen von Daten ohne Labels untersucht werden müssen. Dieser Ansatz erleichtert es Unternehmen, Erkenntnisse aus Daten zu gewinnen, wenn keine Labels vorhanden sind. So können sie die zugrunde liegende Struktur eines Datasets verstehen und Muster und Beziehungen zwischen Datasets erkennen, ohne dass sie von einem Menschen erlernt werden müssen.

Überwachtes Lernen vs. unüberwachtes Lernen

Der Hauptunterschied zwischen überwachtem und unüberwachtem Lernen ist die Art der Eingabedaten, die Sie verwenden. Anders als bei unbeaufsichtigten Algorithmen für maschinelles Lernen stützt sich das überwachte Lernen auf mit Labels versehene Trainingsdaten, um zu bestimmen, ob die Mustererkennung in einem Dataset genau ist.

Auch die Ziele von Modellen für überwachtes Lernen sind vordefiniert. Das bedeutet, dass die Art der Ausgabe eines Modells bereits bekannt ist, bevor die Algorithmen angewendet werden. Mit anderen Worten, die Eingabe wird basierend auf den Trainingsdaten der Ausgabe zugeordnet.

Meistern Sie Ihre geschäftlichen Herausforderungen mit Google Cloud

Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.
Sprechen Sie mit einem Google Cloud-Vertriebsexperten, um Ihre besonderen Herausforderungen im Detail zu besprechen.

Gleich loslegen

Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“-Produkte kennenzulernen.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Console
Google Cloud