Welche Data-Mining-Techniken gibt es?-häufiges Problem-php.cn

Data-Mining-Technologien: 1. Statistische Technologie; , Grobe Menge; 11. Regressionsanalyse 13. Konzeptbeschreibung;

Welche Data-Mining-Techniken gibt es?

Die Betriebsumgebung dieses Tutorials: Windows 7-System, Dell G3-Computer.

Data Mining ist der Prozess, potenziell nützliche Informationen und Wissen, das den Menschen im Voraus unbekannt ist, aus einer großen Menge unvollständiger, verrauschter, unscharfer und zufälliger Daten zu extrahieren.

Die Aufgabe des Data Mining besteht darin, Muster aus Datensätzen zu entdecken. Es gibt viele Arten von Mustern, die entsprechend ihrer Funktion entdeckt werden können: Vorhersagemuster und beschreibende Muster.

Es gibt viele Arten von Data-Mining-Technologien und je nach Klassifizierung unterschiedliche Klassifizierungsmethoden. Das Folgende konzentriert sich auf einige Techniken, die häufig beim Data Mining verwendet werden: statistische Techniken, Assoziationsregeln, geschichtsbasierte Analyse, genetische Algorithmen, Aggregationserkennung, Verbindungsanalyse, Entscheidungsbäume, neuronale Netze, Grobmengen, Fuzzy-Mengen, Regressionsanalyse, Differentialanalyse, Konzeptbeschreibung und andere dreizehn häufig verwendete Data-Mining-Techniken.

1. Statistische Technologie

Data Mining umfasst viele wissenschaftliche Bereiche und Technologien, wie zum Beispiel die statistische Technologie. Die Hauptidee beim Einsatz statistischer Technologie zum Mining von Datensätzen besteht darin, dass statistische Methoden ein Verteilungs- oder Wahrscheinlichkeitsmodell (z. B. eine Normalverteilung) für einen bestimmten Datensatz annehmen und dann entsprechende Methoden zum Mining gemäß dem Modell verwenden.

2. Assoziationsregeln

Datenassoziation ist eine wichtige Art von auffindbarem Wissen, das in der Datenbank vorhanden ist. Wenn die Werte von zwei oder mehr Variablen eine gewisse Regelmäßigkeit aufweisen, spricht man von Korrelation. Assoziationen können in einfache Assoziationen, zeitliche Assoziationen und kausale Assoziationen unterteilt werden. Der Zweck der Korrelationsanalyse besteht darin, das verborgene Korrelationsnetzwerk in der Datenbank zu finden. Manchmal ist die Korrelationsfunktion der Daten in der Datenbank nicht bekannt, und selbst wenn sie bekannt ist, ist sie unsicher, sodass die durch die Korrelationsanalyse generierten Regeln glaubwürdig sind.

3. Historische MBR-Analyse (Memory-based Reasoning)

Suchen Sie zunächst anhand empirischer Erkenntnisse nach ähnlichen Situationen und wenden Sie dann die Informationen aus diesen Situationen auf das aktuelle Beispiel an. Dies ist die Essenz von MBR (Memory Based Reasoning). MBR sucht zunächst nach Nachbarn, die dem neuen Datensatz ähnlich sind, und verwendet diese Nachbarn dann, um die neuen Daten zu klassifizieren und zu bewerten. Bei der Verwendung von MBR gibt es drei Hauptprobleme: die Entscheidung über die effizienteste Art der Darstellung der historischen Daten und die Entscheidung über die Distanzfunktion, die gemeinsame Funktion und die Anzahl der Nachbarn.

4. Genetische Algorithmen GA (Genetische Algorithmen)

basieren auf der Evolutionstheorie und nutzen Optimierungstechnologien wie genetische Kombination, genetische Variation und natürliche Selektion. Die Grundidee besteht darin, nach dem Prinzip „Überleben des Stärkeren“ eine neue Gruppe zu bilden, die sich aus den am besten geeigneten Regeln der aktuellen Gruppe und den Nachkommen dieser Regeln zusammensetzt. Typischerweise wird die Eignung einer Regel anhand ihrer Klassifizierungsgenauigkeit im Trainingsstichprobensatz bewertet.

5. Aggregationserkennung

Der Prozess der Gruppierung einer Sammlung physischer oder abstrakter Objekte in mehrere Klassen, die aus ähnlichen Objekten bestehen, wird Clustering genannt. Ein durch Clustering generierter Cluster ist eine Sammlung von Datenobjekten, die Objekten im selben Cluster ähneln und sich von Objekten in anderen Clustern unterscheiden. Der Grad der Unähnlichkeit wird basierend auf dem Attributwert des beschriebenen Objekts berechnet, und die Entfernung ist eine häufig verwendete Messmethode.

6. Link-Analyse

Link-Analyse, ihre grundlegende Theorie ist die Graphentheorie. Die Idee der Graphentheorie besteht darin, einen Algorithmus zu finden, der gute, aber keine perfekten Ergebnisse liefern kann, und nicht darin, einen Algorithmus zu finden, der eine perfekte Lösung liefert. Bei der Verbindungsanalyse wird davon ausgegangen, dass eine solche Analyse eine gute Analyse ist, wenn unvollständige Ergebnisse möglich sind. Mithilfe der Verbindungsanalyse können einige Muster aus dem Verhalten einiger Benutzer analysiert werden. Gleichzeitig können die generierten Konzepte auf eine breitere Benutzergruppe angewendet werden.

7. Entscheidungsbaum

Der Entscheidungsbaum bietet eine Möglichkeit, Regeln anzuzeigen, z. B. welcher Wert unter welchen Bedingungen erzielt wird.

8. Neuronales Netzwerk

Strukturell kann ein neuronales Netzwerk in Eingabeschicht, Ausgabeschicht und verborgene Schicht unterteilt werden. Jeder Knoten in der Eingabeschicht entspricht einer Prädiktorvariablen. Die Knoten der Ausgabeschicht entsprechen den Zielvariablen und es können mehrere Knoten vorhanden sein. Zwischen der Eingabeschicht und der Ausgabeschicht befindet sich die verborgene Schicht (für Benutzer neuronaler Netzwerke unsichtbar). Die Anzahl der verborgenen Schichten und die Anzahl der Knoten in jeder Schicht bestimmen die Komplexität des neuronalen Netzwerks.

Zusätzlich zu den Knoten der Eingabeschicht ist jeder Knoten des neuronalen Netzwerks mit vielen Knoten davor verbunden (als Eingabeknoten dieses Knotens bezeichnet). Jede Verbindung entspricht einem Gewicht Wxy und dem Wert davon Knoten sind alle Knoten, die ihn durchlaufen. Die Summe des Produkts aus dem Wert des Eingabeknotens und der entsprechenden Verbindungsgewichtung wird als Eingabe einer Funktion erhalten. Wir nennen diese Funktion die Aktivitätsfunktion oder die Squeeze-Funktion.

9. Grobes Set

Die grobe Mengenlehre basiert auf der Festlegung von Äquivalenzklassen innerhalb gegebener Trainingsdaten. Alle Datenproben, die eine Äquivalenzklasse bilden, sind unterschiedslos, das heißt, diese Proben sind für die Attribute, die die Daten beschreiben, äquivalent. Angesichts realer Daten gibt es häufig Klassen, die anhand der verfügbaren Attribute nicht unterschieden werden können. Grobe Mengen werden verwendet, um diese Klasse anzunähern oder grob zu definieren.

10. Fuzzy-Set-Theorie führt Fuzzy-Logik in das Data-Mining-Klassifizierungssystem ein und ermöglicht die Definition von „unscharfen“ Domänenwerten oder -grenzen. Die Fuzzy-Logik verwendet Wahrheitswerte zwischen 0,0 und 1,0, um den Grad darzustellen, in dem ein bestimmter Wert einem bestimmten Element entspricht, und nicht exakte Grenzwerte für Klassen oder Mengen. Fuzzy-Logik ermöglicht die Verarbeitung auf einem hohen Abstraktionsniveau.

11. Regressionsanalyse

Die Regressionsanalyse ist in lineare Regression, multiple Regression und nichtlineare Regression unterteilt. Bei der linearen Regression werden die Daten mit einer geraden Linie modelliert, während die multiple Regression eine Erweiterung der linearen Regression mit mehreren Prädiktorvariablen ist. Bei der nichtlinearen Regression werden dem linearen Grundmodell Polynomterme hinzugefügt, um ein nichtlineares Modell zu bilden.

12. Differentialanalyse

Der Zweck der Differentialanalyse besteht darin, Anomalien in den Daten zu finden, wie z. B. Rauschdaten, Betrugsdaten und andere abnormale Daten, um nützliche Informationen zu erhalten.

13. Konzeptbeschreibung

Die Konzeptbeschreibung besteht darin, die Konnotation eines bestimmten Objekttyps zu beschreiben und die relevanten Eigenschaften dieses Objekttyps zusammenzufassen. Die Konzeptbeschreibung ist in charakteristische Beschreibung und differenzielle Beschreibung unterteilt, während letztere die Unterschiede zwischen Objekten verschiedener Typen beschreibt. Die Generierung einer charakteristischen Beschreibung einer Klasse umfasst nur die gemeinsamen Merkmale aller Objekte in diesem Objekttyp.

Weitere Informationen zu diesem Thema finden Sie in der Spalte „FAQ

“!

Das obige ist der detaillierte Inhalt vonWelche Data-Mining-Techniken gibt es?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!