Python ist eine leistungsstarke Programmiersprache, die auf verschiedene Data-Mining-Aufgaben angewendet werden kann. Assoziationsregeln sind eine der gängigen Data-Mining-Techniken, die darauf abzielen, Assoziationen zwischen verschiedenen Datenpunkten zu entdecken, um den Datensatz besser zu verstehen. In diesem Artikel besprechen wir, wie Assoziationsregeln in Python für das Data Mining verwendet werden.
Was sind Assoziationsregeln?
Assoziationsregeln sind eine Data-Mining-Technologie, mit der Assoziationen zwischen verschiedenen Datenpunkten ermittelt werden. Es wird häufig bei der Warenkorbanalyse verwendet, um herauszufinden, welche Artikel häufig zusammen gekauft werden, um sie in den Filialabteilungen zu organisieren, in denen sie platziert sind.
In Assoziationsregeln gibt es zwei Arten von Elementen: Itemsets und Regeln.
Ein Projektsatz enthält mehrere Projekte und eine Regel ist eine logische Beziehung. Wenn das Itemset beispielsweise A, B und C enthält, bedeutet die Regel A->B, dass, wenn A auftritt, wahrscheinlich auch B auftritt. Eine andere Regel, B->C, bedeutet, dass, wenn B erscheint, wahrscheinlich auch C erscheint.
Schritte zur Verwendung von Python für das Assoziationsregel-Data-Mining
Um Python für das Assoziationsregel-Data-Mining zu verwenden, müssen wir die folgenden Schritte ausführen:
1 Bereiten Sie die Daten vor
Zuerst müssen wir die gewünschten Daten vorbereiten verwenden. Assoziationsregelalgorithmen verwenden typischerweise Transaktionsdaten, wie z. B. die Kaufhistorie oder Interaktionsdatensätze mit Kunden.
In Python können wir den Pandas-Datenrahmen verwenden, um Daten zu laden und sie dann in ein für den Algorithmus geeignetes Format zu konvertieren. Ein häufig verwendetes Format ist die Liste der Listen, wobei jede Unterliste eine Transaktion darstellt und die Elemente die Elemente in der Transaktion darstellen.
Zum Beispiel lädt der folgende Code eine CSV-Datei mit Beispieltransaktionsinformationen und konvertiert sie in ein Listenformat:
import pandas as pd # Load data from CSV file data = pd.read_csv('transactions.csv') # Convert data to List of Lists format transactions = [] for i, row in data.iterrows(): transaction = [] for col in data.columns: if row[col] == 1: transaction.append(col) transactions.append(transaction)
2. Finden Sie die Regeln mithilfe des Assoziationsregelalgorithmus
Sobald wir die Daten in ein Format konvertiert haben Geeignet für den Algorithmus. Wir können jeden Assoziationsregelalgorithmus verwenden, um Regeln zu finden. Der gebräuchlichste Algorithmus ist der Apriori-Algorithmus, der die folgenden Schritte ausführt:
In Python können wir die Pymining-Bibliothek verwenden, um den Apriori-Algorithmus zu implementieren. Das Folgende ist ein Beispielcode, der zeigt, wie man Pymining verwendet, um häufige Itemsets zu finden:
from pymining import itemmining relim_input = itemmining.get_relim_input(transactions) item_sets = itemmining.relim(relim_input, min_support=2) print(item_sets)
In diesem Beispiel verwenden wir einen min_support-Parameter, der den Unterstützungsschwellenwert angibt, der verwendet wird, um zu bestimmen, welche Itemsets häufig sind. In diesem Fall haben wir eine Unterstützung von 2 verwendet, was bedeutet, dass nur Itemsets, die in mindestens zwei Transaktionen vorkommen, als häufige Itemsets gelten.
3. Regeln auswerten
Nachdem wir häufige Itemsets gefunden haben, können wir diese zum Generieren von Regeln verwenden. Nachdem wir die Regeln generiert haben, müssen wir sie auswerten, um festzustellen, welche Regeln am sinnvollsten sind.
Es gibt mehrere häufig verwendete Bewertungsmetriken, die zur Bewertung von Regeln verwendet werden können. Zwei der häufigsten sind Vertrauen und Unterstützung.
Konfidenz gibt die Genauigkeit der Regel an. Es bezieht sich auf die Wahrscheinlichkeit, dass, wenn A eintritt, B wahrscheinlich auch eintritt. Es wird wie folgt berechnet:
Konfidenz(A->B) = Unterstützung(A und B) / Unterstützung(A)
wobei Unterstützung(A und B) die Anzahl der Transaktionen ist, in denen A und B vorkommen Gleichzeitig ist support( A) die Anzahl der Transaktionen, in denen A auftritt.
Unterstützung weist auf die Universalität der Regel hin. Es bezieht sich auf die Wahrscheinlichkeit, die durch die folgende Formel berechnet wird:
support(A und B) / total_transactions
wobei total_transactions die Anzahl aller Transaktionen ist.
In Python können wir die Pymining-Bibliothek verwenden, um Vertrauen und Unterstützung zu berechnen. Das Folgende ist ein Beispielcode, der zeigt, wie die Konfidenz einer Regel berechnet wird:
from pymining import perftesting rules = perftesting.association_rules(item_sets, 0.6) for rule in rules: item1 = rule[0] item2 = rule[1] confidence = rule[2] support = rule[3] print(f'Rule: {item1} -> {item2}') print(f'Confidence: {confidence}') print(f'Support: {support} ')
In diesem Beispiel verwenden wir einen Konfidenzschwellenwert von 0,6, was bedeutet, dass nur dann berücksichtigt wird, wenn die Konfidenz der Regel höher als 0,6 ist eine sinnvolle Regel.
Zusammenfassung
Assoziationsregeln sind eine der wichtigen Techniken beim Data Mining, die uns helfen können, die Korrelation zwischen Datenpunkten zu entdecken. In Python können wir Assoziationsregelalgorithmen und Bewertungsmetriken verwenden, um Regeln zu finden, Regeln auszuwerten und auf der Grundlage der Ergebnisse zu analysieren und Vorhersagen zu treffen. In der Praxis müssen wir die Ergebnisse möglicherweise visualisieren oder zur weiteren Analyse an ein maschinelles Lernmodell übermitteln, um mehr Erkenntnisse aus den Daten zu gewinnen.
Das obige ist der detaillierte Inhalt vonWie verwende ich Assoziationsregeln für Data Mining in Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!