Spss-Methoden zum Auffüllen fehlender Werte umfassen: 1. Mittelwertinterpolation unter Verwendung des Attributmodus zum Ausfüllen der fehlenden Werte; 2. Verwendung einer ähnlichen Mittelwertinterpolation; 3. Maximum-Likelihood-Schätzung durch die Randverteilung der beobachteten Daten. Unbekannte Parameter 4. Durch Mehrfachinterpolation wird auf der Grundlage einer bestimmten Auswahlbasis der am besten geeignete Interpolationswert ausgewählt.
Die Betriebsumgebung dieses Tutorials: Windows 7-System, SPSS-Version 26.0, Dell G3-Computer.
1. Mittlere Interpolation. Die Datenattribute werden in Typen mit festem und nicht festem Bereich unterteilt. Wenn die fehlenden Werte einen festen Bereich haben, verwenden Sie den Durchschnitt der vorhandenen Werte des Attributs, um die fehlenden Werte zu interpolieren. Wenn die fehlenden Werte keinen festen Bereich haben, verwenden Sie den Modus des Attributs basierend auf das Modusprinzip in der Statistik (d. h. der Wert mit der höchsten Häufigkeit), um die fehlenden Werte zu ergänzen.
2. Verwenden Sie eine ähnliche Mittelwertinterpolation. Die gleiche Mittelwertinterpolationsmethode gehört zur Einzelwertinterpolation. Der Unterschied besteht darin, dass sie ein hierarchisches Clustermodell verwendet, um den Typ der fehlenden Variablen vorherzusagen, und dann mit dem Mittelwert dieses Typs interpoliert. Nehmen Sie an, dass X = (X1, X2...Xp) eine Variable mit vollständigen Informationen und Y eine Variable mit fehlenden Werten ist.
Dann gruppieren Sie zuerst X oder seine Teilmenge und interpolieren Sie dann die Mittelwerte verschiedener Klassen entsprechend der Klasse, zu der die fehlenden Fälle gehören. Wenn die eingeführten erklärenden Variablen und Y in einer zukünftigen statistischen Analyse analysiert werden müssen, führt diese Interpolationsmethode eine Autokorrelation in das Modell ein, was zu Hindernissen für die Analyse führt.
3. Maximum-Likelihood-Schätzung (Max Likelihood, ML). Unter der Bedingung, dass der fehlende Typ zufällig fehlt und vorausgesetzt, dass das Modell für die gesamte Stichprobe korrekt ist, können die unbekannten Parameter mit maximaler Wahrscheinlichkeit durch die Randverteilung der beobachteten Daten geschätzt werden (Little und Rubin).
Diese Methode wird auch Maximum-Likelihood-Schätzung genannt, die fehlende Werte ignoriert. Die in der Praxis häufig verwendete Berechnungsmethode für die Maximum-Likelihood-Parameterschätzung ist die Erwartungsmaximierung (EM).
4. Multiple Imputation (MI). Die Idee der Multi-Value-Interpolation stammt aus der Bayes'schen Schätzung, die davon ausgeht, dass der zu interpolierende Wert zufällig ist und sein Wert vom beobachteten Wert abhängt. In der konkreten Praxis wird der zu interpolierende Wert normalerweise geschätzt und dann werden verschiedene Geräusche hinzugefügt, um mehrere Sätze optionaler Interpolationswerte zu bilden. Wählen Sie den am besten geeigneten Interpolationswert basierend auf einer bestimmten Auswahlbasis aus.
Erweiterte Informationen
Es gibt viele Gründe für fehlende Werte, die Unfähigkeit, Informationen zu erhalten, Inkonsistenzen mit anderen Feldern, historische Gründe usw. können zu fehlenden Werten führen. Eine typische Verarbeitungsmethode ist die Interpolation, und die Daten nach der Interpolation können als einer bestimmten Wahrscheinlichkeitsverteilung gehorchend angesehen werden. Darüber hinaus können Sie auch alle Datensätze mit fehlenden Werten löschen, allerdings verändert dieser Vorgang auch die Verteilungseigenschaften der Originaldaten von der Seite.
Die Verarbeitung fehlender Werte gliedert sich im Allgemeinen in das Löschen von Fällen mit fehlenden Werten und die Interpolation fehlender Werte. Bei subjektiven Daten wird die Authentizität der Daten durch Personen beeinträchtigt. Die wahren Werte anderer Attribute von Stichproben mit fehlenden Werten können nicht garantiert werden, sodass die Interpolation, die auf diesen Attributwerten basiert, ebenfalls unzuverlässig ist, sodass dies im Allgemeinen nicht der Fall ist Empfohlen für subjektive Daten. Die Interpolation zielt hauptsächlich auf objektive Daten ab und ihre Zuverlässigkeit ist garantiert.
Das obige ist der detaillierte Inhalt vonWelche Methoden zum Auffüllen fehlender Werte gibt es in spss?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!