


Abflachungsfähigkeiten für verschachtelte Array-Strukturen mit mehrschichtigen Schichten in PYSPARK
Komplexe verschachtelte Strukturen und Ziele verstehen
Beim Umgang mit Big Data begegnen wir häufig Datenrahmen, die komplexe verschachtelte Datentypen enthalten. Ein gemeinsames Szenario ist eine Spalte, die eine Struktur des Typ -Arrays (Struktur (Array (struktur)))) wie:
Wurzel |- a: Integer (nullable = true) |- Liste: Array (nullable = true) | |- Element: struct (enthältNull = true) | | |- b: Integer (nullable = true) | | |- sub_list: array (nullable = true) | | | |- Element: struct (enthältNull = true) | | | | |- c: Ganzzahl (nullable = true) | | | | |- foo: string (nullable = true)
Unser Ziel ist es, diese mehrschichtige Verschachtelungsstruktur in ein Array (Struct) -Form zu vereinfachen, dh die Felder C und Foo in sub_list in die Struktur in der Liste und die Verschachtelung von sub_list zu beseitigen:
Wurzel |- a: Integer (nullable = true) |- Liste: Array (nullable = true) | |- Element: struct (enthältNull = true) | | |- b: Integer (nullable = true) | | |- c: Ganzzahl (nullable = true) | | |- foo: String (Nullierbar wahr)
Dieser Abflachungsprozess ist für die nachfolgende Datenanalyse und -verarbeitung von entscheidender Bedeutung.
Herausforderungen und Einschränkungen traditioneller Ansätze
Herkömmliche Abflachungsmethoden umfassen normalerweise die Exploit -Funktion, die jedes Element im Array in eine separate Zeile erweitert. Wenn Sie für die obige Struktur direkt Exploit verwenden, kann es mehrere Exploit -Operationen erfordern und dann über Groupby und Collect_List reaggieren, was angesichts tieferer Verschachtelung äußerst komplex und ineffizient werden kann. Obwohl die folgenden Methoden wirksam sind, sind sie in komplexen Szenarien teuer, wenn sie in komplexen Szenarien aufrechterhalten werden:
von pyspark.sql import sparkaSession von pyspark.sql.funktionen importieren inline, expr, sammeln Sie_list, struktur # Angenommen, DF ist Ihr Datenrahmen # df.select ("a", inline ("list") \ # .Select (expr ("*"), inline ("sub_list") \ # .drop ("sub_list") \ # .Groupby ("a") \ # .agg (sammel_list (struktur ("b", "c", "foo")). alias ("list"))
Dieser Ansatz erfordert, dass wir alle Nistniveaus auf die Zeilenebene "erhöhen" und dann aggregieren, was zu unserer erwarteten "Bottom-up "- oder" In-Place "-Transformationsphilosophie steht. Wir bevorzugen eine Lösung, die direkt in einem Array arbeiten kann, ohne die Anzahl der Datenframezeilen zu ändern.
PYSPARK -Lösung: Die Kombination von Transformation und Abflachung
PYSPARK 3.x führt Funktionen höherer Ordnung wie Transformationen ein, die die Verarbeitungsleistung komplexer Datentypen (insbesondere Arrays) erheblich verbessern. Durch die Kombination von Transformation und Abflachung können wir die oben genannten Probleme anmutig lösen.
Mit der Transformationsfunktion können wir eine benutzerdefinierte Transformationslogik auf jedes Element im Array anwenden und ein neues Array zurückgeben. Wenn es um mehrschichtige Verschachtelung geht, können wir verschachtelte Transformationen verwenden, um Schicht für Schicht zu verarbeiten.
Kernlogik :
- Umwandlung für innere Ebenen : Verwandeln Sie zunächst die innerste Sub_List. Für jedes Element in sub_list (d. H. Eine Struktur, die C und Foo enthält) kombinieren wir es mit dem B -Feld in der äußeren Struktur, um eine neue abgeflachte Struktur zu erstellen.
- Außenkonvertierung : Dieser Transformationsschritt erzeugt eine Array (Array (Struct)) Struktur.
- Abflachen : Verwenden Sie schließlich die Flachfunktion, um die Struktur Array (Array (Struct)) in ein einzelnes Array (Struktur) zusammenzuführen.
Beispielcode :
Zunächst erstellen wir einen simulierten Datenrahmen, um zu demonstrieren:
von pyspark.sql import sparkaSession von pyspark.sql.funktionen import col, transformieren, flach, struktur von pyspark.sql.types import Strukturtyp, structfield, ArrayType, IntegerType, StringType # Initialisieren Sie SparkSession Spark = SparkSession.builder.Appname ("FlattenNestedArrayStruct"). GetorCreate () # Definieren Sie das anfängliche Schema Inner_struct_schema = structType ([[ Structfield ("c", IntegerType (), wahr), Structfield ("foo", stringType (), true) ])) OUTER_STRUCT_SCHEMA = STRUCTTYPE ([[ Structfield ("b", IntegerType (), wahr), Structfield ("sub_list", arrayType (inner_struct_schema), true) ])) df_schema = structType ([[ Structfield ("a", IntegerType (), wahr), Structfield ("list", arrayType (outter_struct_schema), true) ])) # Beispieldaten erstellen = [ (1, [ {"B": 10, "sub_list": [{"c": 100, "foo": "x"}, {"c": 101, "foo": "y"}]}, {"B": 20, "sub_list": [{"c": 200, "foo": "z"}]} ]),, (2, [ {"B": 30, "sub_list": [{"c": 300, "foo": "w"}]} ])) ] DF = Spark.Createdataframe (Daten, Schema = df_schema) df.printschema () df.show (truncate = false) # Überflacher Logik anwenden DF_FLATTENED = df.withColumn ( "Liste", flach ( verwandeln( col ("Liste"), # äußeres Array (Array von Strukturen) Lambda X: Transform Lambda y: struct (x.getfield ("b"). alias ("b"), y.getfield ("c"). alias ("c"), y.getfield ("foo"). alias ("foo"), ), ) ), ) DF_FLATTENED.PRINTSCHEMA () df_flattened.show (truncate = false) # Stop SparkSession Spark.Stop ()
Code analysieren
- df.withcolumn ("list", ...): Wir entscheiden, die List -Spalte so zu ändern, dass die abgeflachten Ergebnisse enthalten sind.
- Transformation (col ("Liste"), Lambda X: ...): Dies ist die äußere Transformation. Es iteriert jedes Strukturelement in der List -Spalte, die wir als x nennen. Die Art von x ist struktur (b: int, sub_list: array (struktur (c: int, foo: string))).
- Transformation (X.getfield ("sub_list"), lambda y: ...): Dies ist die innere Transformation. Es wirkt auf das Feld sub_list in x. sub_list ist ein Array, dessen Elemente (eine Struktur (C: int, foo: String)) Y genannt werden.
- struct (x.getfield ("b"). alias ("b"), y.getfield ("c"). alias ("c"), y.getfield ("foo"). alias ("foo"): In der inneren Transformation bauen wir eine neue Struktur auf.
- X.getfield ("B"): Holen Sie sich das B -Feld von der äußeren Struktur x.
- Y.Getfield ("C"): Holen Sie sich das C -Feld aus der inneren Struktur y.
- Y.Getfield ("Foo"): Holen Sie sich das Foo -Feld aus der inneren Struktur Y.
- alias ("b"), alias ("c"), alias ("foo") werden verwendet, um sicherzustellen, dass der neu generierte Feldname korrekt ist. Diese Strukturfunktion erzeugt eine abgeflachte Struktur für jedes y -Element in sub_list. Daher ist das Ergebnis der inneren Transformation ein Array (Struktur (b: int, c: int, foo: string)).
- Intermediate -Ergebnis : Die äußere Transformation sammelt alle diese Arrays (Struktur), sodass ihre endgültige Ausgabe ein Array ist (Array (Struktur (b: int, c: int, foo: string)).
- Abflachen (...): Schließlich flacht die Flachfunktion die Struktur des Array (Array (struktur)) in ein einzelnes Array (Struktur (B: int, C: int, foo: String)), das genau das ist, was wir von einem Schema erwarten.
Notizen und Best Practices
- Feldname : Stellen Sie sicher, dass die in Getfield () und struct () verwendeten Feldnamen genau mit dem Namen im tatsächlichen Schema übereinstimmen.
- NULL VALIERVERBEITUNG : Die Transformationsfunktion verarbeitet natürlich leere Elemente im Array. Wenn sub_list leer ist, gibt die innere Transformation ein leeres Array zurück. Wenn die Liste leer ist, gibt die äußere Transformation auch ein leeres Array zurück. Abflachende Griffe leere Arrays ebenfalls sicher.
- Leistung : Transformation ist eine integrierte Funktion höherer Ordnung für Spark SQL, die normalerweise eine bessere Leistung hat als benutzerdefinierte UDFs (benutzerdefinierte Funktionen), da sie in Spark Catalyst Optimizer optimiert werden kann.
- Lesbarkeit : Während verschachtelte Transformationen sehr leistungsfähig sind, kann die Übersteuerung die Lesbarkeit des Codes verringern. Für komplexere Szenarien sollten Sie die Transformationslogik in mehrere Schritte aufteilen oder detaillierte Kommentare hinzufügen.
- Universalität : Dieses transformierende Flachmuster kann auf tiefere Niststrukturen verallgemeinert werden und nur das Nistnestniveau der Transformation erhöhen.
Zusammenfassen
Indem wir die Transformations- und Abflachungsfunktionen von Pyspark geschickt kombinieren, können wir komplexe mehrschichtige Array-Strukturen (Struct (Array (Struct))) in deklarative und effiziente Weise in leichter zu verarbeitende Array-Strukturen (Struct) -Strukturen verflachten. Dieser Ansatz vermeidet die Komplexität traditioneller Exploit- und Groupby -Kombinationen und eignet sich besonders für Szenarien, in denen fein transformierende Elemente innerhalb von Arrays erforderlich sind. Es ist ein sehr nützlicher Trick, wenn es sich um komplexe halbstrukturierte Daten in Spark befasst.
Das obige ist der detaillierte Inhalt vonAbflachungsfähigkeiten für verschachtelte Array-Strukturen mit mehrschichtigen Schichten in PYSPARK. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Stock Market GPT
KI-gestützte Anlageforschung für intelligentere Entscheidungen

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Führen Sie Pipinstall-Rrequirements.txt aus, um das Abhängigkeitspaket zu installieren. Es wird empfohlen, zunächst die virtuelle Umgebung zu erstellen und zu aktivieren, um Konflikte zu vermeiden, sicherzustellen, dass der Dateipfad korrekt ist und dass die PIP aktualisiert wurde, und Optionen wie-No-Deps oder -User, um das Installationsverhalten bei Bedarf anzupassen.

In diesem Tutorial wird beschrieben, wie der PEFT LORA -Adapter mit dem Basismodell effizient zusammengeführt werden kann, um ein völlig unabhängiges Modell zu generieren. Der Artikel weist darauf hin, dass es falsch ist, Transformatoren direkt zu verwenden. Automodel zum Laden des Adapters und zum manuellen Zusammenführen der Gewichte und bietet den richtigen Prozess zur Verwendung der Methode merge_and_unload in der PEFT -Bibliothek. Darüber hinaus unterstreicht das Tutorial auch die Bedeutung des Umgangs mit Word -Segmentern und diskutiert die Kompatibilität und Lösungen von PEFT -Versionen.

Python ist ein einfaches und leistungsstarkes Testwerkzeug in Python. Nach der Installation werden Testdateien automatisch gemäß den Namensregeln ermittelt. Schreiben Sie eine Funktion, die mit Test_ für Assertionstests beginnt, verwenden Sie @PyTest.Fixure, um wiederverwendbare Testdaten zu erstellen, die Ausnahmen über pyTest.raises zu überprüfen, unterstützt die laufenden Tests und mehrere Befehlszeilenoptionen und verbessert die Testeneffizienz.

TheArgParSemoduleiTherecommendedwaytoHandleCommand-Lineargumentesinpython, das Robustparsing, Typevalidation, Helpsages, AndersHandling berücksichtigt; usesys.argvForSimpecaseSeRequiringMinimalsetup.

Dieser Artikel zielt darauf ab, das gemeinsame Problem der unzureichenden Berechnungsgenauigkeit der schwimmenden Punktzahlen in Python und Numpy zu untersuchen, und erklärt, dass seine Grundursache in der Darstellungsbeschränkung der Standardzahlen der 64-Bit-Schwimmpunkte liegt. Für Computerszenarien, die eine höhere Genauigkeit erfordern, wird der Artikel die Nutzungsmethoden, -funktionen und anwendbaren Szenarien von mathematischen Bibliotheken mit hoher Präzision einführen und vergleichen

PYPDF2, PDFPLUMBER und FPDF sind die Kernbibliotheken für Python, um PDF zu verarbeiten. Verwenden Sie PYPDF2, um die Textextraktion, das Zusammenführen, die Aufteilung und die Verschlüsselung durchzuführen, z. PDFPLUMBER eignet sich besser zum Aufbewahren von Layout -Textextraktion und Tabellenerkennung und unterstützt extract_tables (), um Tabellendaten genau zu erfassen. FPDF (empfohlene FPDF2) wird zum Generieren von PDF verwendet, und es werden Dokumente erstellt und über add_page (), set_font () und cell () ausgegeben. Beim Zusammenführen von PDFs kann die append () -Methode von PDFWriter mehrere Dateien integrieren

Importieren Sie@contextManagerfromContextLibanddefinaGeneratorFunctionThatyieldSexactlyonce, whercodeBeforyieldactsasenterandCodeafteryield (vorzugsweise infinal) actsas __exit __. 2.UsetheFunctionInaThstatement, wherheided ValuesieScessable

Die aktuelle Zeit kann in Python über das DateTime -Modul implementiert werden. 1. Verwenden Sie datetime.now (), um die lokale aktuelle Zeit zu erhalten, 2. verwenden Strftime ("%y-%M-%d%H:%m:%s"), um das Ausgabejahr, den Monat, den Tag, die Stunde, die Minute und die zweite, zu formatieren. UTCNOW () und tägliche Operationen können die Anforderungen erfüllen, indem datetime.now () mit formatierten Zeichenfolgen kombiniert werden.
