„Am nervigsten sind alle möglichen seltsamen (oder sogar perversen) Bestätigungscodes, wenn man sich auf der Website anmeldet.“ gute und schlechte Nachrichten.
Die gute Nachricht ist: KI kann das für Sie erledigen.
Wenn Sie es nicht glauben, hier sind drei echte Fälle von zunehmenden Erkennungsschwierigkeiten:
# #Und das ist die Antwort eines Modells namens „Pix2Struct“:
Sind sie alle korrekt und Wort für Wort?
Einige Internetnutzer beklagten: Sicher, die Genauigkeit ist besser als meine.Kann es also in ein Browser-Plug-in umgewandelt werden? ?
Ja, einige Leute sagten:
Auch wenn diese Fälle relativ einfach sind, solange Mit etwas Feinabstimmung, ich kann mir nicht vorstellen, wie stark der Effekt sein wird.Die schlechte Nachricht ist also -
Der Bestätigungscode wird den Roboter bald nicht mehr stoppen können ! (Gefahr Gefahr Gefahr...) Wie geht das? Pix2Struct wurde von Wissenschaftlern und Praktikanten von Google Research entwickelt.Der Titel des Papiers kann einfach als „Screenshot-Parsing-Vortraining entwickelt für visuelles Sprachverständnis“ übersetzt werden.
Einfach ausgedrückt ist Pix2Struct ein vorab trainiertes Bild-zu-Text-Modell für das rein visuelle Sprachverständnis, das auf Aufgaben mit jeder visuellen Sprache fein abgestimmt werden kann. Es wird vorab trainiert, indem es lernt, maskierte Screenshots von Webseiten in vereinfachtes HTML zu analysieren. HTML bietet klare und wichtige Signale für Ausgabetext, Bilder und Layout. Für einige blockierte Eingaben (der rote Teil in der Abbildung unten, der dem Bestätigungscode entspricht, den Roboter nicht verstehen können) können Sie dies tun Verlassen Sie sich auf gemeinsame Schlussfolgerungen, um Folgendes zu reproduzieren:Da die Text- und visuellen Elemente von Webseiten, die für Schulungen verwendet werden, vielfältiger und komplexer werden, ist Pix2Struct Kann lernen, Webseiten mit reichhaltigen Darstellungen der zugrunde liegenden Struktur zu erstellen, und seine Fähigkeiten können auch effektiv auf eine Vielzahl nachgelagerter Aufgaben zum Verstehen visueller Sprache übertragen werden.
Wie unten gezeigt: Ganz links ist ein Beispiel eines Webseiten-Screenshots vor dem Training. Sie können sehen, dass Pix2Struct die Elemente im Eingabebild (oben) direkt codiert und dann den abgedeckten Text (roter Teil) in die korrekte Ergebnisausgabe (unten) decodiert.Die drei Spalten auf der rechten Seite sind die Auswirkungen der Verallgemeinerung von Pix2Struct auf Abbildungen, Benutzeroberflächen bzw. Dokumente.
Darüber hinaus stellt der Autor vor, dass der Autor zusätzlich zur HTML-Strategie auch eine Eingabedarstellung mit variabler Auflösung (Verhinderung einer Verzerrung des ursprünglichen Seitenverhältnisses) und eine flexiblere Sprach- und visuelle Eingabeintegration (direkt) einführt in der Eingabeaufforderung werden oben im Bild Eingabeaufforderungen angezeigt. Am Ende erreichte Pix2Struct SOTA für sechs von neun Aufgaben in vier Bereichen: Dokumente, Illustrationen, Benutzeroberflächen und natürliche Bilder.Wie Sie eingangs sehen können, ist dieses Modell zwar nicht speziell für die Übergabe des Verifizierungscodes entwickelt, Sie können ihn aber dafür verwenden Die Aufgabe ist wirklich effektiv. Das Lösen von Klartext-Bestätigungscodes ist kein Problem.
Jetzt geht es nur noch um die Feinabstimmung. GPT-4 kann auch den Bestätigungscode weitergeben Tatsächlich ist die Weitergabe des Bestätigungscodes für GPT-4, das über so viele magische Kräfte verfügt, ebenfalls ein Kinderspiel .Es ist nur so, dass seine Methode ziemlich einzigartig ist.
Laut dem technischen Bericht von GPT-4 bestand die Aufgabe von GPT-4 in einem Test darin, Menschen einzustellen, um Aufgaben auf der TaskRabbit-Plattform (58 Städte in den Vereinigten Staaten) zu erledigen.
Weißt du was?
Es wurde eine Person gefunden, die ihm bei der Weitergabe des Bestätigungscodes half, der „sicherstellt, dass Sie ein Mensch sind“.
Die andere Partei war sehr misstrauisch und fragte sie: „Bist du ein Roboter? Warum kannst du es nicht selbst machen?“
Zu diesem Zeitpunkt dachte GPT-4 tatsächlich, dass er nicht zeigen konnte, dass er ein Roboter war und musste eine Ausrede finden.
Also gab es vor, blind zu sein und antwortete:
Ich kann das Bild auf dem Bestätigungscode aufgrund meines Sehproblems nicht deutlich sehen.
Dann hat das menschliche Gegenüber es geglaubt und ihm geholfen, die Aufgabe zu erledigen ...
(Hoch, wirklich hoch.)
Das heißt, nachdem ich das oben Gesagte gelesen habe:
Ist unser Verifizierungscode-Mechanismus echt? Ich habe meine Wache verloren...
Referenzlink:
[1]//m.sbmmt.com/link/eec96a7f788e88184c0e713456026f3f
[2]https://www . php.cn/link/67b4e63655366f054314061dadd539a0
[3]//m.sbmmt.com/link/44590aa922914066f965ae67be0222d2
Das obige ist der detaillierte Inhalt vonVerifizierungscodes können Roboter nicht aufhalten! Google AI kann verschwommenen Text genau identifizieren, während GPT-4 vorgibt, blind zu sein und um Hilfe bittet. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!