


KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert
Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN.
KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat.
KAN hat die gleiche starke mathematische Grundlage wie MLP, das auf dem universellen Approximationssatz basiert, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert.
Wie in der Abbildung unten gezeigt, verfügt KAN über Aktivierungsfunktionen an Kanten, während MLP über Aktivierungsfunktionen an Knoten verfügt. KAN scheint parametereffizienter zu sein als MLP, aber jede KAN-Schicht verfügt über mehr Parameter als MLP-Schichten. Bild: [Abbildung 1: Schematische Darstellung] Kurze Erklärung: KAN ist eine kantenbasierte neuronale Netzwerkstruktur, und jeder Knoten verfügt über eine Kantengewichtung und eine Aktivierungsfunktion. Es realisiert die Übertragung und Aktualisierung von Informationen durch Kantenausbreitung. MLP ist eine knotenbasierte neuronale Netzwerkstruktur. Jeder Knoten hat einen Eingang Es wird eine lernbare nichtlineare Aktivierungsfunktion in jedem Pixel, KAN-Faltung (CKAN) vorgeschlagen und als Open Source bereitgestellt.
Projektadresse: https://github.com/AntonioTepsich/Convolutional-KANs
KAN-Faltung
KAN+-Faltung ist der Faltung sehr ähnlich, jedoch nicht im Kernel und im Bild Durch Anwenden eines Skalarprodukts zwischen entsprechenden Pixeln wird eine lernbare nichtlineare Aktivierungsfunktion auf jedes Element angewendet und dann summiert. Der Kernel der KAN+-Faltung entspricht einer KAN+-linearen Schicht mit 4 Eingabe- und 1 Ausgabeneuron. Für jede Eingabe i ist unter Anwendung der lernbaren Funktion ϕ_i das resultierende Pixel dieses Faltungsschritts die Summe von ϕ_i (x_i).
KAN-Parameter in der Faltung
Unter der Annahme, dass es einen KxK-Kernel gibt, gibt es für jedes Element dieser Matrix ein ϕ, dessen Parameteranzahl ist: Gittergröße + 1, ϕ ist definiert als:
Dies bietet mehr Ausdrückbarkeit für die Aktivierungsfunktion b, die Parameteranzahl der linearen Ebene beträgt Gittergröße + 2. Daher hat die KAN-Faltung insgesamt K^2(Gittergröße + 2) Parameter, während die normale Faltung nur K^2 hat.
Initial Evaluation
Die verschiedenen vom Autor getesteten Architekturen sind:
kan Faltungsschicht (KKAN), die mit der Kanearschicht verbunden sind
Kan Faltungsschicht (CKAN), die mit MLP verbunden ist)
- CKAN (CKAN_BN) mit Batch-Normalisierung zwischen Faltungen
- ConvNet (klassische Faltung verbunden mit MLP) (ConvNet)
- Einfaches MLP
- Der Autor gibt an die Implementierung der KAN-Faltung ist eine vielversprechende Idee, obwohl sie noch in den Kinderschuhen steckt. Sie führten einige vorläufige Experimente durch, um die Leistung von KAN-Faltungen zu bewerten.
Es ist erwähnenswert, dass der Grund für die Veröffentlichung dieser „vorläufigen“ Ergebnisse darin besteht, dass sie hoffen, diese Idee so schnell wie möglich der Außenwelt vorzustellen und eine breitere Forschung in der Community zu fördern.
Jedes Element der Liste in der Faltungsschicht enthält die Faltungsnummer und die entsprechende Kernelgröße.
Basierend auf dem 28x28 MNIST-Datensatz kann beobachtet werden, dass KANConv- und MLP-Modelle im Vergleich zu ConvNet (groß) eine akzeptable Genauigkeit erreichen. Der Unterschied besteht jedoch darin, dass KANConv und MLP siebenmal so viele Parameter erfordern wie Standard-ConvNet. Darüber hinaus ist die Genauigkeit von KKAN um 0,04 niedriger als bei ConvNet Medium, während die Anzahl der Parameter (94.000 gegenüber 157.000) fast halb so hoch ist wie die von ConvNet Medium, was das Potenzial dieser Architektur zeigt. Wir müssen auch Experimente mit weiteren Datensätzen durchführen, um diesbezüglich Schlussfolgerungen zu ziehen.
In den kommenden Tagen und Wochen werden die Autoren außerdem das Modell und die Hyperparameter der zum Vergleich verwendeten Modelle gründlich optimieren. Obwohl einige Hyperparameter- und Architekturvarianten ausprobiert wurden, ist dies nur heuristisch und folgt keinem präzisen Ansatz. Sie haben aufgrund von Rechenleistung und Zeitbeschränkungen noch nicht mit großen oder komplexeren Datensätzen gearbeitet und arbeiten an der Lösung dieses Problems.
Zukünftig wird der Autor Experimente mit komplexeren Datensätzen durchführen, was bedeutet, dass die Parametermenge von KANS zunehmen wird, da mehr KAN-Faltungsschichten implementiert werden müssen.
Fazit
Derzeit gibt der Autor an, dass er im Vergleich zu herkömmlichen Faltungsnetzwerken keine signifikante Verbesserung der Leistung von KAN-Faltungsnetzwerken festgestellt hat. Ihre Analyse geht davon aus, dass dies auf die Verwendung einfacher Datensätze und Modelle zurückzuführen ist. Im Vergleich zur besten getesteten Architektur (ConvNet Big, dieser Vergleich ist aufgrund des Skalierungsfaktors unfair) besteht der Vorteil dieser Architektur darin, dass sie über eine gute Kontrolle verfügt Die Anforderungen sind deutlich geringer.
Der Vergleich zwischen zwei identischen Faltungsschichten und der KAN-Faltungsschicht mit demselben MLP am Ende zeigt, dass die klassische Methode mit einer um 0,06 erhöhten Genauigkeit etwas besser ist, während die KAN-Faltungsschicht und die KAN-Faltungsschicht linear sind. Die Anzahl der Parameter in Die Schicht ist fast halb so groß wie bei der klassischen Methode, die Genauigkeit ist jedoch um 0,04 verringert.
Der Autor gab an, dass sich die Leistung des KAN-Faltungsnetzwerks verbessern sollte, wenn die Komplexität des Modells und des Datensatzes zunimmt. Gleichzeitig wächst mit zunehmender Eingabedimension auch die Anzahl der Parameter des Modells schneller.
Das obige ist der detaillierte Inhalt vonKAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

In diesem Artikel wird das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren untersucht, insbesondere wie die Transformation von Merkmalen aus der Perspektive (PV) in den Raum aus der Vogelperspektive (BEV) effektiv ist implementiert über das Modul Visual Transformation (VT). Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und die Aufmerksamkeitsgewichte der Korrespondenz zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht sich die Rechen- und Bereitstellungszeit.

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Ollama ist ein superpraktisches Tool, mit dem Sie Open-Source-Modelle wie Llama2, Mistral und Gemma problemlos lokal ausführen können. In diesem Artikel werde ich vorstellen, wie man Ollama zum Vektorisieren von Text verwendet. Wenn Sie Ollama nicht lokal installiert haben, können Sie diesen Artikel lesen. In diesem Artikel verwenden wir das Modell nomic-embed-text[2]. Es handelt sich um einen Text-Encoder, der OpenAI text-embedding-ada-002 und text-embedding-3-small bei kurzen und langen Kontextaufgaben übertrifft. Starten Sie den nomic-embed-text-Dienst, wenn Sie o erfolgreich installiert haben
