Die Inferenzgeschwindigkeit ist doppelt so hoch wie bei Stable Diffusion; Visual Transformer vereinheitlicht Bildtext-KI-php.cn

Inhaltsverzeichnis

ArXiv Weekly Radiostation

Heim

Technologie-Peripheriegeräte

Die Inferenzgeschwindigkeit ist doppelt so hoch wie bei Stable Diffusion; Visual Transformer vereinheitlicht Bildtext

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 13, 2023 pm 11:55 PM

Modell

Aufsatz 1: Ein Modell, um sie alle zu bearbeiten: Textgesteuerte Bildmanipulation in freier Form mit semantischen Modulationen

Autoren: Yiming Zhu, Hongyu Liu usw.
Aufsatzadresse: https: //arxiv.org/pdf/2210.07883.pdf

Zusammenfassung: Dieser Artikel verwendet zunächst den vorhandenen Encoder, um das zu bearbeitende Bild in die latente Codierung w in der W^+-Semantik umzuwandeln Raum von StyleGAN, und dann wird die latente Codierung durch das vorgeschlagene semantische Modulationsmodul adaptiv moduliert. Das semantische Modulationsmodul umfasst semantische Ausrichtungs- und semantische Injektionsmodule. Es richtet zunächst die Semantik zwischen der Textkodierung und der latenten Kodierung von GAN über den Aufmerksamkeitsmechanismus aus und fügt dann die Textinformationen in die ausgerichtete latente Kodierung ein, wodurch sichergestellt wird, dass die Cain-Kodierung erfolgt besitzt die Textinformationen und erhält dadurch die Möglichkeit, Bilder mithilfe von Text zu bearbeiten.

Im Gegensatz zum klassischen StyleCLIP-Modell muss unser Modell nicht für jeden Text ein separates Modell trainieren, um Bilder effektiv zu bearbeiten, sodass unser Modell zur FFCLIP-freien Text-gesteuerten Bildmanipulation wird . Gleichzeitig hat unser Modell bei den klassischen Kirchen-, Gesichts- und Autodatensätzen sehr gute Ergebnisse erzielt.

Die Inferenzgeschwindigkeit ist doppelt so hoch wie bei Stable Diffusion; Visual Transformer vereinheitlicht Bildtext

Abbildung 1: Gesamtrahmendiagramm

Empfohlen: Neues Paradigma der Text- und Bildbearbeitung, ein einziges Modell realisiert die durch mehrere Texte geführte Bildbearbeitung.

Papier 2: Gedruckte organische Photovoltaikmodule auf übertragbaren ultradünnen Substraten als additive Stromquellen

Autor: Mayuran Saravanapavanantham, Jeremiah Mwaura usw.
Papieradresse: https: // onlinelibrary.wiley.com/doi/10.1002/smtd.202200940

Zusammenfassung: Forscher am MIT haben eine skalierbare Fertigungstechnologie entwickelt, mit der ultradünne, leichte Solarzellen und Batterien hergestellt werden können, die verlegt werden können auf jeder Oberfläche.

MIT-Forscher haben Solarmodule entwickelt, die dünner als ein menschliches Haar sind und 18-mal mehr Energie pro Kilogramm liefern als aktuelle Solarmodule auf Glas- und Siliziumbasis. Diese Solarmodule wiegen nur ein Prozent herkömmlicher Photovoltaikzellen.

Dieses ultradünne Solarpanel kann auch auf Segeln, Drohnenflügeln und Zelten installiert werden. Sie sind besonders nützlich in abgelegenen Gebieten und bei Katastrophenhilfeeinsätzen.

Die Inferenzgeschwindigkeit ist doppelt so hoch wie bei Stable Diffusion; Visual Transformer vereinheitlicht Bildtext

Empfohlen: MIT stellt hauchdünne Solarmodule her.

Papier 3: Ein Überblick über Deep Learning für mathematisches Denken

Autoren: Pan Lu, Liang Qiu usw.
Papieradresse: https://arxiv.org/ pdf/ 2212.10535.pdf

Zusammenfassung:In einem kürzlich veröffentlichten Bericht überprüften Forscher der UCLA und anderer Institutionen systematisch die Fortschritte des Deep Learning im mathematischen Denken.

Insbesondere werden in diesem Artikel verschiedene Aufgaben und Datensätze (Abschnitt 2) erörtert und neuronale Netze (Abschnitt 3) und vorab trainierte Sprachmodelle (Abschnitt 4) im Bereich des mathematischen Fortschritts untersucht. Die schnelle Entwicklung des kontextuellen Lernens großer Sprachmodelle im mathematischen Denken wird ebenfalls untersucht (Abschnitt 5). Der Artikel analysiert bestehende Benchmarks weiter und stellt fest, dass multimodalen und ressourcenarmen Umgebungen weniger Aufmerksamkeit geschenkt wird (Abschnitt 6.1). Evidenzbasierte Forschung zeigt, dass die aktuellen Darstellungen der Rechenkapazitäten unzureichend sind und Deep-Learning-Methoden in Bezug auf mathematisches Denken inkonsistent sind (Abschnitt 6.2). Anschließend schlagen die Autoren Verbesserungen der aktuellen Arbeit in Bezug auf Verallgemeinerung und Robustheit, vertrauenswürdiges Denken, Lernen aus Feedback und multimodales mathematisches Denken vor (Abschnitt 7).

Empfohlen: Wie tiefes Lernen langsam die Tür zum mathematischen Denken öffnet.

Paper 4: Muse: Text-To-Image Generation via Masked Generative Transformers

#🎜🎜 #

Autoren: Huiwen Chang, Han Zhang usw.
Papieradresse: https: //arxiv.org/pdf/2301.00704v1.pdf

Zusammenfassung: Die Studie schlägt ein neues Modell für die Text-zu-Bild-Synthese unter Verwendung eines maskierten Bildmodellierungsansatzes vor, bei dem die Bilddecoderarchitektur auf Einbettungen von vorab trainierten und eingefrorenen T5-XXL-LLM-Encodern (Large Language Model) basiert.

Mit Imagen (Saharia et al., 2022) oder Dall-E2 (Ramesh et al., 2022) wird die Effizienz von Muse durch den Einsatz diskreter Systeme deutlich verbessert Token. Im Vergleich zum autoregressiven SOTA-Modell Parti (Yu et al., 2022) ist Muse aufgrund der Verwendung paralleler Dekodierung effizienter.

Basierend auf experimentellen Ergebnissen mit TPU-v4 schätzen Forscher, dass Muse in der Inferenzgeschwindigkeit mehr als zehnmal schneller ist als Imagen-3B- oder Parti-3B-Modelle, und zwar schneller als Stable Diffusion v1.4 (Rombach et al., 2022) ist 2x schneller. Forscher glauben, dass Muse schneller ist als Stable Diffusion, da das Diffusionsmodell in Stable Diffusion v1.4 verwendet wird, was offensichtlich mehr Iterationen während der Inferenz erfordert.

Die Inferenzgeschwindigkeit ist doppelt so hoch wie bei Stable Diffusion; Visual Transformer vereinheitlicht Bildtext

Übersicht über die Modellarchitektur.

Empfohlen: Die Inferenzgeschwindigkeit ist 2-mal schneller als bei Stable Diffusion, und die Erzeugung und Reparatur von Bildern kann erfolgen gemacht mit einem Google-Modell.

Papier 5: Positiver Anreizlärm #Autor: Li 🎜#Papieradresse: https://ieeexplore.ieee.org/document/10003114#🎜 🎜#

Zusammenfassung: In allen Aspekten der wissenschaftlichen Forschung kommt es häufig zu Störungen, z. B. bei Instrumenten, Instrumentenfehlern, die durch unzureichende Präzision verursacht werden, Abweichungen, die durch menschliche Fehler bei der Bedienung verursacht werden, Informationsverzerrungen, die durch externe Störungen wie extreme Umgebungen verursacht werden , usw. Unter Forschern ist es mittlerweile eine verbreitete Annahme, dass Lärm häufig negative Auswirkungen auf die ausgeführten Aufgaben hat. Daher sind zahlreiche Forschungsarbeiten rund um die Kernaufgabe „Lärmminderung“ entstanden. Das Team von Professor Li Xuelong von der Northwestern Polytechnical University stellte diese Annahme jedoch durch experimentelle Beobachtungen bei der Durchführung von Signalerkennungs- und -verarbeitungsaufgaben in Frage: Ist Lärm in der wissenschaftlichen Forschung wirklich immer schädlich?
Wie in Abbildung 1 gezeigt, erhöhte sich in einem bildintelligenten Klassifizierungssystem die Erkennungsgenauigkeit, nachdem dem Bild eine entsprechende Menge Rauschen hinzugefügt und anschließend trainiert wurde. Dies bringt uns einige Inspiration: Das Hinzufügen von etwas Rauschen zum Bild, anstatt es zu entfernen, und die anschließende Durchführung der Bildklassifizierungsaufgabe führen möglicherweise zu besseren Ergebnissen. Solange die Auswirkung von Lärm auf das Ziel viel geringer ist als die Auswirkung von Lärm auf den Hintergrund, ist der Effekt „Schaden des Feindes (Hintergrundgeräusch) um eintausend und Schaden für sich selbst (Zielsignal) um achthundert“ sinnvoll. denn die Mission strebt ein hohes Signal-Rausch-Verhältnis an. Im Wesentlichen ist das zufällige Hinzufügen von moderatem Rauschen nach Features gleichbedeutend mit einer Erhöhung der Feature-Dimension. In gewisser Weise ähnelt es dem Hinzufügen einer Kernelfunktion zu den Features, die tatsächlich eine Aufgabe von unten abschließt -Dimensionaler Raum zu hochdimensionalem Raum macht die Daten trennbarer und verbessert so den Klassifizierungseffekt.

Abbildung 1 Die Bilderkennungsgenauigkeit zeigt eine „kontraintuitive“ Beziehung von „zuerst zunehmend und dann abnehmend“, wenn die Intensität des Bildrauschens zunimmt.

Empfohlen: Professor Li Xuelong von der Western Polytechnic University schlug einen mathematischen Analyserahmen vor, der auf Aufgabenentropie basiert.

Artikel 6: ABPN: Adaptive Blend Pyramid Network für lokale Echtzeit-Retusche von ultrahochauflösenden Fotos
- Autoren: Biwen Lei, Xiefan Guo usw.
- Artikel Adresse: https://openaccess.thecvf.com/content/CVPR2022/papers/Lei_ABPN_Adaptive_Blend_Pyramid_Network_for_Real-Time_Local_Retouching_of_CVPR_2022_paper.pdf
Zusammenfassung: Forscher der DAMO Academy haben das Ziel Erzielen Sie intelligente Hautpflege auf professionellem Niveau, Forschung und Entwicklung Es wurde eine Reihe ultrafeiner lokaler Retuschealgorithmen (ABPN) für hochauflösende Bilder entwickelt, die gute Ergebnisse und Anwendungen bei der Hautverschönerung und Faltenentfernung in Kleidung in ultrahochauflösenden Bildern erzielt haben.

Wie in der Abbildung oben gezeigt, besteht die Netzwerkstruktur hauptsächlich aus zwei Teilen: der kontextbewussten lokalen Modifikationsschicht (LRL) und der adaptiven Mischpyramidenschicht (BPL). Der Zweck von LRL besteht darin, das heruntergesampelte Bild mit niedriger Auflösung lokal zu modifizieren und ein Ergebnisbild mit niedriger Auflösung zu generieren, wobei die globalen Kontextinformationen und lokalen Texturinformationen vollständig berücksichtigt werden. Darüber hinaus wird BPL verwendet, um die in LRL generierten Ergebnisse mit niedriger Auflösung schrittweise auf Ergebnisse mit hoher Auflösung zu skalieren. Unter anderem haben wir ein adaptives Mischmodul (ABM) und sein Umkehrmodul (R-ABM) entwickelt. Mithilfe der Zwischenmischschicht Bi können wir eine adaptive Konvertierung und Aufwärtserweiterung zwischen dem Originalbild und dem Ergebnisbild realisieren und so eine leistungsstarke Skalierbarkeit aufweisen und Detailtreuefunktionen. Wir haben eine große Anzahl von Experimenten in den beiden Datensätzen Gesichtsmodifikation und Kleidungsmodifikation durchgeführt und die Ergebnisse zeigen, dass unsere Methode den bestehenden Methoden in Bezug auf Wirksamkeit und Effizienz deutlich voraus ist. Es ist erwähnenswert, dass unser Modell die Echtzeit-Inferenz von 4K-Bildern mit ultrahoher Auflösung auf einer einzigen P100-Karte erreicht.

Empfohlen: Entfernen Sie Hautunreinheiten und Falten mit einem Klick.

Papier 7: Bild- und Sprachverständnis nur aus Pixeln
- Autor: Michael Tschannen, Basil Mustafa usw.
- Papieradresse: https://arxiv.org /pdf /2212.08045.pdf
Zusammenfassung: Die Entwicklung eines einzigen End-to-End-Modells, das jede Modalität oder Kombination von Modalitäten bewältigen kann, wird ein wichtiger Schritt in Richtung multimodales Lernen sein. In diesem Artikel konzentrieren sich Forscher von Google Research (Google Brain-Team) in Zürich hauptsächlich auf Bilder und Text.

In diesem Artikel wird das multimodale Lernen von Text und Bildern mithilfe rein pixelbasierter Modelle untersucht. Das Modell ist ein separater visueller Transformer, der visuelle Eingaben oder Text oder beides zusammen verarbeitet und alles als RGB-Bilder gerendert. Alle Modalitäten verwenden die gleichen Modellparameter, einschließlich der Low-Level-Feature-Verarbeitung; das heißt, es gibt keine modalitätsspezifischen anfänglichen Faltungen, Tokenisierungsalgorithmen oder Eingabeeinbettungstabellen. Das Modell wird mit nur einer Aufgabe trainiert: kontrastivem Lernen, wie es von CLIP und ALIGN populär gemacht wird. Daher heißt das Modell CLIP-Pixels Only (CLIPPO).

Empfohlen: Parameter werden halbiert und so gut wie CLIP die Bild- und Textvereinheitlichung ausgehend von Pixeln realisiert.

ArXiv Weekly Radiostation

Heart of Machine kooperiert mit der von Chu Hang und Luo Ruotian initiierten ArXiv Weekly Radiostation und wählt diese Woche weitere wichtige Artikel auf der Grundlage von 7 Artikeln aus, darunter jeweils 10 ausgewählte Artikel in den Bereichen NLP, CV und ML , und stellen Sie eine Audiozusammenfassung des Papiers bereit. Die Details lauten wie folgt:

10 NLP-PapiereAudio:00:0020:02

Die 10 ausgewählten NLP-Artikel dieser Woche sind:

1. Rethinking with Retrieval: Faithful Large Language Model Inference.

2. Politische Polarisierung mithilfe von Sprachmodellen verstehen: Ein Datensatz und eine Methode. (Von Bhiksha Raj) Rhetorik mit epistemischer Haltungserkennung.

in Implicit Hate Speech Detection. (von Jessica Lin)

7 Interviewgenerator. (von Tao Zhang)

9. Memory Augmented Lookup Dictionary-basierte Sprachmodellierung (von Yuxuan Wang)10. Parametereffiziente Feinabstimmung von Designräumen )

10 Lebenslaufunterlagen
Audio:

00:0021:06

Die 10 ausgewählten Lebenslaufpapiere dieser Woche sind: ?? Malik) Vipin Kumar)3. Ein skalenbewusster maskierter Autoencoder für das Lernen der räumlichen Darstellung in mehreren Maßstäben. (von Trevor Darrell)4 . (von Rama Chellappa)5. Text-zu-Bild-Generierung über maskierte generative Transformatoren Durch neuronalen Kollaps. (von Xiangyu Zhang, Jiaya Jia)

7. Cross Modal Transformer über Koordinatenkodierung für die 3D-Objekterkennung. (von Xiangyu Zhang)
8 . (von Alan Yuille)
9. Lernen durch Sortieren: Selbstüberwachtes Lernen mit Gruppenordnungsbeschränkungen
10. AttEntropy: Segmentierung unbekannter Objekte in komplexen Szenen mithilfe der räumlichen Aufmerksamkeitsentropie semantischer Segmentierungstransformatoren. (von Pascal Fua)

10 ML Papers音频：00:0023:15

本周 10 篇 ML 精选Beschreibung:

1. Selbstorganisiertes Lernen mit erhaltener Graphstruktur mit dem Prinzip relevanter Informationen. (von Philip S. Yu)

2. Modifizierte Abfrageerweiterung durch generative gegnerische Netzwerke zur Informationsextraktion im E-Commerce. (von Altan Cakir)

3. Entwirrte Erklärungen neuronaler Netzwerkvorhersagen durch Auffinden relevanter Unterräume. (von Klaus-Robert Müller)

4. L-HYDRA: Mehrköpfige, physikinformierte neuronale Netze. (von George Em Karniadakis)

5. Zur Transformation des Reinforcement Learning durch Transformer: Der Entwicklungsverlauf. (von Dacheng Tao)

6. Förderung neuronaler Netze zur Dekompilierung optimierter Binärdateien. (von Kai Chen)

7. NeuroExplainer: Feinkörnige Aufmerksamkeitsdekodierung zur Aufdeckung kortikaler Entwicklungsmuster von Frühgeborenen. (von Dinggang Shen)

8. Eine Theorie des menschenähnlichen Few-Shot-Lernens. (von Ming Li)

9. Temporales Differenzlernen mit komprimierten Updates: Fehler-Feedback trifft auf verstärkendes Lernen. (von George J. Pappas)

10. Schätzung latenter Bevölkerungsströme aus aggregierten Daten durch Umkehrung des multimarginalen optimalen Transports. (von Hongyuan Zha)

Das obige ist der detaillierte Inhalt vonDie Inferenzgeschwindigkeit ist doppelt so hoch wie bei Stable Diffusion; Visual Transformer vereinheitlicht Bildtext. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Wachsen Sie einen Garten - Komplette Leitfaden für reisende Händler

1 Monate vor By Jack chen

So retten Sie alle 4 <🎜> Kinder in 99 Nächten im Wald

4 Wochen vor By DDD

Windows 11 KB5062660 24H2 mit Funktionen, direkte Download -Links für Offline -Installateur (.msu)

4 Wochen vor By Jack chen

Wie man freie Diamanten in 99 Nächten im Wald bekommt

1 Monate vor By DDD

PHP nennt AI intelligente Sprachassistenten PHP Voice Interaction System Construction

3 Wochen vor By

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

PHP-Tutorial

1532

276

Related knowledge

KI untergräbt die mathematische Forschung! Der Gewinner der Fields-Medaille und der chinesisch-amerikanische Mathematiker führten 11 hochrangige Arbeiten an | Gefällt mir bei Terence Tao Apr 09, 2024 am 11:52 AM

KI verändert tatsächlich die Mathematik. Vor kurzem hat Tao Zhexuan, der diesem Thema große Aufmerksamkeit gewidmet hat, die neueste Ausgabe des „Bulletin of the American Mathematical Society“ (Bulletin der American Mathematical Society) weitergeleitet. Zum Thema „Werden Maschinen die Mathematik verändern?“ äußerten viele Mathematiker ihre Meinung. Der gesamte Prozess war voller Funken, knallhart und aufregend. Der Autor verfügt über eine starke Besetzung, darunter der Fields-Medaillengewinner Akshay Venkatesh, der chinesische Mathematiker Zheng Lejun, der NYU-Informatiker Ernest Davis und viele andere bekannte Wissenschaftler der Branche. Die Welt der KI hat sich dramatisch verändert. Viele dieser Artikel wurden vor einem Jahr eingereicht.

Hallo, elektrischer Atlas! Der Boston Dynamics-Roboter erwacht wieder zum Leben, seltsame 180-Grad-Bewegungen machen Musk Angst Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas tritt offiziell in die Ära der Elektroroboter ein! Gestern hat sich der hydraulische Atlas einfach „unter Tränen“ von der Bühne der Geschichte zurückgezogen. Heute gab Boston Dynamics bekannt, dass der elektrische Atlas im Einsatz ist. Es scheint, dass Boston Dynamics im Bereich kommerzieller humanoider Roboter entschlossen ist, mit Tesla zu konkurrieren. Nach der Veröffentlichung des neuen Videos wurde es innerhalb von nur zehn Stunden bereits von mehr als einer Million Menschen angesehen. Die alten Leute gehen und neue Rollen entstehen. Das ist eine historische Notwendigkeit. Es besteht kein Zweifel, dass dieses Jahr das explosive Jahr der humanoiden Roboter ist. Netizens kommentierten: Die Weiterentwicklung der Roboter hat dazu geführt, dass die diesjährige Eröffnungsfeier wie Menschen aussieht, und der Freiheitsgrad ist weitaus größer als der von Menschen. Aber ist das wirklich kein Horrorfilm? Zu Beginn des Videos liegt Atlas ruhig auf dem Boden, scheinbar auf dem Rücken. Was folgt, ist atemberaubend

Das weltweit leistungsstärkste Open-Source-MoE-Modell ist da, mit chinesischen Fähigkeiten, die mit GPT-4 vergleichbar sind, und der Preis beträgt nur fast ein Prozent von GPT-4-Turbo May 07, 2024 pm 04:13 PM

Stellen Sie sich ein Modell der künstlichen Intelligenz vor, das nicht nur die Fähigkeit besitzt, die traditionelle Datenverarbeitung zu übertreffen, sondern auch eine effizientere Leistung zu geringeren Kosten erzielt. Dies ist keine Science-Fiction, DeepSeek-V2[1], das weltweit leistungsstärkste Open-Source-MoE-Modell, ist da. DeepSeek-V2 ist ein leistungsstarkes MoE-Sprachmodell (Mix of Experts) mit den Merkmalen eines wirtschaftlichen Trainings und einer effizienten Inferenz. Es besteht aus 236B Parametern, von denen 21B zur Aktivierung jedes Markers verwendet werden. Im Vergleich zu DeepSeek67B bietet DeepSeek-V2 eine stärkere Leistung, spart gleichzeitig 42,5 % der Trainingskosten, reduziert den KV-Cache um 93,3 % und erhöht den maximalen Generierungsdurchsatz auf das 5,76-fache. DeepSeek ist ein Unternehmen, das sich mit allgemeiner künstlicher Intelligenz beschäftigt

DualBEV: BEVFormer und BEVDet4D deutlich übertreffen, öffnen Sie das Buch! Mar 21, 2024 pm 05:21 PM

In diesem Artikel wird das Problem der genauen Erkennung von Objekten aus verschiedenen Blickwinkeln (z. B. Perspektive und Vogelperspektive) beim autonomen Fahren untersucht, insbesondere wie die Transformation von Merkmalen aus der Perspektive (PV) in den Raum aus der Vogelperspektive (BEV) effektiv ist implementiert über das Modul Visual Transformation (VT). Bestehende Methoden lassen sich grob in zwei Strategien unterteilen: 2D-zu-3D- und 3D-zu-2D-Konvertierung. 2D-zu-3D-Methoden verbessern dichte 2D-Merkmale durch die Vorhersage von Tiefenwahrscheinlichkeiten, aber die inhärente Unsicherheit von Tiefenvorhersagen, insbesondere in entfernten Regionen, kann zu Ungenauigkeiten führen. Während 3D-zu-2D-Methoden normalerweise 3D-Abfragen verwenden, um 2D-Features abzutasten und die Aufmerksamkeitsgewichte der Korrespondenz zwischen 3D- und 2D-Features über einen Transformer zu lernen, erhöht sich die Rechen- und Bereitstellungszeit.

Google ist begeistert: JAX-Leistung übertrifft Pytorch und TensorFlow! Es könnte die schnellste Wahl für das GPU-Inferenztraining werden Apr 01, 2024 pm 07:46 PM

Die von Google geförderte Leistung von JAX hat in jüngsten Benchmark-Tests die von Pytorch und TensorFlow übertroffen und belegt bei 7 Indikatoren den ersten Platz. Und der Test wurde nicht auf der TPU mit der besten JAX-Leistung durchgeführt. Obwohl unter Entwicklern Pytorch immer noch beliebter ist als Tensorflow. Aber in Zukunft werden möglicherweise mehr große Modelle auf Basis der JAX-Plattform trainiert und ausgeführt. Modelle Kürzlich hat das Keras-Team drei Backends (TensorFlow, JAX, PyTorch) mit der nativen PyTorch-Implementierung und Keras2 mit TensorFlow verglichen. Zunächst wählen sie eine Reihe von Mainstream-Inhalten aus

Tesla-Roboter arbeiten in Fabriken, Musk: Der Freiheitsgrad der Hände wird dieses Jahr 22 erreichen! May 06, 2024 pm 04:13 PM

Das neueste Video von Teslas Roboter Optimus ist veröffentlicht und er kann bereits in der Fabrik arbeiten. Bei normaler Geschwindigkeit sortiert es Batterien (Teslas 4680-Batterien) so: Der Beamte hat auch veröffentlicht, wie es bei 20-facher Geschwindigkeit aussieht – auf einer kleinen „Workstation“, pflücken und pflücken und pflücken: Dieses Mal wird es freigegeben. Eines der Highlights Der Vorteil des Videos besteht darin, dass Optimus diese Arbeit in der Fabrik völlig autonom und ohne menschliches Eingreifen während des gesamten Prozesses erledigt. Und aus Sicht von Optimus kann es auch die krumme Batterie aufnehmen und platzieren, wobei der Schwerpunkt auf der automatischen Fehlerkorrektur liegt: In Bezug auf die Hand von Optimus gab der NVIDIA-Wissenschaftler Jim Fan eine hohe Bewertung ab: Die Hand von Optimus ist der fünffingrige Roboter der Welt am geschicktesten. Seine Hände sind nicht nur taktil

KAN, das MLP ersetzt, wurde durch Open-Source-Projekte auf Faltung erweitert Jun 01, 2024 pm 10:03 PM

Anfang dieses Monats schlugen Forscher des MIT und anderer Institutionen eine vielversprechende Alternative zu MLP vor – KAN. KAN übertrifft MLP in Bezug auf Genauigkeit und Interpretierbarkeit. Und es kann MLP, das mit einer größeren Anzahl von Parametern ausgeführt wird, mit einer sehr kleinen Anzahl von Parametern übertreffen. Beispielsweise gaben die Autoren an, dass sie KAN nutzten, um die Ergebnisse von DeepMind mit einem kleineren Netzwerk und einem höheren Automatisierungsgrad zu reproduzieren. Konkret verfügt DeepMinds MLP über etwa 300.000 Parameter, während KAN nur etwa 200 Parameter hat. KAN hat eine starke mathematische Grundlage wie MLP und basiert auf dem universellen Approximationssatz, während KAN auf dem Kolmogorov-Arnold-Darstellungssatz basiert. Wie in der folgenden Abbildung gezeigt, hat KAN

Die lokale Ausführungsleistung des Embedding-Dienstes übertrifft die von OpenAI Text-Embedding-Ada-002, was sehr praktisch ist! Apr 15, 2024 am 09:01 AM

Ollama ist ein superpraktisches Tool, mit dem Sie Open-Source-Modelle wie Llama2, Mistral und Gemma problemlos lokal ausführen können. In diesem Artikel werde ich vorstellen, wie man Ollama zum Vektorisieren von Text verwendet. Wenn Sie Ollama nicht lokal installiert haben, können Sie diesen Artikel lesen. In diesem Artikel verwenden wir das Modell nomic-embed-text[2]. Es handelt sich um einen Text-Encoder, der OpenAI text-embedding-ada-002 und text-embedding-3-small bei kurzen und langen Kontextaufgaben übertrifft. Starten Sie den nomic-embed-text-Dienst, wenn Sie o erfolgreich installiert haben

See all articles