Zhiyuan hat 300 Millionen Trainingsdaten für semantische Vektormodelle geöffnet und das BGE-Modell wird weiterhin iterativ aktualisiert.-KI-php.cn

Zhiyuan hat 300 Millionen Trainingsdaten für semantische Vektormodelle geöffnet und das BGE-Modell wird weiterhin iterativ aktualisiert.

王林

Freigeben： 2023-09-21 21:33:11

nach vorne

1376 Leute haben es durchsucht

Mit der rasanten Entwicklung und Anwendung von Großmodellen wird die Bedeutung der Einbettung, die die zentrale Grundkomponente von Großmodellen darstellt, immer wichtiger. Das vor einem Monat von der Zhiyuan Company veröffentlichte, im Handel erhältliche Open-Source-Semantikvektormodell BGE (BAAI General Embedding) für Chinesisch und Englisch hat in der Community große Aufmerksamkeit erregt und wurde Hunderttausende Male auf der Hugging Face-Plattform heruntergeladen. Derzeit hat BGE die Version 1.5 in rasantem Tempo herausgebracht und mehrere Updates angekündigt. Darunter hat BGE zum ersten Mal 300 Millionen groß angelegte Trainingsdaten als Open Source bereitgestellt, um der Community Hilfe beim Training ähnlicher Modelle zu bieten und die Entwicklung der Technologie in diesem Bereich zu fördern

Link zum MTP-Datensatz: https://data.baai.ac.cn/details/BAAI-MTP
BGE-Modell-Link: https://huggingface.co/BAAI
BGE-Code-Repository: https://www.php .cn/link/8944871f1c9865a77a3d9c92cadf124d

300 Millionen chinesische und englische Vektormodell-Trainingsdaten geöffnet

Die ersten semantischen Vektormodell-Trainingsdaten der Open-Source-Branche haben erreicht Millionen Chinesen und englische Daten

Die Exzellenz von BGE. Seine Fähigkeiten basieren größtenteils auf seinen umfangreichen, vielfältigen Trainingsdaten. Zuvor hatten Branchenkollegen selten ähnliche Datensätze veröffentlicht. In diesem Update stellt Zhiyuan der Community erstmals BGE-Trainingsdaten zur Verfügung und legt damit den Grundstein für die weitere Entwicklung dieser Art von Technologie.

Der dieses Mal veröffentlichte Datensatz MTP besteht aus insgesamt 300 Millionen chinesischen und englischen Textpaaren. Darunter befinden sich 100 Millionen Datensätze auf Chinesisch und 200 Millionen Datensätze auf Englisch. Zu den Datenquellen gehören Wudao Corpora, Pile, DuReader, Sentence Transformer und andere Korpora. Erhalten nach notwendiger Probenahme, Extraktion und Reinigung

Weitere Informationen finden Sie im Data Hub: https://data.baai.ac.cn

MTP ist der größte Open-Source-Datensatz für chinesisch-englische Textpaare Bis heute bietet es eine wichtige Grundlage für das Training chinesischer und englischer semantischer Vektormodelle.

Als Reaktion auf die Entwickler-Community, BGE-Funktions-Upgrade

Basierend auf Community-Feedback wurde BGE basierend auf seiner Version 1.0 weiter optimiert, um seine Leistung stabiler und herausragender zu machen. Der spezifische Upgrade-Inhalt lautet wie folgt:

Modellaktualisierung. BGE-*-zh-v1.5 lindert das Problem der Ähnlichkeitsverteilung, indem es die Trainingsdaten filtert, Daten von geringer Qualität löscht und den Temperaturkoeffizienten während des Trainings auf 0,02 erhöht, wodurch der Ähnlichkeitswert stabiler wird.
Neues Modell hinzugefügt. Das Open-Source-Cross-Encoder-Modell BGE-reranker kann relevanten Text genauer finden und unterstützt die Zweisprachigkeit von Chinesisch und Englisch. Anders als das Vektormodell, das Vektoren ausgeben muss, gibt BGE-Reranker direkt Ähnlichkeiten zwischen Textpaaren aus und weist eine höhere Rangfolgegenauigkeit auf. Es kann verwendet werden, um Vektorabrufergebnisse neu zu ordnen und die Relevanz der Endergebnisse zu verbessern.
Neue Funktionen. BGE1.1 fügt dem Feinabstimmungscode ein Schwer-zu-Negativ-Beispiel-Mining-Skript hinzu, das den Abrufeffekt effektiv verbessern kann Das Speichern wird auch automatisch in das Satztransformatorformat konvertiert, was das Laden des Modells erleichtert.

Erwähnenswert ist, dass Zhiyuan und Hugging Face kürzlich einen technischen Bericht veröffentlicht haben, in dem vorgeschlagen wird, C-Pack zur Verbesserung des chinesischen universellen semantischen Vektormodells zu verwenden. „C-Pack: Packaged Resources To Advance General Chinese Embedding“ BGE hat seit seiner Veröffentlichung die Aufmerksamkeit einer großen Modellentwickler-Community auf sich gezogen. Derzeit wurde Hugging Face hunderttausende Male heruntergeladen und von bekannten Open-Source-Projekten wie LangChain, LangChain-Chachat, integriert und verwendet. llama_index usw.

Langchain-Beamte, LangChain-Mitbegründer und CEO Harrison Chase, Deep-Trading-Gründer Yam Peleg und andere Community-Influencer äußerten ihre Besorgnis über BGE.

Das Zhiyuan-Entwicklungssystem für große Modelltechnologien, FlagOpen BGE, hält an Open Source und Offenheit fest und fördert kollaborative Innovationen. Es hat einen neuen FlagEmbedding-Bereich hinzugefügt, der sich auf Embedding-Technologie und -Modelle konzentriert. FlagOpen setzt sich für den Aufbau einer Technologieinfrastruktur für künstliche Intelligenz im Zeitalter großer Modelle ein und wird auch in Zukunft umfassendere Full-Stack-Technologien für große Modelle für Wissenschaft und Industrie zugänglich machen

Das obige ist der detaillierte Inhalt vonZhiyuan hat 300 Millionen Trainingsdaten für semantische Vektormodelle geöffnet und das BGE-Modell wird weiterhin iterativ aktualisiert.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!