Wie kann man mit MySQL + ES + MongoDB kompatibel sein, um ein tiefes Paging von Hunderten Millionen Daten zu erreichen?-PHP-Tutorial-php.cn

Heim

Backend-Entwicklung

PHP-Tutorial

Wie kann man mit MySQL + ES + MongoDB kompatibel sein, um ein tiefes Paging von Hunderten Millionen Daten zu erreichen?

Guanhui

Jul 27, 2020 pm 05:24 PM

mysql

Interviewfragen & echte Erfahrungen

Interviewfrage: Wie erreicht man Deep Paging, wenn die Datenmenge groß ist?

Die oben genannten Fragen können bei Vorstellungsgesprächen oder bei der Vorbereitung auf Vorstellungsgespräche auftreten. Bei den meisten Antworten geht es grundsätzlich darum, Datenbanken und Tabellen zu unterteilen, um Indizes zu erstellen, aber die Realität ist immer so Schwer, daher wird der Interviewer Sie normalerweise fragen: Wie können wir jetzt, da die Bauzeit nicht ausreicht und das Personal nicht ausreicht, ein tiefes Paging erreichen?

Studenten, die keine praktische Erfahrung haben, sind derzeit grundsätzlich taub. Hören Sie mir also bitte zu.

Eine schmerzhafte Lektion

Zunächst einmal muss klar sein: Deep Paging ist möglich, aber Tiefe ist zufällig. Seitensprünge müssen unbedingt verboten werden.

Vorheriges Bild:

Wie kann man mit MySQL + ES + MongoDB kompatibel sein, um ein tiefes Paging von Hunderten Millionen Daten zu erreichen?

Ratet mal, wenn ich auf Seite 142360 klicke, wird der Dienst dann explodieren?

Wie MySQL ist die MongoDB-Datenbank an sich in Ordnung. Sie wird nicht gut verarbeitet und ist bestenfalls langsam. Wenn es sich jedoch um ES handelt, ist die Natur eine andere Das Abrufen von Daten in einer Schleife ist mit dem Problem der Speichernutzung verbunden. Wenn der Code nicht elegant geschrieben ist, kann dies direkt zu einem Speicherüberlauf führen.

Warum Seitensprünge mit zufälliger Tiefe nicht zulässig sind

Lassen Sie uns darüber sprechen, warum Seitensprünge mit zufälliger Tiefe aus technischer Sicht nicht zulässig sind, oder warum Wird Deep Paging nicht empfohlen?

MySQL

Das Grundprinzip des Paging:

SELECT * FROM test ORDER BY id DESC LIMIT 10000, 20;

LIMIT 10000, 20 bedeutet, dass 10020 Zeilen gescannt werden, die die Bedingungen erfüllen und sie wegwerfen. Die ersten 10.000 Zeilen löschen und die letzten 20 Zeilen zurückgeben. Wenn es LIMIT 1000000 ist, müssen 100, 1000100 Zeilen gescannt werden. In einer hochgradig gleichzeitigen Anwendung muss jede Abfrage mehr als 100 W Zeilen scannen. Es wäre seltsam, wenn sie nicht explodiert.

MongoDB

Grundprinzip des Pagings:

db.t_data.find().limit(5).skip(5);

In ähnlicher Weise werden mit zunehmender Seitenzahl auch die durch Skip übersprungenen Elemente größer , und dieser Vorgang wird über den Iterator des Cursors implementiert. Wenn die Seitenzahl sehr groß und häufig ist, wird sie unweigerlich explodieren.

ElasticSearch

Aus geschäftlicher Sicht handelt es sich bei ElasticSearch nicht um eine typische Datenbank, sondern um eine Suchmaschine. Wenn die gewünschten Daten unter den Filterbedingungen nicht gefunden werden Wenn Sie mit dem Deep-Paging fortfahren, werden die gewünschten Daten nicht gefunden. Wenn wir ES als Datenbank für die Abfrage verwenden, werden wir beim Paging definitiv auf das Limit von max_result_window stoßen Die Offset-Grenze beträgt zehntausend.

Abfrageprozess:

Wenn Sie beispielsweise Seite 501 mit 10 Elementen pro Seite abfragen, sendet der Client eine Anfrage an einen Knoten
Dieser Knoten sendet Daten an jeden Shard, und jeder Shard fragt die ersten 5010 Daten ab
Die Abfrageergebnisse werden an den Knoten zurückgegeben, und dann werden die Daten zurückgegeben integriert und die ersten 5010 Daten werden herausgenommen
Zurück zum Client

Daraus können wir erkennen, warum der Offset begrenzt werden sollte Wenn Sie außerdem eine Bildlaufmethode wie die Deep-Page-Jump-Abfrage der Search After API verwenden, kann es erforderlich sein, insgesamt Millionen oder Dutzende von Daten zu scrollen, allein für die letzten 20 Die Effizienz kann man sich vorstellen.

Nehmen Sie erneut Kontakt mit dem Produkt auf

Wie das Sprichwort sagt: Wenn Technologie Probleme nicht lösen kann, lassen Sie sie vom Unternehmen lösen!

Während meines Praktikums glaubte ich an das Böse des Produkts und musste Deep Paging + Page Jumps implementieren. Jetzt muss ich das Chaos korrigieren und die folgenden Änderungen im Geschäft vornehmen:

Standardfilterung hinzufügen Bedingungen so weit wie möglich. Zum Beispiel: Zeitraum, der Zweck besteht darin, die Menge der angezeigten Daten zu reduzieren

Ändern Sie die Anzeigemethode für Seitensprünge, ändern Sie sie in eine scrollende Anzeige oder springen Sie in einem kleinen Bereich zu Seiten

Referenzbild für scrollende Anzeige:

Wie kann man mit MySQL + ES + MongoDB kompatibel sein, um ein tiefes Paging von Hunderten Millionen Daten zu erreichen?

Referenzbild für Seitensprünge im kleinen Maßstab:

Wie kann man mit MySQL + ES + MongoDB kompatibel sein, um ein tiefes Paging von Hunderten Millionen Daten zu erreichen?

Allgemeine Lösung

Die schnelle Lösung in kurzer Zeit besteht hauptsächlich aus folgenden Punkten:

Unverzichtbar: Zum Sortieren von Feldern und Filtern Stellen Sie unter bestimmten Bedingungen sicher, dass Sie den Index festlegen
Kern: Verwenden Sie bekannte Daten für Seitenzahlen mit kleinem Bereich oder bekannte Daten für das Scrollen, um Offsets zu reduzieren
Extra: Wenn Sie auf eine schwierig zu handhabende Situation stoßen, können Sie auch überschüssige Daten abrufen und bestimmte Abfangvorgänge durchführen, ohne dass die Auswirkungen auf die Leistung erheblich sind

MySQL

Original-Paging-SQL:

# 第一页
SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit 0, 20;
# 第N页
SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit (N - 1) * 20, 20;

Durch Kontext neu geschrieben als:

# XXXX 代表已知的数据
SELECT * FROM `year_score` where `year` = 2017 and id > XXXX ORDER BY id limit 20;

在没内鬼，来点干货！SQL优化和诊断一文中提到过，LIMIT会在满足条件下停止查询，因此该方案的扫描总量会急剧减少，效率提升Max！

方案和MySQL相同，此时我们就可以随用所欲的使用 FROM-TO Api，而且不用考虑最大限制的问题。

MongoDB

方案基本类似，基本代码如下：

Wie kann man mit MySQL + ES + MongoDB kompatibel sein, um ein tiefes Paging von Hunderten Millionen Daten zu erreichen?

Heiße KI -Werkzeuge

Undress AI Tool

Ausziehbilder kostenlos

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Rimworld Odyssey -Temperaturführer für Schiffe und Gravtech

1 Monate vor By Jack chen

Rimworld odyssey wie man fischt

1 Monate vor By Jack chen

Kann ich zwei Alipay -Konten haben?

1 Monate vor By 下次还敢

Anfängerleitfaden zu Rimworld: Odyssey

1 Monate vor By Jack chen

Variabler PHP -Bereich erklärt

3 Wochen vor By 百草

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Laravel-Tutorial

1603

PHP-Tutorial

1506

276

Related knowledge

So setzen Sie Umgebungsvariablen in der PHP -Umgebung Beschreibung des Hinzufügens von PHP -Ausführungsumgebungsvariablen Jul 25, 2025 pm 08:33 PM

Es gibt drei Hauptmethoden, um Umgebungsvariablen in PHP festzulegen: 1. Globale Konfiguration über php.ini; 2. durch einen Webserver (z. B. SetEnv von Apache oder FastCGI_Param von Nginx); 3. Verwenden Sie die Funktion Putenv () in PHP -Skripten. Unter ihnen eignet sich Php.ini für globale und selten ändernde Konfigurationen. Die Webserverkonfiguration eignet sich für Szenarien, die isoliert werden müssen, und Putenv () ist für temporäre Variablen geeignet. Die Persistenz -Richtlinien umfassen Konfigurationsdateien (z. B. Php.ini oder Webserverkonfiguration), .env -Dateien werden mit der DOTENV -Bibliothek und dynamische Injektion von Variablen in CI/CD -Prozessen geladen. Sicherheitsmanagement sensible Informationen sollten hart codiert werden, und es wird empfohlen.

So erstellen Sie mit PHP einen Online -Kundendienstroboter. PHP Intelligente Kundendienst -Implementierungstechnologie Jul 25, 2025 pm 06:57 PM

PHP spielt die Rolle des Connector- und Brain Center im intelligenten Kundendienst, der für die Verbindung von Front-End-Eingaben, Datenbankspeicher und externen KI-Diensten verantwortlich ist. 2. Bei der Implementierung ist es notwendig, eine mehrschichtige Architektur zu erstellen: Das Front-End empfängt Benutzernachrichten, die PHP-Back-End-Vorverarbeitete und Routes-Anfragen, stimmt zunächst mit der lokalen Wissensbasis überein und verpasst sie, rufen Sie externe KI-Dienste wie OpenAI oder Dialogflow an, um intelligente Antwort zu erhalten. 3. Die Sitzungsverwaltung wird von PHP an MySQL und andere Datenbanken geschrieben, um die Kontext -Kontinuität zu gewährleisten. 4. Integrierte KI -Dienste müssen mit Guzzle HTTP -Anfragen senden, APIKEYs sicher speichern und eine gute Aufgabe der Fehlerbehandlung und -antwortanalyse durchführen. 5. Datenbankdesign muss Sitzungen, Nachrichten, Wissensbasis und Benutzertabellen enthalten, vernünftigerweise Indizes erstellen, Sicherheit und Leistung sicherstellen und Roboterspeicher unterstützen

Wie mache ich PHP -Container -Unterstützung automatisch? Kontinuierlich integrierte CI -Konfigurationsmethode der PHP -Umgebung Jul 25, 2025 pm 08:54 PM

Um PHP -Container zur Unterstützung der automatischen Konstruktion zu ermöglichen, liegt der Kern in der Konfiguration des Continuous Integration (CI) -Prozesses. 1. Verwenden Sie Dockerfile, um die PHP -Umgebung zu definieren, einschließlich grundlegender Bild-, Erweiterungsinstallations-, Abhängigkeitsmanagement- und Berechtigungseinstellungen. 2. Konfigurieren Sie CI/CD-Tools wie GitLabci und definieren Sie die Erstell-, Test- und Bereitstellungsstadien über die Datei .gitlab-ci.yml, um automatische Konstruktion, Test und Bereitstellung zu erreichen. 3.. Integrieren Sie Testframeworks wie Phpunit, um sicherzustellen, dass die Tests automatisch nach Codeänderungen ausgeführt werden. 4. Verwenden Sie automatisierte Bereitstellungsstrategien wie Kubernetes, um die Bereitstellungskonfiguration durch die Datei bereitzustellen. 5. Dockerfile optimieren und mehrstufige Konstruktionen übernehmen

So erstellen Sie eine unabhängige Umgebung von PHP -Task Container. So konfigurieren Sie den Container zum Ausführen von PHP -Timed -Skripten Jul 25, 2025 pm 07:27 PM

Der Aufbau einer unabhängigen Umgebung für PHP -Aufgabencontainer kann über Docker implementiert werden. Die spezifischen Schritte sind wie folgt: 1. Installieren Sie Docker und DockerComponpose als Grundlage; 2. Erstellen Sie ein unabhängiges Verzeichnis, um Dockerfile und Crontab -Dateien zu speichern. 3. Schreiben Sie Dockerfile, um die PHPCLI -Umgebung zu definieren und Cron und die erforderlichen Erweiterungen zu installieren. 4. Schreiben Sie eine Crontab -Datei, um Zeitaufgaben zu definieren. 5. Schreiben Sie ein Docker-compose.yml-Mount-Skriptverzeichnis und konfigurieren Sie Umgebungsvariablen. 6. Starten Sie den Container und überprüfen Sie das Protokoll. Im Vergleich zu Timing -Aufgaben in Webcontainern haben unabhängige Container die Vorteile der Ressourcenisolation, der reinen Umgebung, der starken Stabilität und einer einfachen Expansion. Gewährleistung der Protokollierung und Fehleraufnahme

So erstellen Sie ein Protokollverwaltungssystem mit PHP -PHP -Protokollsammlung und Analyse -Tool Jul 25, 2025 pm 08:48 PM

Wählen Sie die Protokollierungsmethode aus: In der frühen Phase können Sie den integrierten Fehler () für PHP verwenden. Wechseln Sie nach der Erweiterung des Projekts auf reife Bibliotheken wie Monolog, unterstützen Sie mehrere Handler und Protokollebenen und stellen Sie sicher, dass das Protokoll Zeitstempel, Ebenen, Dateizeilennummern und Fehlerdetails enthält. 2. Entwurfsstruktur: Eine kleine Menge an Protokollen kann in Dateien gespeichert werden. Wenn eine große Anzahl von Protokollen vorhanden ist, wählen Sie eine Datenbank, wenn eine große Anzahl von Analysen vorhanden ist. Verwenden Sie MySQL/Postgresql zu strukturierten Daten. Elasticsearch Kibana wird für semi-strukturierte/unstrukturierte empfohlen. Gleichzeitig wird es für Backup- und regelmäßige Reinigungsstrategien formuliert. 3. Entwicklungs- und Analyseschnittstelle: Sie sollten Such-, Filter-, Aggregations- und Visualisierungsfunktionen haben. Es kann direkt in Kibana integriert werden oder die PHP-Framework-Diagrammbibliothek zur Entwicklung der Selbstentwicklung verwenden und sich auf die Einfachheit und einfache Schnittstelle konzentrieren.

Erweiterte bedingte Abfrage und Filterung von relationalen Daten in MySQL/Laravel Jul 25, 2025 pm 08:39 PM

In diesem Artikel soll untersucht werden, wie Eloquentorm verwendet wird, um eine erweiterte bedingte Abfrage und Filterung der zugehörigen Daten im Laravel -Framework durchzuführen, um die Notwendigkeit zu lösen, die "bedingte Verbindung" in Datenbankbeziehungen zu implementieren. In dem Artikel wird die tatsächliche Rolle von Fremdschlüssel in MySQL klargestellt und ausführlich erklärt, wie Sie spezifische Anschlüsse anwenden können, wenn Klauseln auf das vorinstallierte Assoziationsmodell durch eloquent mit Methode in Kombination mit Schließfunktionen in Kombination mit Schließfunktionen, um relevante Daten herauszufiltern, die den Bedingungen erfüllen und die Genauigkeit der Datenübertragung verbessern.

Optimierung von MySQL für die Finanzdatenspeicherung Jul 27, 2025 am 02:06 AM

MySQL muss für Finanzsysteme optimiert werden: 1. Finanzdaten müssen verwendet werden, um die Genauigkeit mit dem Dezimalart zu gewährleisten, und DateTime wird in Zeitfeldern verwendet, um Zeitzonenprobleme zu vermeiden. 2. Indexdesign sollte angemessen sein, häufig Aktualisierungen von Feldern zum Erstellen von Indizes vermeiden, Indizes in Abfragereihenfolge kombinieren und nutzlose Indizes regelmäßig reinigen. 3.. Verwenden Sie Transaktionen, um Konsistenz zu gewährleisten, Transaktionsgranularität zu kontrollieren, lange Transaktionen und in IT eingebettete Nicht-Kern-Operationen zu vermeiden und die entsprechenden Isolationsniveaus basierend auf dem Unternehmen auszuwählen. 4. Historische Daten nach Zeit partitionieren, Kaltdaten archivieren und komprimierte Tabellen verwenden, um die Abfrageeffizienz zu verbessern und den Speicher zu optimieren.

MySQL-Datenbank Kosten-Nutzen-Analyse für die Cloud-Migration Jul 26, 2025 am 03:32 AM

Ob MySQL es wert ist, in die Cloud zu gehen, hängt vom spezifischen Nutzungsszenario ab. Wenn Ihr Unternehmen schnell eingeführt werden muss, erweitern Sie elastisch und vereinfachen Sie den Betrieb und die Wartung und können ein Pay-as-you-Go-Modell akzeptieren, dann ist es wert, in die Cloud zu wechseln. Wenn Ihre Datenbank jedoch lange Zeit, latenzempfindliche oder Compliance-Beschränkungen stabil ist, ist sie möglicherweise nicht kostengünstig. Zu den Schlüssel zur Steuerung der Kosten gehören die Auswahl des richtigen Anbieters und des richtigen Pakets, die Konfiguration von Ressourcen, die Verwendung reservierter Instanzen, das Verwalten von Sicherungsprotokollen und die Optimierung der Abfrageleistung.

See all articles