


Wie kann man mit MySQL + ES + MongoDB kompatibel sein, um ein tiefes Paging von Hunderten Millionen Daten zu erreichen?
Interviewfragen & echte Erfahrungen
Interviewfrage: Wie erreicht man Deep Paging, wenn die Datenmenge groß ist?
Die oben genannten Fragen können bei Vorstellungsgesprächen oder bei der Vorbereitung auf Vorstellungsgespräche auftreten. Bei den meisten Antworten geht es grundsätzlich darum, Datenbanken und Tabellen zu unterteilen, um Indizes zu erstellen, aber die Realität ist immer so Schwer, daher wird der Interviewer Sie normalerweise fragen: Wie können wir jetzt, da die Bauzeit nicht ausreicht und das Personal nicht ausreicht, ein tiefes Paging erreichen?
Studenten, die keine praktische Erfahrung haben, sind derzeit grundsätzlich taub. Hören Sie mir also bitte zu.
Eine schmerzhafte Lektion
Zunächst einmal muss klar sein: Deep Paging ist möglich, aber Tiefe ist zufällig. Seitensprünge müssen unbedingt verboten werden.
Vorheriges Bild:
Ratet mal, wenn ich auf Seite 142360 klicke, wird der Dienst dann explodieren?
Wie MySQL ist die MongoDB-Datenbank an sich in Ordnung. Sie wird nicht gut verarbeitet und ist bestenfalls langsam. Wenn es sich jedoch um ES handelt, ist die Natur eine andere Das Abrufen von Daten in einer Schleife ist mit dem Problem der Speichernutzung verbunden. Wenn der Code nicht elegant geschrieben ist, kann dies direkt zu einem Speicherüberlauf führen.
Warum Seitensprünge mit zufälliger Tiefe nicht zulässig sind
Lassen Sie uns darüber sprechen, warum Seitensprünge mit zufälliger Tiefe aus technischer Sicht nicht zulässig sind, oder warum Wird Deep Paging nicht empfohlen?
MySQL
Das Grundprinzip des Paging:
SELECT * FROM test ORDER BY id DESC LIMIT 10000, 20;
LIMIT 10000, 20 bedeutet, dass 10020 Zeilen gescannt werden, die die Bedingungen erfüllen und sie wegwerfen. Die ersten 10.000 Zeilen löschen und die letzten 20 Zeilen zurückgeben. Wenn es LIMIT 1000000 ist, müssen 100, 1000100 Zeilen gescannt werden. In einer hochgradig gleichzeitigen Anwendung muss jede Abfrage mehr als 100 W Zeilen scannen. Es wäre seltsam, wenn sie nicht explodiert.
MongoDB
Grundprinzip des Pagings:
db.t_data.find().limit(5).skip(5);
In ähnlicher Weise werden mit zunehmender Seitenzahl auch die durch Skip übersprungenen Elemente größer , und dieser Vorgang wird über den Iterator des Cursors implementiert. Wenn die Seitenzahl sehr groß und häufig ist, wird sie unweigerlich explodieren.
ElasticSearch
Aus geschäftlicher Sicht handelt es sich bei ElasticSearch nicht um eine typische Datenbank, sondern um eine Suchmaschine. Wenn die gewünschten Daten unter den Filterbedingungen nicht gefunden werden Wenn Sie mit dem Deep-Paging fortfahren, werden die gewünschten Daten nicht gefunden. Wenn wir ES als Datenbank für die Abfrage verwenden, werden wir beim Paging definitiv auf das Limit von max_result_window stoßen Die Offset-Grenze beträgt zehntausend.
Abfrageprozess:
Wenn Sie beispielsweise Seite 501 mit 10 Elementen pro Seite abfragen, sendet der Client eine Anfrage an einen Knoten
Dieser Knoten sendet Daten an jeden Shard, und jeder Shard fragt die ersten 5010 Daten ab
Die Abfrageergebnisse werden an den Knoten zurückgegeben, und dann werden die Daten zurückgegeben integriert und die ersten 5010 Daten werden herausgenommen
Zurück zum Client
Daraus können wir erkennen, warum der Offset begrenzt werden sollte Wenn Sie außerdem eine Bildlaufmethode wie die Deep-Page-Jump-Abfrage der Search After API verwenden, kann es erforderlich sein, insgesamt Millionen oder Dutzende von Daten zu scrollen, allein für die letzten 20 Die Effizienz kann man sich vorstellen.
Nehmen Sie erneut Kontakt mit dem Produkt auf
Wie das Sprichwort sagt: Wenn Technologie Probleme nicht lösen kann, lassen Sie sie vom Unternehmen lösen!
Während meines Praktikums glaubte ich an das Böse des Produkts und musste Deep Paging + Page Jumps implementieren. Jetzt muss ich das Chaos korrigieren und die folgenden Änderungen im Geschäft vornehmen:
Standardfilterung hinzufügen Bedingungen so weit wie möglich. Zum Beispiel: Zeitraum, der Zweck besteht darin, die Menge der angezeigten Daten zu reduzieren
Ändern Sie die Anzeigemethode für Seitensprünge, ändern Sie sie in eine scrollende Anzeige oder springen Sie in einem kleinen Bereich zu Seiten
Referenzbild für scrollende Anzeige:
Referenzbild für Seitensprünge im kleinen Maßstab:
Allgemeine Lösung
Die schnelle Lösung in kurzer Zeit besteht hauptsächlich aus folgenden Punkten:
Unverzichtbar: Zum Sortieren von Feldern und Filtern Stellen Sie unter bestimmten Bedingungen sicher, dass Sie den Index festlegen
Kern: Verwenden Sie bekannte Daten für Seitenzahlen mit kleinem Bereich oder bekannte Daten für das Scrollen, um Offsets zu reduzieren
-
Extra: Wenn Sie auf eine schwierig zu handhabende Situation stoßen, können Sie auch überschüssige Daten abrufen und bestimmte Abfangvorgänge durchführen, ohne dass die Auswirkungen auf die Leistung erheblich sind
MySQL
Original-Paging-SQL:
# 第一页 SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit 0, 20; # 第N页 SELECT * FROM `year_score` where `year` = 2017 ORDER BY id limit (N - 1) * 20, 20;
Durch Kontext neu geschrieben als:
# XXXX 代表已知的数据 SELECT * FROM `year_score` where `year` = 2017 and id > XXXX ORDER BY id limit 20;
在 没内鬼,来点干货!SQL优化和诊断 一文中提到过,LIMIT会在满足条件下停止查询,因此该方案的扫描总量会急剧减少,效率提升Max!
ES
方案和MySQL相同,此时我们就可以随用所欲的使用 FROM-TO Api,而且不用考虑最大限制的问题。
MongoDB
方案基本类似,基本代码如下:
相关性能测试:
如果非要深度随机跳页
如果你没有杠过产品经理,又该怎么办呢,没关系,还有一丝丝的机会。
在 SQL优化 一文中还提到过MySQL深度分页的处理技巧,代码如下:
# 反例(耗时129.570s) select * from task_result LIMIT 20000000, 10; # 正例(耗时5.114s) SELECT a.* FROM task_result a, (select id from task_result LIMIT 20000000, 10) b where a.id = b.id; # 说明 # task_result表为生产环境的一个表,总数据量为3400万,id为主键,偏移量达到2000万
该方案的核心逻辑即基于聚簇索引,在不通过回表的情况下,快速拿到指定偏移量数据的主键ID,然后利用聚簇索引进行回表查询,此时总量仅为10条,效率很高。
因此我们在处理MySQL,ES,MongoDB时,也可以采用一样的办法:
限制获取的字段,只通过筛选条件,深度分页获取主键ID
通过主键ID定向查询需要的数据
瑕疵:当偏移量非常大时,耗时较长,如文中的 5s
推荐教程:《MySQL教程》
文章来源:https://juejin.im/post/5f0de4d06fb9a07e8a19a641
Das obige ist der detaillierte Inhalt vonWie kann man mit MySQL + ES + MongoDB kompatibel sein, um ein tiefes Paging von Hunderten Millionen Daten zu erreichen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undress AI Tool
Ausziehbilder kostenlos

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Es gibt drei Hauptmethoden, um Umgebungsvariablen in PHP festzulegen: 1. Globale Konfiguration über php.ini; 2. durch einen Webserver (z. B. SetEnv von Apache oder FastCGI_Param von Nginx); 3. Verwenden Sie die Funktion Putenv () in PHP -Skripten. Unter ihnen eignet sich Php.ini für globale und selten ändernde Konfigurationen. Die Webserverkonfiguration eignet sich für Szenarien, die isoliert werden müssen, und Putenv () ist für temporäre Variablen geeignet. Die Persistenz -Richtlinien umfassen Konfigurationsdateien (z. B. Php.ini oder Webserverkonfiguration), .env -Dateien werden mit der DOTENV -Bibliothek und dynamische Injektion von Variablen in CI/CD -Prozessen geladen. Sicherheitsmanagement sensible Informationen sollten hart codiert werden, und es wird empfohlen.

PHP spielt die Rolle des Connector- und Brain Center im intelligenten Kundendienst, der für die Verbindung von Front-End-Eingaben, Datenbankspeicher und externen KI-Diensten verantwortlich ist. 2. Bei der Implementierung ist es notwendig, eine mehrschichtige Architektur zu erstellen: Das Front-End empfängt Benutzernachrichten, die PHP-Back-End-Vorverarbeitete und Routes-Anfragen, stimmt zunächst mit der lokalen Wissensbasis überein und verpasst sie, rufen Sie externe KI-Dienste wie OpenAI oder Dialogflow an, um intelligente Antwort zu erhalten. 3. Die Sitzungsverwaltung wird von PHP an MySQL und andere Datenbanken geschrieben, um die Kontext -Kontinuität zu gewährleisten. 4. Integrierte KI -Dienste müssen mit Guzzle HTTP -Anfragen senden, APIKEYs sicher speichern und eine gute Aufgabe der Fehlerbehandlung und -antwortanalyse durchführen. 5. Datenbankdesign muss Sitzungen, Nachrichten, Wissensbasis und Benutzertabellen enthalten, vernünftigerweise Indizes erstellen, Sicherheit und Leistung sicherstellen und Roboterspeicher unterstützen

Um PHP -Container zur Unterstützung der automatischen Konstruktion zu ermöglichen, liegt der Kern in der Konfiguration des Continuous Integration (CI) -Prozesses. 1. Verwenden Sie Dockerfile, um die PHP -Umgebung zu definieren, einschließlich grundlegender Bild-, Erweiterungsinstallations-, Abhängigkeitsmanagement- und Berechtigungseinstellungen. 2. Konfigurieren Sie CI/CD-Tools wie GitLabci und definieren Sie die Erstell-, Test- und Bereitstellungsstadien über die Datei .gitlab-ci.yml, um automatische Konstruktion, Test und Bereitstellung zu erreichen. 3.. Integrieren Sie Testframeworks wie Phpunit, um sicherzustellen, dass die Tests automatisch nach Codeänderungen ausgeführt werden. 4. Verwenden Sie automatisierte Bereitstellungsstrategien wie Kubernetes, um die Bereitstellungskonfiguration durch die Datei bereitzustellen. 5. Dockerfile optimieren und mehrstufige Konstruktionen übernehmen

Der Aufbau einer unabhängigen Umgebung für PHP -Aufgabencontainer kann über Docker implementiert werden. Die spezifischen Schritte sind wie folgt: 1. Installieren Sie Docker und DockerComponpose als Grundlage; 2. Erstellen Sie ein unabhängiges Verzeichnis, um Dockerfile und Crontab -Dateien zu speichern. 3. Schreiben Sie Dockerfile, um die PHPCLI -Umgebung zu definieren und Cron und die erforderlichen Erweiterungen zu installieren. 4. Schreiben Sie eine Crontab -Datei, um Zeitaufgaben zu definieren. 5. Schreiben Sie ein Docker-compose.yml-Mount-Skriptverzeichnis und konfigurieren Sie Umgebungsvariablen. 6. Starten Sie den Container und überprüfen Sie das Protokoll. Im Vergleich zu Timing -Aufgaben in Webcontainern haben unabhängige Container die Vorteile der Ressourcenisolation, der reinen Umgebung, der starken Stabilität und einer einfachen Expansion. Gewährleistung der Protokollierung und Fehleraufnahme

Wählen Sie die Protokollierungsmethode aus: In der frühen Phase können Sie den integrierten Fehler () für PHP verwenden. Wechseln Sie nach der Erweiterung des Projekts auf reife Bibliotheken wie Monolog, unterstützen Sie mehrere Handler und Protokollebenen und stellen Sie sicher, dass das Protokoll Zeitstempel, Ebenen, Dateizeilennummern und Fehlerdetails enthält. 2. Entwurfsstruktur: Eine kleine Menge an Protokollen kann in Dateien gespeichert werden. Wenn eine große Anzahl von Protokollen vorhanden ist, wählen Sie eine Datenbank, wenn eine große Anzahl von Analysen vorhanden ist. Verwenden Sie MySQL/Postgresql zu strukturierten Daten. Elasticsearch Kibana wird für semi-strukturierte/unstrukturierte empfohlen. Gleichzeitig wird es für Backup- und regelmäßige Reinigungsstrategien formuliert. 3. Entwicklungs- und Analyseschnittstelle: Sie sollten Such-, Filter-, Aggregations- und Visualisierungsfunktionen haben. Es kann direkt in Kibana integriert werden oder die PHP-Framework-Diagrammbibliothek zur Entwicklung der Selbstentwicklung verwenden und sich auf die Einfachheit und einfache Schnittstelle konzentrieren.

In diesem Artikel soll untersucht werden, wie Eloquentorm verwendet wird, um eine erweiterte bedingte Abfrage und Filterung der zugehörigen Daten im Laravel -Framework durchzuführen, um die Notwendigkeit zu lösen, die "bedingte Verbindung" in Datenbankbeziehungen zu implementieren. In dem Artikel wird die tatsächliche Rolle von Fremdschlüssel in MySQL klargestellt und ausführlich erklärt, wie Sie spezifische Anschlüsse anwenden können, wenn Klauseln auf das vorinstallierte Assoziationsmodell durch eloquent mit Methode in Kombination mit Schließfunktionen in Kombination mit Schließfunktionen, um relevante Daten herauszufiltern, die den Bedingungen erfüllen und die Genauigkeit der Datenübertragung verbessern.

MySQL muss für Finanzsysteme optimiert werden: 1. Finanzdaten müssen verwendet werden, um die Genauigkeit mit dem Dezimalart zu gewährleisten, und DateTime wird in Zeitfeldern verwendet, um Zeitzonenprobleme zu vermeiden. 2. Indexdesign sollte angemessen sein, häufig Aktualisierungen von Feldern zum Erstellen von Indizes vermeiden, Indizes in Abfragereihenfolge kombinieren und nutzlose Indizes regelmäßig reinigen. 3.. Verwenden Sie Transaktionen, um Konsistenz zu gewährleisten, Transaktionsgranularität zu kontrollieren, lange Transaktionen und in IT eingebettete Nicht-Kern-Operationen zu vermeiden und die entsprechenden Isolationsniveaus basierend auf dem Unternehmen auszuwählen. 4. Historische Daten nach Zeit partitionieren, Kaltdaten archivieren und komprimierte Tabellen verwenden, um die Abfrageeffizienz zu verbessern und den Speicher zu optimieren.

Ob MySQL es wert ist, in die Cloud zu gehen, hängt vom spezifischen Nutzungsszenario ab. Wenn Ihr Unternehmen schnell eingeführt werden muss, erweitern Sie elastisch und vereinfachen Sie den Betrieb und die Wartung und können ein Pay-as-you-Go-Modell akzeptieren, dann ist es wert, in die Cloud zu wechseln. Wenn Ihre Datenbank jedoch lange Zeit, latenzempfindliche oder Compliance-Beschränkungen stabil ist, ist sie möglicherweise nicht kostengünstig. Zu den Schlüssel zur Steuerung der Kosten gehören die Auswahl des richtigen Anbieters und des richtigen Pakets, die Konfiguration von Ressourcen, die Verwendung reservierter Instanzen, das Verwalten von Sicherungsprotokollen und die Optimierung der Abfrageleistung.
