2 500 pages de documents algorithmiques ont été divulguées ! La boîte noire la plus puissante de l'historique de recherche est exposée, Google va-t-il être renversé et mis à niveau à nouveau ?-IA-php.cn

Écrit par Noah

Produit | 51CTO Technology Stack (WeChat ID : blog51cto)

Google traverse une mauvaise année.

Au cours des deux derniers jours, la fonctionnalité « Aperçus IA » du moteur de recherche a fréquemment fourni des informations de résultats de recherche très inexactes, par exemple, suggérant de manière absurde que les utilisateurs utilisent de la colle pour empêcher le fromage de glisser de la pizza. À cet égard, le PDG Pichai a également dû admettre que cela était dû à l'illusion du grand modèle linguistique, et qu'il n'y a actuellement aucune solution.

Un document interne du moteur de recherche Google a récemment été divulgué, ce qui pourrait montrer pour la première fois au public le mécanisme de fonctionnement du moteur de recherche Google. Cet article a été publié pour la première fois ici. Google n'a pas encore publié de réponse officielle à la fuite et n'a pas contesté l'authenticité des documents.

Les détails de la façon dont Google, le moteur de recherche le plus célèbre sur Internet aujourd'hui, classe les sites Web ont longtemps été un mystère. Cette exposition offre une nouvelle perspective, nous permettant d'avoir un aperçu du système d'algorithme de recherche hautement confidentiel de Google et de la manière dont son mécanisme de fonctionnement complète les déclarations publiques précédentes de Google.

1.2500 pages de documents divulgués

L'algorithme de recherche de Google est peut-être le système le plus influent sur Internet. Il détermine la survie des sites Web et la présentation du contenu en ligne. Cependant, les détails spécifiques de la façon dont Google classe les sites Web ont toujours été une « boîte noire ». Bien qu'il y ait eu diverses spéculations de la part des médias, des chercheurs et des personnes engagées dans l'optimisation des moteurs de recherche, ce ne sont que des aveugles qui tentent de comprendre l'éléphant. . Nous ne voyons jamais le puzzle complet.

Or, selon le média étranger The Verge, cette fuite explosive semble avoir dévoilé pour la première fois le mystère derrière la fonction de recherche, et suggère que Google n'a pas été complètement honnête sur son fonctionnement depuis de nombreuses années. Google n'a jusqu'à présent pas répondu aux multiples demandes de commentaires sur l'authenticité des documents.

Rand Fishkin, qui travaille dans le référencement depuis plus de dix ans, est le protagoniste de cet incident. Il a révélé qu'une source avait partagé avec lui 2 500 pages de documents dans l'espoir de révéler les « mensonges » externes de Google sur le fonctionnement de son algorithme de recherche.

Selon Fishkin, ces documents décrivent l'API de recherche de Google et détaillent le contenu des informations fournies aux employés. Les détails partagés par Fishkin sont complexes et techniques, et peuvent être plus faciles à comprendre pour les développeurs et les experts SEO que pour la personne moyenne.

Les fuites en elles-mêmes ne prouvent pas nécessairement que Google utilise des données et des signaux spécifiques pour les classements de recherche. Au lieu de cela, les documents divulgués décrivent les données que Google collecte à partir des pages Web, des sites et des chercheurs, et fournissent indirectement aux experts en référencement des indices sur l'orientation de Google.

2. Contredit les déclarations publiques de Google

Comme l'a écrit l'expert SEO Mike King dans son aperçu des documents, les documents divulgués abordent plusieurs sujets, tels que les types de données que Google collecte et utilise, et le ciblage par Google de questions sensibles telles que Les sujets abordés incluent la manière d'augmenter l'autorité de certains sites Web, la manière dont Google gère les petits sites Web, etc.

Plus inquiétant encore, selon Fishkin et Mike King, certaines informations contenues dans le document semblent contredire les déclarations publiques de Google.

"C'est peut-être trop grave de dire 'mentir', mais dans ce cas, c'est le mot le plus approprié", a exprimé Mike King : "Je comprends les efforts des relations publiques de Google pour protéger les secrets de l'entreprise, Mais ce que je ne peux pas accepter, c'est qu'ils dénigrent ceux qui, dans les domaines du marketing, de la technologie et du journalisme, trouvent et soulèvent des questions. Google n'a pas encore répondu aux demandes de commentaires de The Verge concernant les documents. réfuter l'authenticité des documents. Fishkin a déclaré dans un e-mail à The Verge que Google ne contestait pas l'authenticité de la fuite, mais qu'un employé lui avait demandé de modifier certains termes de son message concernant un incident.

L'algorithme de recherche secret de Google a donné naissance à une industrie de spécialistes du marketing qui suivent les directives publiques de Google et mettent en pratique des stratégies de référencement pour des millions d'entreprises à travers le monde. Cependant, ces méthodes largement utilisées ont progressivement donné l'impression aux gens que les résultats de recherche de Google se détériorent et regorgent d'informations de spam.

Les opérateurs de sites Web se sentent obligés de produire ce type de contenu afin de faire voir leurs sites. Mais face à de tels doutes, le porte-parole externe de Google aura toujours une rhétorique familière : nos directives ne l'indiquent pas.

Mais certains détails contenus dans les documents divulgués jettent le doute sur l’exactitude des déclarations publiques de Google sur le fonctionnement de sa fonction de recherche.

Un exemple cité par Fishkin et Mike King est de savoir si Google utilise les données Chrome dans les classements. Les représentants de Google ont déclaré à plusieurs reprises que les données Chrome ne sont pas utilisées pour classer les pages, mais Chrome est spécifiquement mentionné dans une section sur la façon dont les sites apparaissent dans les recherches.

Photo

2 500 pages de documents algorithmiques ont été divulguées ! La boîte noire la plus puissante de lhistorique de recherche est exposée, Google va-t-il être renversé et mis à niveau à nouveau ? Dans la capture d'écran ci-dessus, selon les documents, le lien qui apparaît sous l'URL principale de vogue.com peut avoir été créé à l'aide de données Chrome.

Un autre sujet de préoccupation est le rôle que joue l'E-A-T (Expertise, Authority and Trustworthiness) dans les classements. Comme nous le savons tous, EAT est la pierre angulaire des directives d’évaluation de la qualité des recherches de Google depuis de nombreuses années.

Les représentants de Google ont déjà déclaré que EAT n'est pas un facteur de classement. Fishkin a noté qu'il n'avait pas trouvé beaucoup de références directes à EAT dans les documents.

De plus, les représentants de Google ont déjà insisté sur le fait que l'attribution est quelque chose que les propriétaires de sites Web devraient faire pour les lecteurs, et non pour Google, car elle n'affecte pas les classements. Mais cela ne semble pas être le cas.

Mike King a expliqué comment Google collecte les données d'auteur des pages et a souligné qu'il existe un champ dans le fichier utilisé pour identifier si une entité est un auteur. Bien que ce champ soit principalement conçu pour les articles d'actualité, il couvre également d'autres. comme les articles scientifiques. Bien que cela ne confirme pas que l'attribution est un facteur de classement explicite, cela suggère que Google suit au moins cet attribut de près.

3. Innovation en matière d'algorithmes de recherche, l'écosystème Internet a « changé » depuis

Bien que ces documents ne constituent pas une preuve concluante, ils offrent une perspective approfondie et non filtrée, nous permettant de jeter un coup d'œil sur ce système de boîte noire hautement confidentiel. .

En fait, au cours des deux dernières années, la recherche Google a connu une série de mises à jour majeures, dont certaines sont même des mises à jour disruptives sans précédent. Par exemple, évoquée au début de cet article, la très critiquée fonction « AI Overview » est l’une des innovations les plus représentatives.

Au début du changement, Pichai, le leader de Google, a déclaré qu'à l'avenir, la recherche Google fournirait des réponses IA auto-générées à beaucoup de vos questions, et a exprimé sa grande confiance dans cette fonction du produit.

Un porte-parole de Google a déclaré à la BBC que la société ne déploierait les modifications de recherche qu'après des tests rigoureux pour confirmer que les modifications bénéficieront aux utilisateurs et que la société fournit aux propriétaires de sites Web de l'aide, des ressources et des commentaires sur leur opportunité de classement de recherche.

Mais la réalité s'écarte toujours de l'idéal.

Qu'il s'agisse de "l'hallucination fatale" concernant la fonction de vue d'ensemble de l'IA ou des informations "incohérentes" véhiculées dans ce document présumé divulgué, cela éveille la suspicion et la vigilance des gens à l'égard de la recherche Google.

En regardant toute l'histoire du développement d'Internet, aucune entreprise comme Google n'a non seulement changé la façon dont la plupart des personnes figurant sur cette étoile bleue obtiennent des informations, mais a également remodelé le modèle de création et de distribution de contenu.

Prenons comme exemple la recherche générative basée sur l'IA. Google semble viser à utiliser ces innovations technologiques pour connecter les utilisateurs et les informations plus efficacement et améliorer la qualité globale de l'expérience de recherche.

Mais en fait, comme le disent les critiques, ce changement pourrait exacerber l’homogénéité de l’information et réduire la profondeur et l’étendue de l’exploration du Web par les utilisateurs, car ils s’appuient de plus en plus sur des réponses courtes fournies directement par Google plutôt qu’en personne. Visitez la source site web. Cela peut non seulement affaiblir la visibilité et le modèle de profit des sites Web et des blogs indépendants, mais également affecter la santé et la diversité de l’écosystème en ligne, limitant les possibilités pour les utilisateurs d’être exposés à des points de vue divers et à des analyses approfondies.

Pour les acteurs de la recherche aussi puissants que Google, comment garantir que l'optimisation des algorithmes de recherche peut non seulement servir le public mais ne pas détruire les pierres angulaires écologiques qui contribuent au contenu de haute qualité sur Internet peut être la clé du développement à long terme.