Baidu の検索ピンイン関連付け機能の一般原則は何ですか?

WBOY
リリース: 2016-06-13 12:56:49
オリジナル
1776 人が閲覧しました

Baidu の検索ピンイン関連付け機能の一般原則は何ですか?
百度で、以下に広州と入力すると、広州と広州のニュースが表示されます。 Baidu がいくつかの人気のあるキーワードをリストし、検索時にこれらのキーワードのピンインを記憶するフィールドを使用しているのではないかと思います。この表を調べてください。ピンインの場合はピンインタグ列とあいまい一致します。試合終了後に結果を返却します。これらは私の想像にすぎませんが、キーワードの重み付けメカニズムがあるようです。 Google で関連情報が見つかりません。思いついたことを実現する他の方法はありますか?英雄たちを助けてください、ありがとう!


-----解決策--------------------------------
少し前に会社の検索部門と話をしました。たくさん連絡を取り、検索エンジンがどのように機能するかの一般原則を理解しました。

検索エンジンには多くの単語リストがあります:

ストップワードリスト、意味リスト、類義語リスト、漢字ピンイン単語リスト、サジェスト。

検索エンジンに中国語のフレーズを入力すると、検索エンジンはまず単語の分割を実行し、次に上記の語彙リストでこれらの単語を検索して、関連情報があるかどうかを確認します。おっしゃるとおり、ピンイン中国語の単語リストを調べてみます。 guangzhou = 広州に遭遇すると、自動的に翻訳されます。その場合は広州を優先して探します。
間違った単語を入力すると、検索エンジンの提案によって修正され、「xxx をお探しですか?
」というメッセージが表示されることがあります。
実際、上記は、検索エンジンが検索リクエストを処理する方法の 1 つの分岐にすぎません。検索では、多数のリクエストが並行して実行されます。
たとえば、検索エンジンに短い文を入力するとします。

検索エンジンはまず何を検索するかを決定します:
1 文全体
2 標準的な単語分割 (中国語の文法に従った単語分割として理解できます)
3 自然な単語分割 (単一文字、スペース、句読点に基づく単語分割)
...

次に、表をブランチごとに分割し、上記の補助語リストを使用して検索する内容を最適化します。
複数の分岐が同時に要求され、複数の結果セットが取得されます。
次のステップは、ランキングの問題を扱うことです。一般に、文全体の検索によって得られた結果が最も関連性が高いため、重みも最も高く、最初にランク付けされる必要があります。しかし実際には、検索エンジンは、検索したいコンテンツのプロモーションの位置やより公式な結果も考慮する場合があります (たとえば、nginx を検索した場合、nginx の公式 Web サイトが最初にランクされる必要があります)。あるいはBaiduのBaiduプロモーションでは、前面に配置される可能性があります。

実際、並べ替えのロジックは非常に複雑です。それは「カーブ」と呼ばれるいくつかの次元に沿ってランキングを決定します。各次元のパラメータを調整すると、ソート結果に影響を与えます。


関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート