コミュニティ学ぶツールライブラリレジャー

日本語

ホームページ > バックエンド開発 > PHPチュートリアル > mysql - php根据相似度查找重复数据怎么实现？

mysql - php根据相似度查找重复数据怎么实现？

WBOY

リリース： 2016-06-06 20:10:32

オリジナル

1137 人が閲覧しました

有一个具有几千条数据的表，数据库用的mysql，想寻找一个算法根据数据的相似度查找重复的数据，并将其罗列出来，有能提供方法或思路的兄弟们欢迎来凑，先谢过了！

回复内容：

有一个具有几千条数据的表，数据库用的mysql，想寻找一个算法根据数据的相似度查找重复的数据，并将其罗列出来，有能提供方法或思路的兄弟们欢迎来凑，先谢过了！

1.首先，题主应该选一个相似度的计算维度，比如content字段，type字段等；
2.其次，题主考虑一下各个字段的权重，比如type字段必须相同，则让type字段使用typeWeight（例如赋值0.8）作为乘积的因子，而content字段本身是比较长的，所以需要计算出一个hash值，比如使用md5计算出一个32位hash值，然后把这个hash值按照16进制计算得到10进制数，再给一个权重contentWeight（例如0.2），另外再选取一个字段，比如description描述字段，再给一个权重descriptionWeight...
3.最后得到一个当前插入到表中的记录综合hash，typeWeight(contentHashcontentWeight+descriptionHash*descriptionWeight +...),可能会涉及到大整数计算，不过PHP有BCMATH扩展可以使用，最终得到一个数值的综合hash值，保存到数据库的一个字段中，这个东西就可以理解为本条记录的特征值。

看你的需求,方法还是挺多而来,比如说2个字符串的距离,如汉明距离。

関連ラベル：

mysql nginx php sublime-text

ソース：php.cn

前の記事：php框架 - php的命名空间使用是否省去了include和require的作用次の記事：css - php 生成的word文件怎么把图片显示出来并且样式正确？

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

NullPointerException とは何ですか?どのように修正すればよいですか?

2024-10-22 09:46:29
初心者からプログラマーへ: 旅は C の基礎から始まります

2024-10-13 13:53:41
PHP による Web 開発のロックを解除する: 初心者ガイド

2024-10-12 12:15:51
C の謎を解く: 新人プログラマーのための明確でシンプルな道

2024-10-11 22:47:31
コーディングの可能性を解き放つ: まったくの初心者のための C プログラミング

2024-10-11 19:36:51
内なるプログラマーを解き放つ: まったくの初心者のための C

2024-10-11 15:50:41
C で生活を自動化する: 初心者向けのスクリプトとツール

2024-10-11 15:07:41
PHP を簡単に: Web 開発の最初のステップ

2024-10-11 14:21:21
Python で何でも構築: 創造性を解き放つための初心者ガイド

2024-10-11 12:59:11
コーディングの鍵: 初心者のための Python の力を解き放つ

2024-10-11 12:17:31

最新の問題

URL パラメータから取得した PHP 配列が期待どおりに動作しないカテゴリ ID を含む URL パラメータがあり、それを次のような配列として扱いたいと考えています: http://example.com?cat[]=3,9,13 PHP では、...

から 2024-04-06 22:09:02

0

1

1428

ApacheのどこにCustomLogディレクティブを配置すればよいですか私はphp:7.2-apachedockerを使用しています。ヘルスチェック URL ログインアクセスログを無効にする必要があります。このリンクに基づいて、Customlog ...

から 2024-04-06 22:03:59

0

1

990

戻り値の変数の形式は何ですか? 私はphpの初心者です。コードを見つけました: if($x<time()){return[false,'error'];} ロジックや変数は重要ではありませんが、[false...

から 2024-04-06 21:55:20

0

1

778

opentbs を使用して odt ファイルを生成するときに発生する問題: 同じキーの値が別の列ではなく同じ行に表示されます。 PHPでodtを作成するためにOpenTbsというライブラリを使っていますが、列と行が動的に生成されるので利用しています。行と列の作成方法は知っていますが、それらを整理する方法がわ...

から 2024-04-06 20:18:18

0

1

483

ループするために MySQL の結果を ID ごとにグループ化する mysqlにフライトデータを含むテーブルがあります。 codeigniter3Journey_idair_idFlightDurationout_or_inflightdurati...

から 2024-04-06 17:27:56

0

1

406

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート