昨日、誰かが Weibo で質問をしたのを見ました: 100 万のユーザー名の中から、機械によって自動的に作成されたユーザー名を見つけてみてください。
実際、これは比較的単純なスパム対策方法です。
ユーザー名ごとに Google または Baidu を検索して、インターネット アクセスの痕跡がないか確認するという人もいます。これが信頼できるかどうかは別として、質問者は明らかにソーシャルエンジニアリングではなくアルゴリズムの観点からこの問題を解決したかったので、忘れてください。
私は、100 万のユーザー名を単語に分割し、これらの 100 万のユーザー名に各単語が出現する回数、つまり単語の頻度をカウントすることを考え始めました。次に、単語の頻度に従って逆順に並べ替え、上位 n を取得します。次に、100 万件のユーザー名の中から上位 n 位に含まれる単語を見つけます。これらはおそらく機械によって作成されたものです。
しかし、後にこれを行うのは非科学的であり、多数の通常のユーザー名を誤って削除する可能性がありました。どの時代にもいくつかのホットワードが出現するため、多くの人はこれらのホットワードをユーザー名の一部として使用することを好みます。または、ほとんどの人が使用する可能性のある古典的な単語。
なので、何かホットなワードを見つけるには人間が関わっていかないといけないのかなと思っています。上位 n 件のホットワードを除外します。そうでなければ、この方法はまったく良くありません。
皆さんの考えを見て、一緒に議論したいと思います。この提案では、ユーザー名のみを処理でき、ユーザーのコメントや登録日は処理できないことに注意してください。
-----解決策--------- 1.マシンによって自動的に作成されるユーザー名の大部分は、ユーザーが送信した登録情報で構成されています。シーケンス記号
の接頭辞もあります
2. 最も簡単な方法は、同じプレフィックスを持つユーザー名を確認することです
利用可能なデータが手元にある場合は、アルゴリズムを調べることができます。残念ながら
-----解決策はありません--------------------- 私も注意してみます笑、初心者なのでよくわかりませんが。
------解決策---------
引用: 1. 過去の登録経験から判断すると、機械によって自動的に作成されるユーザー名は、ほとんどがユーザーが送信した登録情報で構成されています。シーケンス記号 の接頭辞もあります
2. 最も簡単な方法は、同じプレフィックスを持つユーザー名を確認することです
利用可能なデータが手元にある場合は、アルゴリズムを調べることができます。残念ながら
はありません
csdn ユーザー ライブラリを試してみてください。 。 。そのライブラリは今でも 100M 個手元にあります。 。 。 。
現時点で私がより信頼できると思うのは、特定の文字と数字であり、その数字はずっと下にあります。
-----解決策-------------------------------- もし私が機械だったら、略語を使う代わりに、英語、日本語、韓国語、マレー語を使います。偽造品を検出するためのこれほど大規模なデータベースはありますか?
したがって、自分自身を守る最善の方法は確認コードです。
------解決策--------- このアルゴリズムには解決策がありません...
ci169
ci1699
ci16999
ci169999
ci1699999
上記の CSDN アカウントと同様に、マシン登録によって計算できるアカウントはどれですか?
------解決策----- なぜホットはマシンとみなされますか?
------解決策----- 興味深い質問ですが、空き LAMP スペースはありますか?コピーをアップロードして、みんなに壊してもらいましょう。
'tom'.substr(str_shuffle("abcdefghijklmnopqrstuvwxyz"), 0, 4); ログイン後にコピー
-----解決策-------------------------------- ベイズ分類は正しい方法でのみ使用する必要があり、元のデータをどのように整理するかが問題です
不確実な要素が多い場合にアルゴリズムについて軽率に言及するのは適切ではない
最初に weka (Java データ マイニング ソフトウェア) を使用して検出を行うことをお勧めします
------解決策------ -- 人が登録するユーザー名には、覚えやすいように特定のロジックが必要です。また、機械による自動登録の必要はありません。
パスワードを解読する方法を使用して、辞書をふるいに使用して最初にふるいにかけることはできると思います。
質問は、できるだけ多くのことを調べてくださいと言っているだけです。
実際、たとえユーザー名が紛らわしい文字で並べ替えられていたとしても、それが機械によって登録されたものであるかどうかはわかりません。
ユーザーのログイン行動や登録間隔などの補助情報がなければ、この方法は本当に意味がないと思います。