PHP中国語単語の分割とキーワードを自動取得する方法

WBOY
リリース: 2016-07-25 09:10:20
オリジナル
1013 人が閲覧しました
  1. header("Content-Type:text/html; charset=utf-8");
  2. define('APP_ROOT', str_replace('\', '/', dirname(__FILE__) ));
  3. $test = '中文测试代码!';
  4. function get_tags_arr($title)
  5. {
  6. require(APP_ROOT.'/pscws4.class.php');
  7. $pscws = new PSCWS4();
  8. $pscws ->set_dict(APP_ROOT.'/scws/dict.utf8.xdb');
  9. $pscws->set_rule(APP_ROOT.'/scws/rules.utf8.ini');
  10. $pscws->set_ignore(true );
  11. $pscws->send_text($title);
  12. $words = $pscws->get_tops(5);
  13. $tags = array();
  14. foreach ($words as $val) {
  15. $tags[ ] = $val['word'];
  16. }
  17. $pscws->close();
  18. return $tags;
  19. }
  20. print_r(get_tags_arr($test));
  21. //=------ -------------------------
  22. function get_keywords_str($content){
  23. require(APP_ROOT.'/phpanalysis.class.php');
  24. PhpAnaracy ::$loadInit = false;
  25. $pa = new PhpAnalysis('utf-8', 'utf-8', false);
  26. $pa->LoadDict();
  27. $pa->SetSource($content) ;
  28. $pa->StartAnalysis( false );
  29. $tags = $pa->GetFinallyResult();
  30. return $tags;
  31. }
  32. print(get_keywords_str($test));
复制代

SCWS – 简易中文分词系统

SCWS は、概念上、新しい要素はなく、自家採取による音声词典が採用されており、ある程度の名前、人名、地名、数字時代等を含む规集があり、小范围赋试大概确率は 90% です。 SCWS は、主要なプラットフォーム環境である Unix ライクの OS で、標準的な C コードを採用して、さまざまなツールの組み込みを容易にする共有関数を提供します。さらに、GBK、UTF-8、BIG5 などの文字コードをサポートしており、カット効率が高くなります。

系统平台:Windows/Unix 公開语言:C 使用方法:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php 开源官网:http://www.ftphp.com/scws/

注: PHP の拡張として、既存の PHP アーキテクチャに基づいた Web システムを簡単に継続できることが非常に優れています。

PhpanAracy - PHP无组件分词系统 PhpanAracy 分注システムは、文字列一致に基づいた分注メソッドであり、この方法はまた実行される機械的分注メソッドであり、一定の戦略に基づいて分析対象の文字列を「十分な」コンピューターの書典に割り当てられます。教科書内で特定の文字列に到達すると、一致は成功します(1 つの文字列が表示されます)。最大(最長)のマッチングと最小(最小)のマッチングのいずれかで、個別の注釈プロセスと統合されたプロセスに分けることができます。

系统平台:PHP環境

开公開语言:PHP

使用方法:HTTPサービス务

演示网址:http://www.itgrass.com/phpanalysis/ 开源官网:http://www.itgrass.com/phpanalysis/

注: 非常にシンプルで使いやすく、いくつかの単純なアプリケーションを実行できますが、大量のデータの計算効率は以前のものではありません。 実験では基本的な機能に問題はありませんが、一部の実験にいくつかの違いがあります。実験の性質に関しては、システムに違いがあります。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート
私たちについて 免責事項 Sitemap
PHP中国語ウェブサイト:福祉オンライン PHP トレーニング,PHP 学習者の迅速な成長を支援します!