PHP汉语高速分词的原理和源码 -php教程-PHP中文网

/ 注册

php开发
前端

HTML| CSS| JavaScript| Vue.js

后端

PHP| ThinkPHP| Laravel| MySQL| Redis
最新推荐

php8，我来也

84669人学习

细说PHP(2021版)第一季

65727人学习

TP6.0 搭建个人博客实战（玉女心经版）

82984人学习

2018前端入门_HTML5

467778人学习
大前端
原生基础

HTML| CSS| HTML5| CSS3| JavaScript

框架开发

jQuery| Vue.js| React| AngularJS| Node.js| BootStrap| AJAX| Foundation
最新推荐

JavaScript极速入门_玉女心经系列

498837人学习

独孤九贱(1)_HTML5视频教程

471966人学习

CSS视频教程-玉女心经版

256484人学习

30分钟学会网站布局

152542人学习
后端开发
编程语言

PHP| Python| Go| Java| C| C++| C#| VBSscript| Scala| Lua| Perl| Ruby| JSP| XML| ASP

框架/工具

ThinkPHP| Laravel| Servlet| Django| ASP.NET
最新推荐

Thinkphp6.0正式版视频教程

224170人学习

php8，我来也

84669人学习

PHP实战天龙八部之微信支付视频教程

139536人学习

CI框架30分钟极速入门

81804人学习
数据库
基础入门

MySQL| SQL Server

进阶学习

MongoDB| Oracle| Redis| Memcached
最新推荐

MySQL权威开发指南（教程）

85022人学习

Redis基础视频课程

11944人学习

尚观Oracle入门到精通视频教程

20001人学习

PDO操作极速入门,今天你用了吗？

60816人学习
移动端
原生开发

Android| iOS

多端开发

Swift| Flutter| uni-app| 小程序| 其他
最新推荐

你的第一行UNI-APP代码

5487人学习

Uniapp简爱读书项目开发--第一季

15007人学习

公益直播：Uniapp微信小程序1:1仿饿了么首页

2150人学习

Flutter从零到APP上架

6980人学习
运维开发
环境使用

Linux| Docker

工具使用

PhpStudy| Git| 其他工具
最新推荐

phpStudy V8 视频教程

194925人学习

兄弟连新版Linux视频教程

359900人学习

Git教程(60分钟全程无废话版)

1142人学习

vscode其实很简单

19058人学习
UI设计
UI设计

Axure| PS
最新推荐

AXURE 9视频教程(适合产品经理交互产品设计 UI)

3206人学习

零基础精通 PS 视频教程

180550人学习

16天带你入门UI视频教程

48569人学习

PS技法与切片技术视频教程

17603人学习
计算机基础
类库分类

HTTP| TCP/IP| 编程基础
最新推荐

阿里云环境搭建以及项目上线视频教程

40936人学习

计算机网络概述—程序员必须掌握的基础知识

1049人学习

程序员入门必备教程—HTTP协议详解

750人学习

Websocket视频教程

32909人学习

首页 > 后端开发 > php教程 > 正文

PHP汉语高速分词的原理和源码

php中文网

发布： 2016-06-13 12:35:19

原创

530人浏览过

PHP中文高速分词的原理和源码

一、正向最大匹配算法和反向最大匹配算法的缺点

正向最大匹配算法：从左到右将待分词文本中的几个连续字符与词表匹配，如果匹配上，则切分出一个词。但这里有一个问题：要做到最大匹配，并不是第一次匹配到就可以切分的。举个例子：中华人民共和国今天成立了。从左到右扫描，要分别检索：中，中华，中华人，中华人民，中华人民共，中华人民共和，中华人民共和国今，今，今天，今天成，成，成立，成立了，了。14 次检索词库，最后的切分结果：中华人民共和国/今天/成立了。所以，当遇到长词时，要反复检索多次数据库，效率非常差。还有，一个更严重的问题是：词的最大长度是有限制的，为了兼顾算法的效率，不可能将最大词长定的非常大，这就会导致更长的词汇不能正确切分。

反之，反向最大匹配算法，则会将长词分开，造成错误切分。比如，上面的待切分文本，从右向左扫描，要分别检索：了，立了，立，成立，天成立，天，今天，今天国，国，和国，共和国，民共和国，民，人民，华人民，华，中华。17 词查询数据库，最后切分结果：中华/人民/共和国/今天/成立/了。将中华人民共和国切分成了3 个词。

二、克服最大匹配算法的缺点的算法

为了克服最大匹配算法的低效和不能切分长词，将所有的能组成词汇的汉字，建立索引，作为词的首字母。然后将每个汉字开头的词汇，分成一类，按词长排序。词库结构如下：

分词时，由汉字找到该字开头的词组（长度3000左右的线性检索），然后按由长到短5，4，3，2的顺序检索词库，和待分词语句对比（线性），如果有匹配，则切分为一个词，然后继续匹配下一个词。通过这种方式，大大提高了检索词库效率，解决了任意长词汇匹配问题。

在PHP算法的实现上，为了加快在线匹配速度，上面的词库结构，用PHP的联想数组的形式实现，全部加载到内存。为了灵活增删词库，做了个字符串处理程序，自动生成PHP联想数组结构的词库。详细实现算法，见PHP源码。

PHP分词源码下载：http://www.box.net/shared/gryspzppsb

相关标签：

PHP gryspzppsb shared http 3000

来源：php中文网

上一篇：理解$val = !empty($_GET[$str]) ? $_GET[$str] : null;解决方案下一篇： php 加密狗的调用方法,该怎么处理

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

PHP中的遗传算法实现步骤

2023-07-07 12:04:02
显示git文件夹隐藏文件

2023-05-17 11:37:07
如何用Java反编译字节码文件？

2023-04-22 14:40:08
java代码块的执行顺序实例分析

2023-04-18 12:07:03
毫末智行CEO顾维灏：城市场景中MANA面临的六大挑战与全新升级

2023-04-14 11:58:02
利用人工智能解决石油和天然气排放挑战

2023-04-08 17:51:01
PHP怎么统计字符串中指定字符出现的次数

2023-04-04 13:42:01
人工智能如何为数据中心团队带来新的日常工作

2023-03-31 20:38:31
2023年值得关注的技术趋势

2023-03-31 20:38:29
PHP中多态的两个实现重载与覆盖

2023-03-29 20:34:01

最新问题

如何在Laravel中从数据库中调用特定数据并添加到我的消息中如何在返回信息中包含特定数据的名称？UserController：public function process(Request $request) { $validated =...

P粉111227898来自于2023-08-06 20:00:44

0

1

244

Translate PHP脚本以读取CSV文件并返回echo多次我已经编写了一个用于读取CSV文件并根据时间和日期在网站上发布结果的广播节目表PHP脚本。然而，它似乎会发布两次。以下是脚本内容：

P粉127901279来自于2023-08-06 19:24:52

0

1

244

PHP DateTime::modify 方法可以用来添加和减去月份。我最近在大量使用DateTime类，并且最近遇到了一个我认为是添加月份时的错误。经过一些研究，发现这实际上并不是一个错误，而是按预期工作的。根据我在这里找到的文档，示例#2警告在添...

P粉046387133来自于2023-08-06 18:43:52

0

2

257

如何解决"ddev start"时出现的"unknown flag: --progress"错误？我正在尝试使用ddev启动我的Drupal 9网站，但是出现了错误：未知标志：--progress。当我输入"ddev version"时的结果如下：项...

P粉216807924来自于2023-08-06 18:12:28

0

1

224

如何在laravel中安装包？我已经创建了一个Laravel项目，现在我正在尝试使用composer require naoray/laravel-package-maker --dev 安装一个包，但是在安装...

P粉002546490来自于2023-08-06 17:49:16

0

1

180

我想在我的模板中包含一个头部的blade文件，但是我一直收到一个“未定义变量$slot”的错误提示。我目前在使用Laravel的Blade模板时遇到了一个问题。我已经成功创建了一个模板文件，并在不同的页面中进行了扩展。然而，当我尝试在子Blade模板中包含头部和底部时，我遇到了“...

P粉596161915来自于2023-08-06 17:23:03

0

1

259

如何在Mac上创建phar文件？我想将我的文件夹打包成phar文件，命令是phar pack -f result.phar /Users/me/FolderToPack/，但是在Mac上出现以下错误：创建phar...

P粉593649715来自于2023-08-06 16:52:19

0

1

191

PHP cURL：读取特定的响应头信息我在PHP中使用cURL进行POST请求，向一个创建资源的终端发送数据。它返回一个带有Location头部的201响应，该头部给出了创建的资源的URL。我还在响应的正文中获取了一些...

P粉395056196来自于2023-08-06 16:06:37

0

1

152

按换行符将字符串拆分成多行。我有一个带有换行符的字符串。我想将该字符串转换为一个数组，并且对于每个换行符，在数组中跳过一个索引位置。如果字符串是：Mytext1 Mytext2 Mytext3，我想要的结果是...

P粉014293738来自于2023-08-06 16:02:16

0

2

237

条件多态调用的PHP文档对于$item，存在一个多态的可记录关系。在数据库中，这被存储在items表中的loggable_type和loggable_id字段中（适用于PHP 8+和Laravel）。对于...

P粉127901279来自于2023-08-06 15:31:19

0

1

262

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明意见反馈讲师合作广告合作技术文章: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

PHP中文网抖音号: 发现有趣的

Copyright 2014-2023 //m.sbmmt.com/ All Rights Reserved | 苏州跃动光标网络科技有限公司 | 苏ICP备2020058653号-1

| 本站CDN由数掘科技提供

登录PHP中文网，和优秀的人一起学习！

全站2000+教程免费学

精品班

立即咨询

微信沟通

QQ群

优惠券

返回顶部