PHP如何實現機器學習之樸素貝葉斯演算法-php教程-PHP中文網

本文主要介紹了PHP實現機器學習之樸素貝葉斯演算法,結合實例形式詳細分析了樸素貝葉斯演算法的概念、原理及php實現技巧,需要的朋友可以參考下，希望能幫助到大家。

本文實例講述了PHP實作機器學習之樸素貝葉斯演算法。分享給大家供大家參考，具體如下：

機器學習已經在我們的生活中變得隨處可見了。例如從你在家的時候溫控器開始工作到智慧型汽車以及我們口袋中的智慧型手機。機器學習看起來已經無所不在並且是一個非常值得探索的領域。但是什麼是機器學習呢？通常來說，機器學習就是讓系統持續的學習並且對新的問題進行預測。從簡單的預測購物商品到複雜的數位助理預測。

在這篇文章我將會使用樸素貝葉斯演算法Clasifier作為一個類別來介紹。這是一個簡單易於實施的演算法，並且可給出滿意的結果。但是這個演算法是需要一點統計的知識去理解的。在文章的最後部分你可以看到一些實例程式碼，甚至自己去嘗試自己做你的機器學習。

開始

那麼，這個Classifier是要用來實現什麼功能呢？其實它主要是用來判斷給定的語句是積極地還是消極的。例如，「Symfony is the best」是一個正面的語句，「No Symfony is bad」是一個負面的語句。所以在給定了一個語句之後，我想讓這個Classifier在我不給定一個新的規則的情況就回傳一個語句類型。

我為Classifier命名了一個相同名稱的類，並且包含一個guess方法。這個方法接受一個語句的輸入，並且會回傳這個語句是正面的還是負面的。這個類別就像下面這樣：

class Classifier
{
 public function guess($statement)
 {}
}

登入後複製

我更喜歡使用枚舉類型的類別而不是字串作為我的回傳值。我將這個枚舉類型的類別命名為Type，並且包含兩個常數：一個POSITIVE,一個NEGATIVE。這兩個常數將會當做guess方法的回傳值。

class Type
{
 const POSITIVE = &#39;positive&#39;;
 const NEGATIVE = &#39;negative&#39;;
}

登入後複製

初始化工作已經完成，接下來就是要寫我們的演算法進行預測了。

樸素貝葉斯

樸素貝葉斯演算法是基於一個訓練集合工作的，根據這個訓練集從而做出相應的預測。這個演算法運用了簡單的統計學以及一點數學去進行結果的計算。例如像下面四個文字組成的訓練集合：

# #Symfony 是最好的#PhpStorm 很棒##Iltar 抱怨很多

##語句	類型
	#正
	積極
	負片
##沒有Symfony 不好	＃＃＃消極的＃＃＃＃＃＃＃＃＃＃如果给定语句是“Symfony is the best”，那么你可以说这个语句是积极地。你平常也会根据之前学习到的相应知识做出对应的决定，朴素贝叶斯算法也是同样的道理：它根据之前的训练集来决定哪一个类型更加相近。学习在这个算法正式工作之前，它需要大量的历史信息作为训练集。它需要知道两件事：每一个类型对应的词产生了多少次和每一个语句对应的类型是什么。我们在实施的时候会将这两种信息存储在两个数组当中。一个数组包含每一类型的词语统计，另一个数组包含每一个类型的语句统计。所有的其他信息都可以从这两个数组中聚合。代码就像下面的一样： function learn($statement, $type) { $words = $this->getWords($statement); foreach ($words as $word) { if (!isset($this->words[$type][$word])) { $this->words[$type][$word] = 0; } $this->words[$type][$word]++; // 增加类型的词语统计 } $this->documents[$type]++; // 增加类型的语句统计 } 登入後複製有了这个集合以后，现在这个算法就可以根据历史数据接受预测训练了。定义为了解释这个算法是如何工作的，几个定义是必要的。首先，让我们定义一下输入的语句是给定类型中的一个的概率。这个将会表示为P（Type）。它是以已知类型的数据的类型作为分子，还有整个训练集的数据数量作为分母来得出的。一个数据就是整个训练集中的一个。到现在为止，这个方法可以将会命名为totalP，像下面这样： function totalP($type) { return ($this->documents[$type] + 1) / (array_sum($this->documents) + 1); } 登入後複製请注意，在这里分子和分母都加了1。这是为了避免分子和分母都为0的情况。根据上面的训练集的例子，积极和消极的类型都会得出0.6的概率。每中类型的数据都是2个，一共是4个数据所以就是（2+1）/（4+1）。第二个要定义的是对于给定的一个词是属于哪个确定类型的概率。这个我们定义成P(word,Type)。首先我们要得到一个词在训练集中给出确定类型出现的次数，然后用这个结果来除以整个给定类型数据的词数。这个方法我们定义为p： function p($word, $type) { $count = isset($this->words[$type][$word]) ? $this->words[$type][$word] : 0; return ($count + 1) / (array_sum($this->words[$type]) + 1); } 登入後複製在本次的训练集中，“is”的是积极类型的概率为0.375。这个词在整个积极的数据中的7个词中占了两次，所以结果就是（2+1）/（7+1）。最后，这个算法应该只关心关键词而忽略其他的因素。一个简单的方法就是将给定的字符串中的单词分离出来： function getWords($string) { return preg_split('/\s+/', preg_replace('/[^A-Za-z0-9\s]/', '', strtolower($string))); } 登入後複製准备工作都做好了，开始真正实施我们的计划吧！预测为了预测语句的类型，这个算法应该计算所给定语句的两个类型的概率。像上面一样，我们定义一个P（Type,sentence）。得出概率高的类型将会是Classifier类中算法返回的结果。为了计算P（Type,sentence）,算法当中将用到贝叶斯定理。算法像这样被定义：P（Type,sentence）= P（Type）* P（sentence,Type）/ P（sentence）。这意味着给定语句的类型概率和给定类型语句概率除以语句的概率的结果是相同的。那么算法在计算每一个相同语句的P（Tyoe,sentence），P（sentence）是保持一样的。这意味着算法就可以省略其他因素，我们只需要关心最高的概率而不是实际的值。计算就像这样：P（Type,sentence） = P（Type）* P（sentence,Type）。最后，为了计算P（sentence,Type），我们可以为语句中的每个词添加一条链式规则。所以在一条语句中如果有n个词的话，它将会和P（word_1,Type）* P（word_2,Type）* P（word_3,Type）* .....P（word_n,Type）是一样的。每一个词计算结果的概率使用了我们前面看到的定义。好了，所有的都说完了，是时候在php中实际操作一下了： function guess($statement) { $words = $this->getWords($statement); // 得到单词 $best_likelihood = 0; $best_type = null; foreach ($this->types as $type) { $likelihood = $this->pTotal($type); //计算 P(Type) foreach ($words as $word) { $likelihood = $this->p($word, $type); // 计算 P(word, Type) } if ($likelihood > $best_likelihood) { $best_likelihood = $likelihood; $best_type = $type; } } return $best_type; } 登入後複製这就是所有的工作，现在算法可以预测语句的类型了。你要做的就是让你的算法开始学习： $classifier = new Classifier(); $classifier->learn('Symfony is the best', Type::POSITIVE); $classifier->learn('PhpStorm is great', Type::POSITIVE); $classifier->learn('Iltar complains a lot', Type::NEGATIVE); $classifier->learn('No Symfony is bad', Type::NEGATIVE); var_dump($classifier->guess('Symfony is great')); // string(8) "positive" var_dump($classifier->guess('I complain a lot')); // string(8) "negative" 登入後複製所有的代码我已经上传到了GIT上，https://github.com/yannickl88/blog-articles/blob/master/src/machine-learning-naive-bayes/Classifier.php github上完整php代码如下： [], Type::NEGATIVE => []]; private $documents = [Type::POSITIVE => 0, Type::NEGATIVE => 0]; public function guess($statement) { $words = $this->getWords($statement); // get the words $best_likelihood = 0; $best_type = null; foreach ($this->types as $type) { $likelihood = $this->pTotal($type); // calculate P(Type) foreach ($words as $word) { $likelihood *= $this->p($word, $type); // calculate P(word, Type) } if ($likelihood > $best_likelihood) { $best_likelihood = $likelihood; $best_type = $type; } } return $best_type; } public function learn($statement, $type) { $words = $this->getWords($statement); foreach ($words as $word) { if (!isset($this->words[$type][$word])) { $this->words[$type][$word] = 0; } $this->words[$type][$word]++; // increment the word count for the type } $this->documents[$type]++; // increment the document count for the type } public function p($word, $type) { $count = 0; if (isset($this->words[$type][$word])) { $count = $this->words[$type][$word]; } return ($count + 1) / (array_sum($this->words[$type]) + 1); } public function pTotal($type) { return ($this->documents[$type] + 1) / (array_sum($this->documents) + 1); } public function getWords($string) { return preg_split('/\s+/', preg_replace('/[^A-Za-z0-9\s]/', '', strtolower($string))); } } $classifier = new Classifier(); $classifier->learn('Symfony is the best', Type::POSITIVE); $classifier->learn('PhpStorm is great', Type::POSITIVE); $classifier->learn('Iltar complains a lot', Type::NEGATIVE); $classifier->learn('No Symfony is bad', Type::NEGATIVE); var_dump($classifier->guess('Symfony is great')); // string(8) "positive" var_dump($classifier->guess('I complain a lot')); // string(8) "negative" 登入後複製相关推荐：总结Python常用的机器学习库机器学习算法的随机数据生成方法介绍用Python从零实现贝叶斯分类器的机器学习的教程以上是PHP如何實現機器學習之樸素貝葉斯演算法的詳細內容。更多資訊請關注PHP中文網其他相關文章！相關標籤： php 來源：php.cn 上一篇：實例講解React-intl 實作多語言下一篇：Laravel 的模組化開發框架 Notadd RC1 本網站聲明本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn 作者最新文章最新php程式設計師工具箱 v1.0版本介紹 1970-01-01 08:00:00 vue-cli 自訂指令directive 新增驗證滑桿詳解 1970-01-01 08:00:00 PHP之IMAP收取郵件實例詳解 2023-03-19 18:36:02 Redis常見的使用場景分享 2023-03-21 07:36:01 JS 數字與字串之間相互轉換詳解 1970-01-01 08:00:00 Dreamweaver網頁中新增電子郵件連結的實例分享 1970-01-01 08:00:00 Vue filter介紹及其使用 1970-01-01 08:00:00 php基礎知識筆記分享 2023-03-20 14:32:01 微信小程式檔案類別API詳解 1970-01-01 08:00:00 JS實現的ajax和同源策略詳解 1970-01-01 08:00:00 最新問題 PHP數組從URL參數中取得的行為不如預期我有一個包含類別ID的URL參數，我想將其視為一個數組，如下所示：http://example.com?cat[]=3,9,13在PHP中，我使用它從URL參數取得數組：$catI... 來自於 2024-04-06 22:09:02 0 1 1428 我應該在 apache 中哪裡放置 CustomLog 指令我正在使用php:7.2-apachedocker。我需要禁用運行狀況檢查url登入訪問日誌。基於此鏈接，他們提到了有關修改Customlog指令的資訊。我不是關於需要更改Cust... 來自於 2024-04-06 22:03:59 0 1 990 傳回值中變數的格式是什麼？我是php的新學習者。我發現有一段程式碼：if($x<time()){return[false,'error'];}邏輯或變數並不重要，但我不明白[false,'error'... 來自於 2024-04-06 21:55:20 0 1 778 使用opentbs產生odt檔案時遇到的問題：相同key的值顯示在同一行而不是單獨的欄位中。我正在使用一個名為OpenTbs的庫來使用PHP建立odt，我使用它是因為動態生成列和行。我知道如何建立行和列，但我不知道如何組織它們。讓我加入一個例子：所以首先我會將其添加到我的... 來自於 2024-04-06 20:18:18 0 1 483 依照ID對MySQL結果進行分組以便循環遍歷我有一個表，其中有mysql中的航班資料。我正在編寫一個php程式碼，它將使用codeigniter3對資料進行分組和顯示journey_idair_idFlightDuratio... 來自於 2024-04-06 17:27:56 0 1 406 相關專題更多> php檔案怎麼打開 php怎麼取出陣列的前幾個元素 php反序列化失敗怎麼辦 php怎麼連接mssql資料庫 php連接mssql資料庫的方法 html怎麼上傳 PHP出現亂碼怎麼解決 php檔案怎麼在手機上打開熱門推薦 Mac電腦設定hosts的方法（圖文步驟） PHP快速建立一個簡單的QQ機器人 API常用簽章驗證方法(PHP實作) PHP常用日期時間操作集 PHP產生圖形驗證碼（加強幹擾型）熱門教學更多> 相關教學熱門推薦最新課程最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程) 1422712 php入門教程之一週學會PHP 4267677 JAVA 初級入門影片教學 2531367 小甲魚零基礎入門學習Python影片教學 507114 PHP 零基礎入門教學 862210 最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程) 1422712次學習 JAVA 初級入門影片教學 2531367次學習小甲魚零基礎入門學習Python影片教學 507114次學習 Web前端開發極速入門 215765次學習零基礎精通 PS 影片教學 889194次學習【web前端】Node.js快速入門 7400次學習國外Web開發全端課程全集 5788次學習 Go語言實戰之 GraphQL 4887次學習 550W粉絲大佬手把手從零學JavaScript 690次學習 python大神Mosh，零基礎小白6小時完全入門 24503次學習最新下載更多> 網站特效網站源碼網站素材前端模板 [表單按鈕] jQuery企業留言表單聯絡程式碼 [播放器特效] HTML5 MP3音樂盒播放特效 [選單導航] HTML5酷炫粒子動畫導覽選單特效 [表單按鈕] jQuery可視化表單拖曳編輯程式碼 [播放器特效] VUE.JS仿酷狗音樂播放器代碼 [html5特效] 經典html5推箱子小遊戲 [圖片特效] jQuery滾動添加或減少圖片特效 [相簿特效] CSS3個人相簿封面懸停放大特效 [前端模板] 家居裝潢清潔維修服務公司網站模板 [前端模板] 清新配色個人求職履歷引導頁模板 [前端模板] 設計師創意求職履歷網頁模板 [前端模板] 現代工程建築公司網站模板 [前端模板] 教育服務機構響應式HTML5模板 [前端模板] 網上電子書店商城網站模板 [前端模板] IT技術解決互聯網公司網站模板 [前端模板] 紫色風格外匯交易服務網站模板 [PNG素材] 可愛的夏天元素向量素材(EPS+PNG) [PNG素材] 四個紅色的 2023 畢業徽章的向量素材(AI+EPS+PNG) [banner圖] 唱歌的小鳥和裝滿花朵的推車設計春天banner向量素材(AI+EPS) [PNG素材] 金色的畢業帽向量素材(EPS+PNG) [PNG素材] 黑白風格的山脈圖示向量素材(EPS+PNG) [PNG素材] 不同顏色披風和不同姿勢的超級英雄剪影向量素材(EPS+PNG) [banner圖] 扁平風格的植樹節banner向量素材(AI+EPS) [PNG素材] 九種漫畫風格的爆炸聊天氣泡向量素材(EPS+PNG) [前端模板] 家居裝潢清潔維修服務公司網站模板 [前端模板] 清新配色個人求職履歷引導頁模板 [前端模板] 設計師創意求職履歷網頁模板 [前端模板] 現代工程建築公司網站模板 [前端模板] 教育服務機構響應式HTML5模板 [前端模板] 網上電子書店商城網站模板 [前端模板] IT技術解決互聯網公司網站模板 [前端模板] 紫色風格外匯交易服務網站模板公益線上PHP培訓，幫助PHP學習者快速成長！關於我們免責聲明 Sitemap © php.cn All rights reserved