机器学习分类_机器学习之简单分类模型

2023-09-23 阅读 28 评论 0

摘要：本文主要探讨了机器学习算法中一些比较容易理解的分类算法，包括二次判别分析QDA，线性判别分析LDA，朴素贝叶斯Naive Bayes，以及逻辑回归Logistic Regression，还会给出在irsi数据集上相应的手写python代码以及在sklearn上运用的实例。在本文

本文主要探讨了机器学习算法中一些比较容易理解的分类算法，包括二次判别分析QDA，线性判别分析LDA，朴素贝叶斯Naive Bayes，以及逻辑回归Logistic Regression，还会给出在irsi数据集上相应的手写python代码以及在sklearn上运用的实例。在本文的讨论中，我们强调了简单分类模型，是为了区别于树模型以及支持向量基模型，这两类模型将单独在以后的文章中跟大家分享，而本文也是深度学习的理论引入，后面的文章中将给大家从两个分支继续讨论机器学习，包括我们的深度学习和树模型等。（本文章部分图片引用李宏毅老师的机器学习课程，侵权即删）

1. 如何描述一个分类问题(概率角度)

我们先来看看iris数据集：

我们的任务是：给定一个样本，这个样本包含花萼长度，花萼宽度，花瓣长度，花瓣宽度的值，我们需要预测这个样本是属于哪个品种的鸢尾花。

2.二次判别分析QDA

对于以上的iris分类问题，我们按照以上步骤解得：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
%matplotlib inline
class QDA():def __init__(self):self.data = dataself.target = targetdef find_mean(self):target_unique = np.unique(self.target)self.means = []for i in target_unique:self.means.append(np.sum(self.data[self.target==i,],axis=0)/np.sum(self.target==i))print("u为：n",self.means)return self.meansdef find_sigma(self):target_unique = np.unique(self.target)self.sigmas = []for k,i in enumerate(target_unique):self.sigmas.append(((self.data[self.target==i,]-self.means[k]).T.dot((self.data[self.target==i,]-self.means[k])))/np.sum(self.target==i))print("sigma为：n",self.sigmas)return self.sigmasdef find_f(self):self.f_i = []self.f_ii = []for i in range(len(np.unique(target))):for j in range(len(target)):self.f_ii.append(self.p_ci[i]*1/(((2*np.pi)**self.data.shape[1])*(np.linalg.det(self.sigmas[i])**0.5))*np.exp(-0.5*(self.data[j,:]-self.means[i]).dot(np.linalg.inv(self.sigmas[i])).dot((self.data[j,:]-self.means[i]).T)))self.f_i.append(np.array(self.f_ii))self.f_ii = []return(self.f_i)def p_c(self):self.p_ci = []for i in np.unique(self.target):self.p_ci.append(sum(self.target==i)/len(self.target))return self.p_cidef arg_max(self):self.final_p = np.array(self.f_i)self.max_p = np.argmax(self.final_p,axis=0)return self.max_pdef score(self):self.classification_score = sum(target==self.max_p)/len(target)print("预测分类准确率为：{} %".format(self.classification_score*100))return self.classification_scoredef start(self):mean = self.find_mean()sigma = self.find_sigma()p_c1 = self.p_c()f = self.find_f()predict = self.arg_max()c_score = self.score()if __name__=='__main__':iris = load_iris()data = iris.datatarget = iris.targetfeatures = iris.feature_namesqda = QDA()qda.start()

预测准确率98%，还是不错的。接着我们使用sklearn验证我们写的对不对：

# 我们使⽤sklearn验证我们写的对不对
from sklearn.discriminant_analysis import QuadraticDiscriminantAnalysis as QDA
clf = QDA()
clf.fit(data,target)
clf.score(data,target)

由于我们的判别边界P=0.5是⼀个⼆次函数，所以叫⼆次判别分析。

3.线性判别分析LDA

因此我们写成python程序：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
%matplotlib inline
class LDA():def __init__(self):self.data = dataself.target = targetdef find_mean(self):target_unique = np.unique(self.target)self.means = []for i in target_unique:self.means.append(np.sum(self.data[self.target==i,],axis=0)/np.sum(self.target==i))return self.meansdef find_sigma(self):target_unique = np.unique(self.target)self.sigmas = []for k,i in enumerate(target_unique):self.sigmas.append(((self.data[self.target==i,]-self.means[k]).T.dot((self.data[self.target==i,]-self.means[k])))/np.sum(self.target==i))self.sigma_k = []for i in range(len(np.unique(self.target))):self.sigma_k.append(sum(target==i)/len(target))self.sigma_com = []for i in range(len(np.unique(self.target))):self.sigma_com.append(self.sigma_k[i]*self.sigmas[i])self.sigmas1 = []for i in range(len(np.unique(self.target))):self.sigmas1.append(sum(self.sigma_com))self.sigmas = self.sigmas1print("我们的共同的sigma为：n{}".format(self.sigmas[0]))return self.sigmasdef find_f(self):self.f_i = []self.f_ii = []for i in range(len(np.unique(target))):for j in range(len(target)):self.f_ii.append(self.p_ci[i]*1/(((2*np.pi)**self.data.shape[1])*(np.linalg.det(self.sigmas[i])**0.5))*np.exp(-0.5*(self.data[j,:]-self.means[i]).dot(np.linalg.inv(self.sigmas[i])).dot((self.data[j,:]-self.means[i]).T)))self.f_i.append(np.array(self.f_ii))self.f_ii = []return(self.f_i)def p_c(self):self.p_ci = []for i in np.unique(self.target):self.p_ci.append(sum(self.target==i)/len(self.target))return self.p_cidef arg_max(self):self.final_p = np.array(self.f_i)self.max_p = np.argmax(self.final_p,axis=0)return self.max_pdef score(self):self.classification_score = sum(target==self.max_p)/len(target)print("预测分类准确率为：{} %".format(self.classification_score*100))return self.classification_scoredef start(self):mean = self.find_mean()sigma = self.find_sigma()p_c1 = self.p_c()f = self.find_f()predict = self.arg_max()c_score = self.score()if __name__=='__main__':iris = load_iris()data = iris.datatarget = iris.targetfeatures = iris.feature_nameslda = LDA()lda.start()

我们使⽤sklearn验证：

# 我们使用sklearn验证我们写的对不对
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
clf = LDA()
clf.fit(data,target)
clf.score(data,target)

由于我们的LDA判别边界是线性的，所以我们叫做线性判别分析。

4. 朴素⻉叶斯Naive Bayes

因此，我们写成python代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
%matplotlib inline
class Naive():def __init__(self):self.data = dataself.target = targetdef find_mean(self):target_unique = np.unique(self.target)self.means = []for i in target_unique:self.means.append(np.sum(self.data[self.target==i,],axis=0)/np.sum(self.target==i))return self.meansdef find_sigma(self):target_unique = np.unique(self.target)self.sigmas = []for k,i in enumerate(target_unique):self.sigmas.append(((self.data[self.target==i,]-self.means[k]).T.dot((self.data[self.target==i,]-self.means[k])))/np.sum(self.target==i))self.sigma_k = []for i in range(len(np.unique(self.target))):self.sigma_k.append(sum(target==i)/len(target))self.sigma_com = []for i in range(len(np.unique(self.target))):self.sigma_com.append(self.sigma_k[i]*self.sigmas[i])self.sigmas1 = []for i in range(len(np.unique(self.target))):s = sum(self.sigma_com)s = np.diagonal(s)s = np.identity(self.data.shape[1])*sself.sigmas1.append(s)self.sigmas = self.sigmas1print("我们的共同的sigma为：n{}".format(self.sigmas[0]))return self.sigmasdef find_f(self):self.f_i = []self.f_ii = []for i in range(len(np.unique(target))):for j in range(len(target)):self.f_ii.append(self.p_ci[i]*1/(((2*np.pi)**self.data.shape[1])*(np.linalg.det(self.sigmas[i])**0.5))*np.exp(-0.5*(self.data[j,:]-self.means[i]).dot(np.linalg.inv(self.sigmas[i])).dot((self.data[j,:]-self.means[i]).T)))self.f_i.append(np.array(self.f_ii))self.f_ii = []return(self.f_i)def p_c(self):self.p_ci = []for i in np.unique(self.target):self.p_ci.append(sum(self.target==i)/len(self.target))return self.p_cidef arg_max(self):self.final_p = np.array(self.f_i)self.max_p = np.argmax(self.final_p,axis=0)return self.max_pdef score(self):self.classification_score = sum(target==self.max_p)/len(target)print("预测分类准确率为：{} %".format(self.classification_score*100))return self.classification_scoredef start(self):mean = self.find_mean()sigma = self.find_sigma()p_c1 = self.p_c()f = self.find_f()predict = self.arg_max()c_score = self.score()if __name__=='__main__':iris = load_iris()data = iris.datatarget = iris.targetfeatures = iris.feature_namesnaive = Naive()naive.start()