sklearn在机器学习中的应用-朴素贝叶斯
[toc]
朴素贝叶斯三种实现形式
高斯型
1 | class sklearn.naive_bayes.GaussianNB() |
无输入参数
属性
class_prior_
数组形式 存放训练集数据中各个类别的概率class_count_
数组形式 存放训练集数据中各个类别包含的训练样本数目theta_
各个类别上各个特征的均值$\mu_{k}$sigma_
各个类别上各个特征的标准差$\sigma_{k}$
方法
fit(X_train,y_train)
partial_fit(X_train,y_train)
若训练集数目很大,可以划分很多小数据集进行训练score(X_test,y_test)
返回模型的预测准确率predict(X)
predict_proba(X)
返回一个数组,各个元素为预测集属于各个类别的概率predict_log_proba(X)
对数概率
多项式型
1 | class sklearn.naive_bayes.MultinominalNB(alpha=0.01,fit_prior=True) |
参数
alpha
平滑因子fit_prior
是否计算$P(Y=c_{k})$,默认为True,表示不计算,使用均匀分布代替
属性
class_count_
数组形式,存放训练集数据中各个类别包含的训练样本数目feature_count_
数组形式,存放训练集数据中各个特征包含的训练样本数目
方法
参考Gaussian型
伯努利型
1 | class sklearn.naive_bayes.BernoulliNB(alpha=0.01,binarize=0.0,fit_prior=True) |
参数
alpha
指定平滑因子的值binarize
阈值,大于它的编码为1,小于它编码为0,实现数据集的二值化,为None时,假定已经二值化fit_prior
参考多项式型
属性
参考多形式型
方法
参考高斯型
### 中文文本分类项目
转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 jaytp@qq.com
文章标题:sklearn在机器学习中的应用-朴素贝叶斯
本文作者:Espresso
发布时间:2019-12-02, 19:33:46
最后更新:2019-12-02, 19:56:07
原始链接:http://yoursite.com/2019/12/02/sklearn%E5%9C%A8%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0%E4%B8%AD%E7%9A%84%E5%BA%94%E7%94%A8-%E6%9C%B4%E7%B4%A0%E8%B4%9D%E5%8F%B6%E6%96%AF/版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。