sklearn-RandomForest

  1. Bagging
  2. 随机森林RF
    1. 参数
    2. 属性
    3. 方法

[toc]

Bagging

以K近邻作为基学习器

1
from sklearn.ensemble import BaggingClassifier
2
from sklearn.neighbors import KNeighborsClassifier
3
bagging=BaggingClassifier(KNeighborsClassifier(),max_samples=0.6,max_features=0.6)
4
bagging.fit(X_train,y_train)
5
y_pred=bagging.predict(X_test)

随机森林RF

随机森林基于CART实现,有分类模型和回归模型

1
class sklearn.ensemble.RandomForestClassifier(n_estimators=10,criterion='gini',oob_score=False,max_features='auto',max_depth=None,max_leaf_nodes=None,min_samples_split=2,min_impurity_split=1e-07,min_samples_leaf=1,class_weight=None,n_jobs=1)
2
3
class sklearn.ensemble.RandomForestRegressor(n_estimators=10,criterion='mse',oob_score=False,max_features='auto',max_depth=None,max_leaf_nodes=None,min_samples_split=2,min_impurity_split=1e-07,min_samples_leaf=1,n_jobs=1)

参数

参数调节包括两部分参数,Bagging参数和CART决策树参数
n_estimators 基学习器的最大迭代次数
criterion特征划分时的评价标准
分类器
gini基尼系数
entropy信息增益
回归器
mse 均方误差
mae 绝对误差
oob_score是否采用袋外样本评估模型好坏
max_features 划分时考虑的最大特征数
max_depth 决策树的最大深度
max_leaf_nodes最大叶子节点数
min_samples_split 内部节点在划分时所需的最小样本数
min_impurity_split节点划分的最小不纯度
min_samples_leaf叶子节点最小样本数
class_weight样本所属权重的类别
n_jobsCPU核数

属性

feature_importances_给出各个特征的重要程度
estimators_ 存放各个训练好的基学习器情况列表
n_features_模型训练好时使用的特征数目
n_outputs_模型训练好后输出的数目
oob_score_模型训练好后使用训练集袋外样本验证得到的分数
oob-predicition_训练好的模型对训练集袋外样本预测的结果

方法

apply(X)获取样本X中各个样本在集成模型的各基学习器中叶子节点位置信息
fit(X_train,y_train)
score(X_test,y_test)
predict(X)
predict_proba(X)
predict_log_proba(X)


转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 jaytp@qq.com

文章标题:sklearn-RandomForest

本文作者:Espresso

发布时间:2019-12-05, 16:22:37

最后更新:2019-12-05, 16:52:05

原始链接:http://yoursite.com/2019/12/05/sklearn-RandomForest/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
github