搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
黑客灵魂
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
微信小程序没有历史记录的跳转
2
浅谈数据中台_数据中台传输日志内容
3
spring漏洞_springapplication.run(jingsaidachuangapplication.c
4
Nature子刊:大脑时间工具箱-将电生理数据与脑动力学结合_inter-trial coherenc
5
devc++代码调试_devc++debug怎么回到上一步
6
SAP所有模块用户出口 _sap a004bapi
7
算法时间复杂度_算法的时间复杂度与待处理数据的初试形态有关吗
8
word2vec梳理--part2--负采样_word2vec 负采样
9
学习笔记二、步进电机原理及其使用说明_步进电机的空载电流比带负载电流
10
centos7安装hadoop集群_centos7.6部署hadoop3.8集群
当前位置:
article
> 正文
14天数据分析与机器学习实践之Day11——使用sklearn构造决策树模型
作者:黑客灵魂 | 2024-08-22 03:28:44
赞
踩
14天数据分析与机器学习实践之Day11——使用sklearn构造决策树模型
14天数据分析与机器学习实践之Day11——使用
sklearn
构造决策树模型
sklearn官网
树模型参数:
criterion gini or entropy
splitter best or random 前者是在所有特征中找最好的切分点 后者是在部分特征中(数据量大的时候)
max_features None(所有),log2,sqrt,N 特征小于50的时候一般使用所有的
max_depth 数据少或者特征少的时候可以不管这个值,如果模型样本量多,特征也多的情况下,可以尝试限制下
min_samples_split 如果某节点的样本数少于min_samples_split,则不会继续再尝试选择最优特征来进行划分如果样本量不大,不需要管这个值。如果样本量数量级非常大,则推荐增大这个值。
min_samples_leaf 这个值限制了叶子节点最少的样本数,如果某叶子节点数目小于样本数,则会和兄弟节点一起被剪枝,如果样本量不大,不需要管这个值,大些如10W可是尝试下5
min_weight_fraction_leaf 这个值限制了叶子节点所有样本权重和的最小值,如果小于这个值,则会和兄弟节点一起被剪枝默认是0,就是不考虑权重问题。一般来说,如果我们有较多样本有缺失值,或者分类树样本的分布类别偏差很大,就会引入样本权重,这时我们就要注意这个值了。
max_leaf_nodes 通过限制最大叶子节点数,可以防止过拟合,默认是"None”,即不限制最大的叶子节点数。如果加了限制,算法会建立在最大叶子节点数内最优的决策树。如果特征不多,可以不考虑这个值,但是如果特征分成多的话,可以加以限制具体的值可以通过交叉验证得到。
class_weight 指定样本各类别的的权重,主要是为了防止训练集某些类别的样本过多导致训练的决策树过于偏向这些类别。这里可以自己指定各个样本的权重如果使用“balanced”,则算法会自己计算权重,样本量少的类别所对应的样本权重会高。
min_impurity_split 这个值限制了决策树的增长,如果某节点的不纯度(基尼系数,信息增益,均方差,绝对差)小于这个阈值则该节点不再生成子节点。即为叶子节点 。
n_estimators:要建立树的个数
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/黑客灵魂/article/detail/1014549
推荐阅读
article
PyTorch
与
Sklearn
机器
学习指南
(六)...
有趣的是,最初的 Transformer 架构基于一个注意力机制,这个机制最初是在 RNN 中使用的。最初使用注意力机制...
赞
踩
article
【
数据分析
】
统计学
基础及
Python
具体实现
_
经济
统计学
python
...
统计学
概述个人大佬的,将是我成长路上阿川水平有限,如,欢迎大佬。
_
经济
统计学
python
经济
统计学
python
...
赞
踩
article
Kylin
系列(一):入门与
深入
解析(
大
数据分析
)_
kylin
数据分析
...
Kylin
是 Apache 基金会旗下的一个开源项目,最初由 eBay 开发。其主要目标是通过构建多维数据立方体来加速...
赞
踩
article
【
数据分析
】
Numpy
详解_
np
.
int
...
Numpy
是什么?NumPy 是一个 Python 包。 它代表 “Numeric Python”。 它是一个由多维数组...
赞
踩
article
Python
数据分析
:Numpy 介绍_
python
np
...
Python
作为一门弱类型语言,有其不可避免的缺点。但NP的出现,弥补了这些缺点,使其具备了构造复杂数据类型的能力,为P...
赞
踩
article
【
数据分析
:
工具
篇】
NumPy
(
1
)
NumPy
介绍
...
NumPy
是Python中非常重要的科学计算库之一,它提供了丰富的多维数组对象、高效的向量化计算、数组操作、数组切片和索...
赞
踩
article
机器
学习
实战(一):K
近邻
算法
(
s
k
learn
)_
s
k
learn
k
近邻
...
Sci
k
it learn 也简称
s
k
learn
,是
机器
学习
领域当中最知名的python模块之一。Classificati...
赞
踩
article
【
Python
】
sklearn
教程
_
python
sklearn
...
sklearn
是
Python
中一个非常重要的机器学习库,全称为。它是基于
Python
语言的机器学习工具,提供了一系列...
赞
踩
article
LLM
构建
Data
Multi
-
Agents
赋能
数据
分析
平台
的
实践之②:
数据
治理之二(自动处理)...
1、提示词设计:设计一个总结报告
的
基础框架,包含目
的
、背景、过程、结论、建议等。"""2、Agent
的
构建
| promp...
赞
踩
article
Python-
Level2
-
day11
:
TCP
客户端
/
服务端
传输(循环模型之短
连接
与长
连接
形态);T...
2022年7月15日16:13:07_
python
使用
tcp
长
连接
发送数据
python
使用
tcp
长
连接
发送数据
...
赞
踩
article
day11
-
硅谷
课堂
-营销
模块
和
公众
号
菜单
管理...
营销
模块
和
公众
号
菜单
模块
day11
-
硅谷
课堂
-营销
模块
和
公众
号
菜单
管理 ...
赞
踩
article
【海量
数据挖掘
/
数据分析
】之
决策树
模型
(
决策树
模型
、
决策树
构成、
决策树
常用算法、
决策树
性能要求、信...
本文详细介绍了
决策树
模型
的构建过程,包括常用算法如ID3、C4.5和CART,以及如何通过
信息
增益
选择最佳属性。在创建决...
赞
踩
相关标签
FreeLearning
学习
python
数据分析
jupyter
kylin
大数据
numpy
NumPy
数据科学
sklearn
1024程序员节
机器学习
人工智能
big data
java
mybatis
spring
数据挖掘
决策树
信息增益