赞
踩
variable
在计算机/数据库等行业也叫 属性 attribute
、特征 feature
、特性 characteristic
、字段 field
observation
也叫记录 record
、对象 object
、点 point
、向量 vector
、 模式 pattern
、事件 event
、例 case、instance
、样本 sample
、或项、实体 entity
定性数据说明的是事物的品质特征,是不能用数值表示的,通常表现为类别。
举例:
小新有 3 个气球,分别是红黄蓝 3 种颜色,其中 变量
为 气球,定量变量
为 气球的数量,定性数据
为 气球的颜色分类。
[注]
区间变量:表示范围的变量。
名义变量:统计学术语,是以货币单位为基准的变量。名义变量和实际变量是就一个变量在不同的前提下来说的,名义变量是在现有的前提或条件下确定的数值,实际变量是在现有的前提或条件发生改变后的数值。名义变量和实际变量是用来比较条件发生改变时该变量的变化情况。
数据和变量的关系:当一个数据的值需要经常改变或者不确定时,就应该用变量来表示。比如游戏积分。
举例:
上个例子,变量
是 气球 ,数据
是 气球的数量和颜色种类 。
观测值和变量的关系:变量有很多观测值,每变化一次就有一次观测值。
举例:
上个例子,变量
是 气球 ,观测值
是 每一个 气球的数量和颜色种类 。
模型:指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式。比如天气预测模型。
举例:
使用决策树模型,依据某一具体事物的特征对其进行分类。
举例:
如果想要对 蘑菇 进行分类,已知 样本数据以及分类情况 ,就可以进行 模型构建,基于样本数据进行拟合,从而达到通过 特征的数据值 进行分类的目的。
模型是根据研究对象的性质所建立的。
例:建立回归模型的步骤
客观
客观
主观
主观
主观
例:
某个回归模型对 一堆数据 拟合得很好,对 另外一堆数据 却拟合得很不好
简单点说,自变量是“原因”,而因变量就是“结果”。
对结果有影响的变量(可能由自己操控,也可能不可改变)叫自变量,结果所依托的变量的是因变量。因变量在逻辑上位于自变量的后方。
例:
在蘑菇分类的模型中,蘑菇的 颜色,大小,气味 等等这些对 是否有毒 这一结果产生影响的变量成为 自变量,结果 是否有毒 则为因变量。
有结果度量的指导学习过程。
举例:
根据某病人的 饮食习惯和血糖血脂 来预测糖尿病是否会发作。
x,y
(或两组以上)之间关系的统计分析方法。(P.s 定量变量)回归的具体步骤:1、确定变量 2、建立预测模型 3、进行相关分析 4、计算预测误差 5、确定预测值
例:建立回归模型的步骤
确定研究对象,明确哪个变量是解释变量(x),哪个变量是预报变量(y)。-客观
客观
主观
主观
主观
分类的步骤:
1、确定分类的依据(种类、等级或性质)2、确定分类方法 3、执行分类方法 4、检查结果
分类和回归的区别:分类研究定性变量,回归研究定量变量
例:建立某省的 GDP
增长模型 - 回归
根据 GDP高低
将全国省份进行分类 - 分类
2
分类问题。目的:
1、寻找危险因素
2、预测(可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大)
3、判别(判断某人属于某病或属于某种情况的概率有多大)
构成:决策树是一种树形结构,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
例:
利用面包的大小、形状两个属性进行分类,大小、形状作为两个内部节点,每个分支代表具体的面包类别。
例:
定量拆分变量则是连续的,它的选择依据启发式的方法,尝试遍历所有属性的所有值,找到一个特征 j
的值 s
,使得此时的损失函数最小,这是就得到了一个划分点。
例:
定性:计算得出,此时属性 “大小“ 的信息熵 最大,则按属性”大小“进行划分;
定量:计算得出,特征 j
的值 s
满足损失函数最小,则按照大于 s
、小于 s
进行划分。
非机器学习方法是告诉算法什么是什么。
例如:
不要试图对机器算法解释一只猫看起来是什么样的,你需要通过提供数百万张猫的图片来培训它。 该算法在这些图像中找到重复的模式,并为自己确定如何定义猫的外观。在此之后,当你向该程序显示新照片时,它可以区分照片中是否含有猫的成分。
(离散变量可以进行很多种方式的组合。可以有很多种方案,使结果更精确。)
因为单个算法效果不好。
例如:
Averaging methods
(平均方法),就是利用训练数据的全集或者一部分数据训练出几个算法或者一个算法的几个参数,最终的算法是所有这些算法的算术平均。
比如 Bagging Methods
(装袋算法),Forest of Randomized Trees
(随机森林)等。
实际上这个比较简单,主要的工作在于训练数据的选择,比如是不是随机抽样,是不是有放回,选取多少的数据集,选取多数训练数据。后续的训练就是对各个算法的分别训练,然后进行综合平均。这种方法的基础算法一般会选择很强很复杂的算法,然后对其进行平均,因为单一的强算法很容易就导致过拟合(overfit现象),而经过aggregate之后就消除了这种问题。
boosting methods
(提升算法),就是利用一个基础算法进行预测,然后在后续的其他算法中利用前面算法的结果,重点处理错误数据,从而不断的减少错误率。其动机是使用几种简单的弱算法来达到很强大的组合算法。所谓提升就是把“弱学习算法”提升boost
为“强学习算法,是一个逐步提升逐步学习的过程;某种程度上说,和neural network有些相似性。经典算法 比如 AdaBoost
(Adaptive Boost,自适应提升),Gradient Tree Boosting
(GBDT)。
这种方法一般会选择非常简单的弱算法作为基础算法,因为会逐步的提升,所以最终的几个会非常强。
bagging
, 随机森林及 adaboost
之间有什么区别? 这些不同设计目的是什么? 举例说明.bagging
:bootstrap aggregating 的缩写,套袋法。bootstraping
方法抽取 k
个样本,得到 k
个训练集,k
个训练集之间是相互独立的,每次使用一个训练集得到一个模型,k
个训练集共得到 k
个模型。对分类问题:将上步得到的 k
个模型采用投票的方式得到分类结果;对回归问题,计算上述模型的均值作为最后的结果。(即所有模型的重要性相同)rand forest
AdaBoost
:Boosting
的 base
分类器是按顺序训练的(in sequence
),训练每个 base
分类器时所使用的训练集是加权重的,而训练集中的每个样本的权重系数取决于前一个 base
分类器的性能。如果前一个 base
分类器错误分类地样本点,那么这个样本点在下一个 base
分类器训练时会有一个更大的权重。一旦训练完所有的base
分类器,我们组合所有的分类器给出最终的预测结果。(每个样本加权重)Boosting
一定可以很好地解决问题,每个 base
分类器有很高的偏差,但通过上述手段可减少某个 base
分类器偏差的问题。Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。