羊村懒王

这个屌丝很懒，什么也没留下！

热门标签

回归-基础知识_观测值

作者：羊村懒王 | 2024-03-16 13:16:38

踩

观测值

基本术语

统计术语变量 variable 在计算机/数据库等行业也叫属性 attribute 、特征 feature 、特性 characteristic 、字段 field
数量变量也叫 “指标”，定性变量也叫 “维度”
观测值 observation 也叫记录 record、对象 object 、点 point 、向量 vector 、模式 pattern、事件 event、例 case、instance、样本 sample、或项、实体 entity

问题系列

什么是变量? 什么是定量变量? 什么是定性变量? 举例说明.

变量是将数量变异标志称为变量。
定量变量描述的是事务的数量特征，必须要用数值来体现。
定性数据说明的是事物的品质特征,是不能用数值表示的,通常表现为类别。

举例：

小新有 3 个气球，分别是红黄蓝 3 种颜色，其中 变量 为气球，定量变量 为气球的数量，定性数据 为气球的颜色分类。

[注]

连续变量：在一定区间内可以任意取值的变量叫连续变量。如：身高，体重
离散变量：可以按一定顺序一一列举，通常以整数位取值的变量。如：年龄，人数。
数量变量：当变量的取值为数量时，【我觉得是连续变量和离散变量的并集】。如：身高，年龄。
区间变量：表示范围的变量。
名义变量：统计学术语，是以货币单位为基准的变量。名义变量和实际变量是就一个变量在不同的前提下来说的，名义变量是在现有的前提或条件下确定的数值，实际变量是在现有的前提或条件发生改变后的数值。名义变量和实际变量是用来比较条件发生改变时该变量的变化情况。
分类变量：分类变量是指地理位置、人口统计等方面的变量，其作用是将调查响应者分群。
描述变量：描述某一个客户群与其他客户群的区别。大部分分类变量也就是描述变量。
定序变量：变量的一种，区别同一类别个案中等级次序的变量。例如年龄可以分为老、中、青。

什么是数据? 数据和变量有什么关系? 举例说明.

数据：通过观察、实验或计算得出的结果，可以是文字、图像、声音等。
数据和变量的关系：当一个数据的值需要经常改变或者不确定时，就应该用变量来表示。比如游戏积分。

举例：

上个例子，变量 是气球，数据 是气球的数量和颜色种类。

什么是观测值? 观测值和变量有什么关系? 举例说明.

观测值：指通过测量或测定所得到的样本值，是数量的一种。
观测值和变量的关系：变量有很多观测值，每变化一次就有一次观测值。

举例：

上个例子，变量 是气球，观测值 是每一个气球的数量和颜色种类。

模型是什么? 举例说明.

模型：指对于某个实际问题或客观事物、规律进行抽象后的一种形式化表达方式。比如天气预测模型。

举例：

使用决策树模型，依据某一具体事物的特征对其进行分类。

这里写图片描述

构建模型的目的是什么? 举例说明.

目的：为了更好的理解事物，对其进行数学处理或逻辑推演，以便得出结论。
举例：

如果想要对蘑菇进行分类，已知样本数据以及分类情况，就可以进行模型构建，基于样本数据进行拟合，从而达到通过特征的数据值进行分类的目的。

模型是根据什么建立的?举例说明.

模型是根据研究对象的性质所建立的。

例：建立回归模型的步骤

确定研究对象，明确哪个变量是解释变量（x），哪个变量是预报变量（y）。-客观
画出确定好的解释变量和预报变量的散点图，观察它们之间的关系。-客观
由经验确定回归方程的类型（如我们观察到数据呈线性关系，则选用线性回归方程y=bx+a）。-主观
按一定规则估计回归方程中的参数（如最小二乘法）。-主观
得出结果后分析残差图是否有异常（个别数据对应残差过大，或残差呈现不随机的规律性，等等），过存在异常，则检查数据是否有误，或模型是否合适等。-主观

模型是不是绝对正确的? 举例说明

不一定。
例：

某个回归模型对一堆数据拟合得很好，对另外一堆数据却拟合得很不好

什么是因变量? 什么是自变量? 根据什么确定哪些变量是因变量还是自变量?

简单点说，自变量是“原因”，而因变量就是“结果”。
对结果有影响的变量（可能由自己操控，也可能不可改变）叫自变量，结果所依托的变量的是因变量。因变量在逻辑上位于自变量的后方。

例：

在蘑菇分类的模型中，蘑菇的颜色，大小，气味等等这些对是否有毒这一结果产生影响的变量成为自变量，结果是否有毒则为因变量。

什么是有指导学习? 举例说明。

有结果度量的指导学习过程。

举例：

根据某病人的饮食习惯和血糖血脂来预测糖尿病是否会发作。

什么是回归? 举例说明。

回归：研究两组随机变量 x,y （或两组以上）之间关系的统计分析方法。（P.s 定量变量）
回归的目的：用于预测分析。（如：预测分析中国人口 2018-2020 年增长情况）
回归的具体步骤：1、确定变量 2、建立预测模型 3、进行相关分析 4、计算预测误差 5、确定预测值

例：建立回归模型的步骤
确定研究对象，明确哪个变量是解释变量（x），哪个变量是预报变量（y）。-客观
画出确定好的解释变量和预报变量的散点图，观察它们之间的关系。-客观
由经验确定回归方程的类型（如我们观察到数据呈线性关系，则选用线性回归方程y=bx+a）。-主观
按一定规则估计回归方程中的参数（如最小二乘法）。-主观
得出结果后分析残差图是否有异常（个别数据对应残差过大，或残差呈现不随机的规律性，等等），过存在异常，则检查数据是否有误，或模型是否合适等。-主观

什么是分类? 举例说明。

分类：指按照种类、等级或性质分别归类。（P.s 定性变量）
分类的目的：将具有同种特征的事物归为一类。
分类的步骤：

1、确定分类的依据（种类、等级或性质）2、确定分类方法 3、执行分类方法 4、检查结果

分类和回归的区别：分类研究定性变量，回归研究定量变量

例：建立某省的 GDP 增长模型 - 回归
根据 GDP高低 将全国省份进行分类 - 分类

什么是最小二乘回归? 还有没有别的回归? 举例说明。

最小二乘回归：它通过最小化误差的平方和寻找数据的最佳函数匹配。
最大似然估计：明确地使用概率模型，其目标是寻找能够以较高概率产生观察数据的系统发生树。
其他回归：逻辑回归，多项式回归，逐步回归，岭回归，套索回归，ElasticNet回归。

什么是 logistic 回归? 它是回归吗? 它的目的是什么?

logistic回归：一种广义的线性回归分析模型，是一种分类方法，用于 2 分类问题。
不属于回归，是分类模型
目的：

1、寻找危险因素
2、预测（可以根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大）
3、判别（判断某人属于某病或属于某种情况的概率有多大）

logistic 回归得到的预测结果是类吗? 还是什么别的?

logistic回归得到的预测结果不一定是类，
可以是类，如预测是否患胃癌，
也可以是数值，如从疝气病症预测病马的死亡率。

logistic 回归的结果依赖于什么主观选择?

准则函数的优化方法（梯度上升算法、随机梯度上升算法）

有几种决策树? 用什么来区分?

两类，分类和回归
用结果是定性变量还是定量变量来区分。

决策树的构成是什么? 举例说明.

构成：决策树是一种树形结构，其中每个内部节点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。

例：

利用面包的大小、形状两个属性进行分类，大小、形状作为两个内部节点，每个分支代表具体的面包类别。

什么是决策树的节点, 其构成是什么? 举例说明.

决策树的节点分两种，叶子节点和非叶子节点。
叶子节点代表输出的分类，非叶子节点代表对某个属性的测试。

什么是分类树节点的纯度? 举例说明.

一个节点中所有样本的类别是否统一，如果都是一个类别，则纯度高。
例：

在每个决策树的节点, 需要选择拆分变量? 根据什么来选择拆分变量, 从什么地方选择? 举例说明.

需要
信息增益最大的变量作为拆分变量
除去父节点选择的属性，在剩下的属性中选择熵值最大的属性作为该节点的拆分变量。

拆分变量可以在不同节点重复使用吗? 依据是什么?

拆分变量不能在不同节点重复使用。
否则没有意义了，会造成在大小为小的剩余属性中对大小为大的进行判断，没有实际的意义。

定性拆分变量和定量拆分变量有什么不同? 举例说明.

定型拆分变量是离散的，它的选择是根据信息熵的计算二取出的。
定量拆分变量则是连续的，它的选择依据启发式的方法，尝试遍历所有属性的所有值，找到一个特征 j 的值 s ，使得此时的损失函数最小，这是就得到了一个划分点。

例：

定性：计算得出，此时属性 “大小“ 的信息熵最大，则按属性”大小“进行划分；
定量：计算得出，特征 j 的值 s 满足损失函数最小，则按照大于 s 、小于 s 进行划分。

决策树回归和决策树分类有什么不同? 举例说明.

决策树回归：对定量变量的操作，最后输出的是定量变量，是具体的数值，属于回归。使用最大均方差划分节点；每个节点样本的均值作为测试样本的回归预测值。
决策树分类：对定性变量的操作，最后输出的定性变量，是一个分类，属于分类。用信息增益或增益比率来划分节点；每个节点样本的类别情况投票决定测试样本的类别。

你们知道的回归模型有哪些? 哪些原则上可以 “手算”, 哪些很困难? 举例说明.

回归模型：最小二乘回归、logistic回归、lasso回归
理论上，logistic回归（本质是采用了极大似然估计，估计系数采用了数值计算的办法，）、最小二乘回归（求最小相对误差平方和）可以手算
lasso回归“手算“很困难

你们知道的分类模型有哪些? 可以 “手算” 吗? 举例说明.

分类模型：最近邻分类器、决策树、朴素贝叶斯分类器、贝叶斯信念网络
手算：最近邻（根据求距离）、决策树（求信息熵找出划分变量）、朴素贝叶斯（求概率）

什么是机器学习方法? 和 “非机器学习方法” 有什么不同? 举例说明.

机器学习是从示例中学习的软件，它基于数据而并非规则来创建程序。
非机器学习方法是告诉算法什么是什么。

例如：

不要试图对机器算法解释一只猫看起来是什么样的，你需要通过提供数百万张猫的图片来培训它。该算法在这些图像中找到重复的模式，并为自己确定如何定义猫的外观。在此之后，当你向该程序显示新照片时，它可以区分照片中是否含有猫的成分。

什么是模型驱动? 什么是数据驱动? 举例说明.

比如了解历史上消费最高的用户群都具有哪些特征，针对这个问题，我们有一整套刻画这些用户的思路和框架，也称为模型，基于些进行的数据分析，可称之为基于模型驱动的数据分析。
数据驱动可以理解为，以数据为基础去发现模型，让这些数据产生价值，达到赢利的目标。

决策树的成长受到哪些因素的影响? 具体是如何影响的? 举例说明.

特征属性是否能够很好地区分因变量，如果特征属性能够很好的区分因变量的话，决策树很快就会停止生长。

为什么有组合方法? 有什么优势? 列举出你知道的组合方法. 举例说明.

（离散变量可以进行很多种方式的组合。可以有很多种方案，使结果更精确。）
因为单个算法效果不好。
- 优势：效果往往很好
例如：

Averaging methods（平均方法），就是利用训练数据的全集或者一部分数据训练出几个算法或者一个算法的几个参数，最终的算法是所有这些算法的算术平均。

比如 Bagging Methods（装袋算法），Forest of Randomized Trees（随机森林）等。

实际上这个比较简单，主要的工作在于训练数据的选择，比如是不是随机抽样，是不是有放回，选取多少的数据集，选取多数训练数据。后续的训练就是对各个算法的分别训练，然后进行综合平均。这种方法的基础算法一般会选择很强很复杂的算法，然后对其进行平均，因为单一的强算法很容易就导致过拟合（overfit现象），而经过aggregate之后就消除了这种问题。

boosting methods（提升算法），就是利用一个基础算法进行预测，然后在后续的其他算法中利用前面算法的结果，重点处理错误数据，从而不断的减少错误率。其动机是使用几种简单的弱算法来达到很强大的组合算法。所谓提升就是把“弱学习算法”提升boost 为“强学习算法，是一个逐步提升逐步学习的过程；某种程度上说，和neural network有些相似性。经典算法比如 AdaBoost（Adaptive Boost，自适应提升），Gradient Tree Boosting（GBDT）。

这种方法一般会选择非常简单的弱算法作为基础算法，因为会逐步的提升，所以最终的几个会非常强。

`bagging`, 随机森林及 `adaboost` 之间有什么区别? 这些不同设计目的是什么? 举例说明.

bagging：bootstrap aggregating 的缩写，套袋法。
每次使用 bootstraping 方法抽取 k 个样本，得到 k 个训练集，k 个训练集之间是相互独立的，每次使用一个训练集得到一个模型，k 个训练集共得到 k 个模型。对分类问题：将上步得到的 k 个模型采用投票的方式得到分类结果；对回归问题，计算上述模型的均值作为最后的结果。（即所有模型的重要性相同）
随机森林 rand forest
是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，对于分类问题，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，采用投票的方式进行决策（每次变量竞争时随机选择一些变量去竞争）
原因：如果训练集中的几个特征对输出的结果有很强的预测性，那么这些特征会被每个决策树所应用，这样会导致树之间具有相关性，这样并不会减小模型的方差
AdaBoost ：Boosting 的 base 分类器是按顺序训练的（in sequence），训练每个 base 分类器时所使用的训练集是加权重的，而训练集中的每个样本的权重系数取决于前一个 base 分类器的性能。如果前一个 base 分类器错误分类地样本点，那么这个样本点在下一个 base 分类器训练时会有一个更大的权重。一旦训练完所有的base 分类器，我们组合所有的分类器给出最终的预测结果。（每个样本加权重）
原因：Boosting 一定可以很好地解决问题，每个 base 分类器有很高的偏差，但通过上述手段可减少某个 base 分类器偏差的问题。

什么是拟合值? 拟合值是如何算出来的?

称 $\hat{y_{i}}=\hat{\beta _{0}}+\hat{\beta _{1}}x_{i}$ 为 y 在回归直线上 x = xi 处的拟合值 (fitted value),

拟合值和预测值有区别吗? 什么是预测值? 预测值是如何算出来的?

有，预测值可能是对测试数据的预测，而拟合值是对训练数据的拟合。
预测值是按一定的数字模型并根据历史资料推算出来的。
将新数据带入求出的模型中算出来的。

什么是回归的预测值? 什么是分类的预测值?

回归的预测值是定量数值
分类的预测值是定性数值

是不是所有回归和分类方法都算得出预测值?

什么是残差?

实际观察值与估计值（拟合值）之间的差

如何确定一个模型的好坏? 举例说明.

需要根据模型的类型和模型要做的事情，来选择评判模型的度量。
如准确率、召回率、ROC曲线、可决系数等

如何确定回归模型的好坏, 你知道几种标准? 写出计算公式和意义.

标准化均方误差 $NMSE_{cv}=\frac{SSE_{cv}}{SST{test}}=\frac{MSE{cv}}{MST{cv}}$ （回归模型不如拍脑袋时可能大于 1）
可决系数 $R^{2}_{cv}=1-NMSE_{cv}$ （可能小于0!）

如何确定分类模型的好坏, 你知道几种标准? 写出计算公式和意义.

ROC 基尼系数

什么是交叉验证? 交叉验证的思维基础是什么?

就是用测试数据来检验用训练数据训练出来的模型的好坏程度。
模型好不好，不能用内部数据检验

什么模型有参数估计? 举例说明.

线性回归，Logistic回归，高斯混合模型。

你拿到一个数据之后如何办? 举例说明.

进行数据处理
数据处理主要包括数据清洗、数据转化、数据提取、数据计算等处理方法，将各种原始数据加工成为产品经理需要的直观的可看数据

你如何确定使用什么模型? 举例说明.

如果你想要进行降维操作，那么你可以使用主成分分析方法（PCA）；
如果你想要快速进行手写数字预测，那么你可以使用决策树或者逻辑回归；
如果你想要进行数据分层操作，那么你可以使用分层聚类。

列举拿到一个数据后做分析的所有可能步骤.

数据清洗：清除重复样本，清除疑似错误异常的样本，清除偏离样本整体分布的样本。
缺失值处理：
（1）样本缺失值较少时，使用均值/众数值填充，当样本顺序与时间相关的话，填充可以参考相关时间信息；
（2）把是否缺失直接当作一种特征输入到模型中，比如说各种树模型；
（3）缺失样本较多时，可以考虑直接清洗掉这些样本。
- 特征选择：避免维度灾难，降低模型复杂度，提高模型的可解释性。
- 数据集划分：训练集和测试集
- 确定自变量和因变量，看是否要做哑元处理，选择模型进行拟合
- 交叉验证

残差和模型中可能有的误差项有什么区别?

误差是随机的，假定的；
残差是实际值减去拟合值得到的

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/羊村懒王/article/detail/249722