赞
踩
参考链接:https://zhuanlan.zhihu.com/p/56175215
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
Q 1.1.1 : 逻辑回归的优缺点,在金融领域相比其他算法有什么优势,局限性在哪?
1)优点:
2)缺点和局限性:
Q 1.1.2 : 逻辑回归是线性模型吗?逻辑回归和线性回归的区别?
Q 1.1.3 :逻辑回归做分类的样本应该满足什么分布?
应该满足伯努利分布,逻辑回归的分类标签是基于样本特征通过伯努利分布产生的,分类器要做的就是估计这个分布。
Q 1.1.4 :逻辑回归解决过拟合的方法有哪些?
Q 1.1.5 :什么是特征的离散化和特征交叉?逻辑回归为什么要对特征进行离散化?
Q 1.1.6 :在逻辑回归中,为什么要常常做特征组合(特征交叉)?
逻辑回归模型属于线性模型,线性模型不能很好处理非线性特征,特征组合可以引入非线性特征,提升模型的表达能力。另外,基本特征可以认为是全局建模,组合特征更加精细,是个性化建模,但对全局建模会对部分样本有偏,对每一个样本建模又会导致数据爆炸,过拟合,所以基本特征+特征组合兼顾了全局和个性化。
Q 1.1.7 :做评分卡中为什么要进行WOE转化?
Q 1.1.8 :高度相关的特征带入逻辑回归到底有什么影响?为什么逻辑回归要将高度相关特征剔除?
Q 1.1.9 :逻辑回归的特征系数的绝对值可以认为是特征的重要性吗?
首先特征系数的绝对值越大,对分类效果的影响越显著,但不能表示系数更大的特征重要性更高。因为改变变量的尺度就会改变系数的绝对值,而且如果特征是线性相关的,则系数可以从一个特征转移到另一个特征,特征间相关性越高,用系数解释变量的重要性就越不可靠。
Q 1.1.10 :逻辑回归为什么要用极大似然函数作为损失函数?
Q 1.2.1 :决策树模型的优缺点及适用性?
优点:
缺点:
Q 1.2.2 :简述一下决策树的原理以及树的构建过程。
决策树时基于树的结构进行决策的,学习过程包括特征选择,决策树的生成和剪枝过程。决策树的学习过程通常是递归地选择最优特征,并用最优特征对数据集进行分割。开始时,构建根节点,选择最优特征,该特征有几种值就划分为多少子集,每个子集递归调用此方法,返回结点,返回的结点就是上一层的子节点,直到所有特征都已经用完,或者数据集只有一维特征为止。
Q 1.2.3 :简述一下ID3,C4.5,CART三类决策树的原理和异同点。
Q 1.2.4 :分类树和回归树的区别在哪里?
Q 1.2.5 :决策树对缺失值是如何处理的?
决策树处理缺失要考虑以下三个问题:
(1) 当开始选择哪个属性来划分数据集时,样本在某几个属性上有缺失怎么处理:
(2) 一个属性已经被选择,那么在决定分割点时,有些样本在这个属性上有缺失怎么处理?
(3)决策树模型构建好后,测试集上的某些属性是缺失的,这些属性该怎么处理?
Q 1.2.6 :为什么决策树不需要对数据做归一化等预处理?
决策树是一种概率模型,所以不需要做归一化,因为它不关心变量的值,而是关心变量的分布和变量之间的条件概率,所以归一化这种数值缩放,不影响分裂结点位置。
Q 1.2.7 :如何解决决策树的过拟合问题?
简介:集成学习是一种机器学习范式,在集成学习中,通常会训练多个模型(一般称之为“弱学习器”)解决相同的问题,并将他们结合起来一获得更好的结果。最重要的假设:当弱模型呗正确组合时,我们可以获得更精确/更鲁棒的模型。
Q 1.3.1 :什么是集成学习?集成学习有哪些框架?简单介绍各个框架的常用算法。
Q 1.3.2 : 简单描述一下模型的偏差和方差?bagging和boosting主要关注哪个?
随机森林
Q 1.3.3 :简述一下随机森林的原理,随机森林的构造过程。
随机森林是bagging算法的代表,使用了CART树作为弱分类器,将多个不同的决策树进行组合,利用这种组合来降低单棵决策树的可能带来的片面性和判断不准确性。对于普通的决策树,是在所有样本特征中找一个最优特征来做决策树的左右子树划分,而随机森林会先通过自助采样的方法(bootstrap)得到N个训练集,然后在单个训练集上会随机选择一部分特征,来选择一个最优特征来做决策树的左右子树划分,最后得到N棵决策树,对于分类问题,按多数投票的准则确定最终结果,对于回归问题,由多棵决策树的预测值的平均数作为最终结果。随机森林的随机性体现在两方面,一个是选取样本的随机性,一个是选取特征的随机性,这样进一步增强了模型的泛化能力。
Q 1.3.4 :随机森林的优缺点?
优点:
缺点:
Q 1.3.5 :随机森林为什么不容易过拟合?
随机森林由很多棵树组合在一起,单看每一棵树可以是过拟合的,但是既然是过拟合,就会拟合到非常小的细节,随机森林通过引入随机性,让每一棵树过拟合的细节不同,再将这些树组合在一起,过拟合的部分就会抵消掉,不过随机森林还是可能会出现过拟合的现象,只是出现的概率相对较低。
Q 1.3.6 :随机森林输出特征重要性的原理?
Adaboost
Q 1.3.7 :简单描述一下Adaboost的算法原理和流程。
算法流程:
Q 1.3.8 :Adaboost的优点和缺点?
优点:
缺点:
GBDT
Q 1.3.9 :简单说一下GBDT的原理。
Q 1.3.10 :为什么对于高维稀疏特征不太适合用GBDT?
Q 1.3.11 :GBDT和随机森林的异同点?
相同点:
不同点:
Q 1.3.12 :GBDT的优缺点?
优点:
缺点:
XGBOOST
Q 1.3.13 : 简单介绍一下XGBOOST。
XGBOOST是一种梯度提升的算法,用来解决分类和回归问题。它的基学习器可以是CART树,也可以是线性分类器。当用CART树做基学习器时,训练的时候采用前向分布算法进行贪婪的学习,每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差。XGBoost对GBDT进行了一系列优化,比如损失函数进行了二阶泰勒展开、目标函数加入正则项、特征粒度上支持并行计算和默认缺失值处理等,在可扩展性和训练速度上有了巨大的提升。
Q 1.3.14 :XGBOOST和GBDT的区别在哪里?
Q 1.3.15:为什么XGBOOST要用泰勒展开,优势在哪里?
xgboost使用了一阶和二阶偏导,二阶导数有利于梯度下降的更快更准,使用泰勒展开取得函数做自变量的二阶导数形式,可以在不选定损失函数具体形式的情况下,仅仅依靠输入数据的值就可以进行叶子分裂优化计算,本质上也就把损失函数的选取和模型算法的优化分开来了,这种去耦合增加了xgboost的适用性,使得它按需选取损失函数,既可以用于分类,也可以用于回归。
Q 1.3.16 :XGBOOST是如何寻找最优特征的?
xgboost在训练过程中给出各个特征的增益评分,最大增益的特征会被选出来作为分裂依据,从而记忆了每个特征在模型训练时的重要性,从根到叶子中间节点涉及某特征的次数作为该特征重要性排序。
Q 1.3.17:XGBOOST是如何处理缺失值的?
xgboost为缺失值设定了默认的分裂方向,xgboost在树的构建过程中选择能够最小化训练误差的方向作为默认的分裂方向,即在训练时将缺失值划入左子树计算训练误差,再划入右子树计算训练误差,然后将缺失值划入误差小的方向。
Q 1.3.18 :XGBOOST的并行化是如何实现的?
Q 1.3.19 :XGBOOST采样时有放回的还是无放回的?
xgboost属于boosting方法的一种,所以采样时样本是不放回的,因而每轮计算样本不重复,另外,xgboost支持子采样,每轮计算可以不使用全部的样本,以减少过拟合。另外一点是xgboost还支持列采样,每轮计算按百分比随机抽取一部分特征进行训练,既可以提高速度又能减少过拟合。
Q 1.3.20 :XGBOOST的调参步骤是怎样的?
PS:这里使用Gridsearch cv来穷举检索最佳的参数,如果时间允许,可以通过设置步数先粗调,再细调。
Q 1.3.21 :XGBOOST特征重要性的输出原理?
xgboost是用get_score方法输出特征重要性的,其中importance_type参数支持三种特征重要性的计算方法:
LightGbm
Q 1.3.22 :LightGBM相比XGBOOST在原理和性能上的差异?
1.速度和内存上的优化:
2.准确率上的优化:
3.对类别型特征的处理:
Q 2.1 :什么是特征工程?为什么特征工程对机器学习很重要?
Q 2.2 :特征工程的一般步骤是什么?什么是特征工程的迭代?
特征工程常规步骤:
特征工程的迭代:
Q 2.3 :常用的特征工程方法有哪些?
Q 2.4 :在实际的风控建模中怎么做好特征工程?
本人工作中的一些经验总结:
Q 2.5 :实际项目中原始数据通常有哪些问题?你是如何解决的?
Q 2.6 :在做评分卡或其他模型中,怎么衡量特征(数据)的有用性?
Q 2.7 :为什么探索性数据分析(EDA)在机器学习中非常重要?
Q 2.8 :缺失值的处理方式有哪些?风控建模中该如何合理的处理缺失?
Q 2.9 :如何发现数据中的异常值?对异常值是怎么处理的?
Q 2.10 :对于时间序列特征,连续特征,离散特征这三类是怎么做特征转换的?
Q 2.11 :如何处理样本不平衡的问题?
Q 2.12 :特征衍生的方法有哪些?说说你平时工作中是怎么做特征衍生的?
常规的特征衍生方法:
平时工作特征衍生的做法:
Q 2.13 :特征筛选的作用和目的?筛选的特征需要满足什么要求?
作用和目的:
筛选特征满足的要求:
Q 2.14:特征筛选的方法有哪些?每种方法的优缺点?实际工作中用到了哪些方法?
Filter(过滤法):按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。
Wrapper(封装法):封装式特征选择是利用学习算法的性能评价特征子集的优劣。因此,对于一个待评价的特征子集,Wrapper方法需要训练一个分类器,根据分类器的性能对该特征子集进行评价。
Embedded(嵌入法):先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。
Q 3.1 :简单介绍一下风控模型常用的评估指标。
Q 3.2 :为什么ROC适合不平衡数据的评价?
Q 3.3 :AUC和KS的关系是什么?
Q 3.4 :什么是模型的欠拟合和过拟合?
Q 3.5 :如何判断模型是否存在过拟合或欠拟合?对应的解决方法有哪些?
Q 3.6 :什么是正则化?什么是L1正则化和L2正则化?
Q 3.7 :正则化为什么可以防止过拟合?
最简单的解释是正则化对模型参数添加了先验,在数据少的时候,先验知识可以防止过拟合。举个例子:抛一枚硬币5次,得到的全是正面,则得出结论:正面朝上的概率为1,这类似于模型的过拟合,如果加上硬币朝上的概率是0.5的先验,结果就不会这么离谱,这就是正则。
Q 3.8 :什么是交叉验证?交叉验证的目的是什么?有哪些优点?
交叉验证概念:
交叉验证,就是重复的使用数据,把得到的样本数据进行切分,组合为不同的训练集和测试集,用训练集来训练模型,用测试集来评估模型预测的好坏。在此基础上可以得到多组不同的训练集和测试集,某次训练集中的某样本在下次可能成为测试集中的样本,即所谓"交叉"。
交叉验证的目的:
评估给定算法在特定数据集上训练后的泛化性能,比单次划分训练集和测试集的方法更加稳定,全面。
交叉验证的优点:
Q 3.9 :交叉验证常用的方法有哪些?
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。