赞
踩
从学科定位看,数据科学处于数学与统计知识、黑客精神与技能和领域实务知识三大领域的重叠之处。
(1)“数学与统计知识”是数据科学的主要理论基础之一。
(2)“黑客精神与技能”是数据科学家的主要精神追求和技能要求一一大胆创新、喜欢挑战、追求完美和不断改进。
(3)“领域实务知识”是对数据科学家的特殊要求一一不仅需要掌握数学与统计知识以及具备黑客精神与技能,而且还需要精通某一个特定领域的实务知识与经验。
数据科学并不是以一个特定理论 (如统计学、机器学习和数据可视化) 为基础发展起来的,而是包括数学与统计学、计算机科学与技术、数据工程与知识工程、特定学科领域的理论在内的多个理论相互融合后形成的新兴学科。
统计学是数据科学的主要理论基础之一。
1.从行为目的与思维方式看,统计方法可以分为两大类:描述统计和推断统计。
(1)描述统计
采用图表或数学方法描述数据的统计特征, 如分布状态、数值特征等。
(2)推断统计
常用的推断方法有:参数估计和假设检验。
2.方法论角度
从方法论角度看,基于统计的数据分析方法又可分为:基本分析法和元分析法。
(1)基本分析法
(2)元分析法
常用的元分析法:加权平均法和优化方法:
3.统计学在数据科学中的应用案例一一谷歌流感趋势分析
GFT出现预测不准确性的主要原因:
4.数据科学视角下的统计学
以现有的部分数据(称为训练集)为学习素材(输入),通过特定的学习方法(机器学习算法),让机器学习到(输出)能够处理更多或未来数据的新能力(称为目标函数)
语法定义:
如果一个计算机系统在完成某一类任务T的性能P能够随着经验E而改进,则称该系统在从经验E中学习, 并将此系统称为一个学习系统。
关键组成要素:
相关学科:
常用的机器类型:
基本思路:事先将训练样本存储下来,然后每当遇到一个新增査询实例时,学习系统分析此新增实例与以前存储的实例之间的关系, 并据此把一个目标函数值赋给新增实例
常用方法:
本质:从有关某个布尔函数的输入输出训练样本中推算出该布尔函数。
“在已知的样本集合以及每个样本是否属于某一概念的标注的前提下,推断出该概念的一般定义”的问题。
具体方法:Find-s 算法、侯选消除算法等
本质:是一种逼近离散值目标函数的过程。
核心算法:ID3算法
人工神经元
深度学习的关键在于计算观测数据的分层特征及其表示,其中高层特征或因子由底层得到。深度学习可以进一步分为:
• 无监督和生成式学习深度网络:深度置信网络( Deep Belief Network,DBN)、受限玻尔兹曼机( Restricted Boltzmann Machine,RBM)以及和积网络(Sum Product Network,SPN)等。
• 监督学习深度网络:卷积神经网络( Convolutional Neural Network,CN)、层级时间记忆模型( Hierarchical Temporal Memory,HTM)等。
• 混合深度网络:生成式DBN预训练CN,即 deep-cnn
贝叶斯概率引入先验知识和逻辑推理来处理不确定命题。
朴素贝叶斯分类器( Naive Bayes Classifier)
主要研究的问题:
从候选假设空间中搜索出最佳假设:“最佳假设”指“适应度( Fitness)”指标为最优的假设。
特点:使用先验知识来分析或解释每个训练样本,以推理出样本的哪些特征与目标函数相关或不相关。
(1)主要研究:
(2)基本思路
控制策略的学习问题形式化表示方法: 基于马尔可夫决策过程定义方法
根据学习任务的不同,机器学习算法分为:
机器学习领域所面临的主要挑战:
数据科学中常用的统计模型与机器学算法:
1.常用统计模型
2.核心机器学习算法
重要地位主要表现:
(1)视觉是人类获得信息的最主要途径。
(2)相对于统计分析,数据可视化的主要优势体现在两个方面。
(3)可视化能够帮助人们提高理解与处理数据的效率。
1.数据科学视角下的统计学
2.数据科学视角下的机器学习
机器学习领域所面临的主要挑战:
机器学习是数据分析的重要手段,也是数据科学家的重要方法之一。数据科学家不仅需要深入学习机器学习的知识,而且还应以大数据处理为背景将机器学习、数据挖掘、统计学、数据可视化、数据存储和数据计算的知识融合起来。
3.机器学习、统计学、数据可视化的区别和联系:
(1) 统计学和机器学习:
区别:统计学需要事先对处理对象(数据)的概率分布做出假定(如正态分布等),而机器学习则不需要做事先判断;统计学通过各种统计指标(如R方、置信区间等)来评价统计模型(如线性回归模型)的你和优度,而机器学习通过交叉验证或划分训练集和测试集的方法评价算法的准确度。
联系:从理论和方法的角度看,统计学的方法可以应用于机器学习,反之亦然。
(2) 机器学习和数据可视化:
区别:从数据分析的角度去看的话, 两者都是属于数据分析的工具,只是彼此从不同的角度去看数据。机器学习是从模型的角度,数据可视化是从图像的角度。
联系:前者是对复杂模型进行机器学习,通过可视化手段展示结果;后者是可视化中经常需要对数据进行筛选和整理才能更好的做出合理的可视化手段。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。