赞
踩
DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略
导读:本文章是博主在数据科学和机器学习领域,先后实战过几百个应用案例之后的精心总结,应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时,因为涉及到博主出书中出版社要求在线去重的需要,博主并没有完全把书内的所有内容罗列在本文章内(而以……符号代替原书内容),但是本文章的内容已经足以完整地列出了数据科学领域处理现实任务的思维架构路线。如果大家需要查看更多详细内容,请详见详见博主即将出版的新书《数据驱动世界:机器学习在现实世界中的实战应用》、《语言之舞:跳动的自然语言与大模型实战案例》,同时也感谢大家对本文章提出更加宝贵的意见和建议。
目录
DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略
DS/ML:数据科学技术之机器学习领域六大阶段最强学习路线(初步探索性数据分析EDA→数据预处理/广义的特征工程→模型训练/评估/推理→模型分析/反思/再优化→模型部署与监控→模型全流程优化)详解
1.1、数据科学过程生命周期的核心技术及其对应库或工具:Python语言对比R语言
1.0、基于原始数据的问题抽象与理解:两大意义(明确/指导)+五大原则(多角度/多背景/可行性/价值性/迭代性)+三大方法(面谈/调研/数据分析)
2.1、数据搜集概述:两大目标(数量/质量)+五大原则(相关性/可靠性/完整性/隐私性/持续性)+四大内容
2.1、What—需要哪些数据:筛选两大角度(业务理解/可用性评估)+三大结构
2.1.1、数据所需概述:筛选两大角度(业务理解/可用性评估)
2.2、How—如何获取数据:四大渠道(司内/公开/购买/自制)
2.3、Where—如何存储数据:存储方式/格式+数据表示方式+数据脱敏技术
DS/ML:数据科学技术之常用的数据脱敏算法的简介(替换算法、脱敏算法、混淆算法、数据一致性算法)、应用案例之详细攻略
(1)、常见的单文件存储载体:CSV、JSON、XML、Parquet、HDF5
2.4.1、样本采样的概述:两大意义(降本+提效)+五大采样方法(简单随机SRS/重抽样/业务专家采样/分层/聚类)
2.4.2、数据不均衡的简介及其解决方法:两大层面(数据层【重采样/改权重/数据生成】、算法层【集成学习/代价敏感学习】)
DataScience:数据不均衡-数据采样的简介及其解决方法(重采样/改权重/集成学习EasyEnsemble)、常用工具包、案例应用之详细攻略
DataScience:数据不均衡-数据采样之重采样方法的简介(升采样【SRO/SMOTE/AdaSyn】、降采样【TomekLink】、组合采样【SMOTE+TomekLink】)之详细攻略
ML:MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略
2.5.1、特征初步筛选概述:三种角度(物理+技术指标+业务)
DS/ML:数据科学技术之机器学习领域六大阶段最强学习路线(初步探索性数据分析EDA→数据预处理/广义的特征工程→模型训练/评估/推理→模型分析/反思/再优化→模型部署与监控→模型全流程优化)详解
4.1、传达分析结果+提供决策+落地执行的概述:三大原则(影响性多于精准性/适时获取反馈/持续改进)、两大经验(数据支撑/故事叙述)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。