当前位置:   article > 正文

DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略_ds层、cm层、ml层

ds层、cm层、ml层

DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略

导读:本文章是博主在数据科学和机器学习领域,先后实战过几百个应用案例之后的精心总结,应该是完全覆盖了数据科学的整个生命周期及其各个阶段的要点。其中机器学习领域六大阶段更是在整个数据科学生命周期中扮演着极其重要的角色。同时,因为涉及到博主出书中出版社要求在线去重的需要,博主并没有完全把书内的所有内容罗列在本文章内(而以……符号代替原书内容),但是本文章的内容已经足以完整地列出了数据科学领域处理现实任务的思维架构路线。如果大家需要查看更多详细内容,请详见详见博主即将出版的新书《数据驱动世界:机器学习在现实世界中的实战应用》、《语言之舞:跳动的自然语言与大模型实战案例》,同时也感谢大家对本文章提出更加宝贵的意见和建议。

目录

相关文章

DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略

DS/ML:数据科学技术之机器学习领域六大阶段最强学习路线(初步探索性数据分析EDA→数据预处理/广义的特征工程→模型训练/评估/推理→模型分析/反思/再优化→模型部署与监控→模型全流程优化)详解

AI之MLOPS:数据科学/机器学习算法领域之工程化五大核心技术—MLOPS简介、模型开发(流水线/并行处理/持久化/可解释性)、模型部署(两大底层/四大服务)、模型监控、模型管理、自动化技术之详细攻略

零、数据科学生命周期

1、数据科学生命周期的简介

1.0、数据科学生命周期的概述

1.1、数据科学过程生命周期的核心技术及其对应库或工具:Python语言对比R语言

1.2、Microsoft早期将DS流程生命周期分为4步

2、数据科学任务完整流程:四大层次+六大阶段

3、数据科学任务—常见结构流程图集锦

一、问题抽象与理解→定义问题

1.0、基于原始数据的问题抽象与理解:两大意义(明确/指导)+五大原则(多角度/多背景/可行性/价值性/迭代性)+三大方法(面谈/调研/数据分析)

二、数据认知→数据收集:

2.1、数据搜集概述:两大目标(数量/质量)+五大原则(相关性/可靠性/完整性/隐私性/持续性)+四大内容

2.1、What—需要哪些数据:筛选两大角度(业务理解/可用性评估)+三大结构

2.1.1、数据所需概述:筛选两大角度(业务理解/可用性评估)

2.1.2、数据的分类:结构化数据(固定组织格式+表格形式+明确类型+借助SQL语言分析)、非结构化数据(自由形式+文件形式+借助数据挖掘算法分析)、半结构化数据(介于两者之间+XML/JSON文件等形式+借助XML/JSON解析器分析)

2.2、How—如何获取数据:四大渠道(司内/公开/购买/自制)

2.3、Where—如何存储数据:存储方式/格式+数据表示方式+数据脱敏技术

DS/ML:数据科学技术之常用的数据脱敏算法的简介(替换算法、脱敏算法、混淆算法、数据一致性算法)、应用案例之详细攻略

(1)、常见的单文件存储载体:CSV、JSON、XML、Parquet、HDF5

2.4、样本采样

2.4.1、样本采样的概述:两大意义(降本+提效)+五大采样方法(简单随机SRS/重抽样/业务专家采样/分层/聚类)

2.4.2、数据不均衡的简介及其解决方法:两大层面(数据层【重采样/改权重/数据生成】、算法层【集成学习/代价敏感学习】)

DataScience:数据不均衡-数据采样的简介及其解决方法(重采样/改权重/集成学习EasyEnsemble)、常用工具包、案例应用之详细攻略

DataScience:数据不均衡-数据采样之重采样方法的简介(升采样【SRO/SMOTE/AdaSyn】、降采样【TomekLink】、组合采样【SMOTE+TomekLink】)之详细攻略

ML:MetaCost算法(代价敏感学习/分类任务中的不平衡数据集)的简介(调整少样本权重)、使用方法、案例应用之详细攻略

2.5、特征初步筛选

2.5.1、特征初步筛选概述:三种角度(物理+技术指标+业务)

三、机器学习领域六大阶段详解

DS/ML:数据科学技术之机器学习领域六大阶段最强学习路线(初步探索性数据分析EDA→数据预处理/广义的特征工程→模型训练/评估/推理→模型分析/反思/再优化→模型部署与监控→模型全流程优化)详解

3.1、初步探索性数据分析EDA

3.2、数据预处理/广义的特征工程

3.3、模型训练、评估、推理

3.4、模型分析/反思/再优化

3.5、模型部署与监控

3.6、模型全流程优化

四、分析+决策+执行

4.1、传达分析结果+提供决策+落地执行的概述:三大原则(影响性多于精准性/适时获取反馈/持续改进)、两大经验(数据支撑/故事叙述)


相关文章

DS/ML:数据科学技术之数据科学生命周期(四大层次+机器学习六大阶段+数据挖掘【5+6+6+4+4+1】步骤)的全流程最强学习路线讲解之详细攻略

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/盐析白兔/article/detail/921133
推荐阅读
相关标签
  

闽ICP备14008679号