赞
踩
**价值高:**有价值的数据多了,大数据架构能解决价值密度低的问题吗?
**价值密度低,**如何从低价值密度的全量数据中挖掘出有价值的数据,这就是机器学习算法能解决的问题。
即如何利用数据来盈利?需要通过大数据平台存储和处理后的数据,利用算法来构建模型,从而对现实事件做出欲测。
大数据和机器学习的区别:大数据作基础的数据存储和数据统计计算,而机器学习要通过大数据已经存储好处理好的数据中挖掘大量存在价值的数据。
以书写简历的方式来展开项目描述
1. 项目名称:电信日志分析系统
2. 项目描述:电信日志分析系统是以电信用户上网所产生的数据进行分析和统计计算,数据主要来源于用户上网产生的访问日志和触犯安全条例的安全日志,通过Hadoop大数据平台完成日志的入库、处理、查询、实时分析、上报等功能,达到异常IP的检测、关键词的过滤、违规违法用户的处理,整个项目数据量是在1T--20T左右(小城市1T,大城市/省份20T),集群数量在10台到100台
要点是;要干什么,数据来源,通过大数据平台做了什么事情,最后达到什么功能,数据量有多大,集群数量多大。
3. 项目架构分析
* 数据采集层:ftp,socket方式
* 数据存储层:HDFS
* 数据分析层:MR\HIVE\IMPALA\SPARK
* 机器学习层:在大数据处理后的应用
* 数据展示层:oracle+SSM
4. 项目职责:大家在项目中负责干啥
* 重点负责:实时or离线
* 处理分析了哪些字段,通过何种手段进行分析
* 项目有无优化
5. 项目优化:
* HDFS+Spark(一站式的分析平台)
对于数据来讲,首先了解数据是如何传到系统中的,如何跟业务系统对接?
机器学习、数据挖掘、模式识别都是人工智能的分支。
深度学习用来解决机器学习领域中(比如人脸识别)处理不好的场景,可以把深度学习理解为机器学习中的一种方法。
从数据到信息的过程是数据分析
从信息到有价值的信息的过程是数据挖掘
**数据挖掘和机器学习的区别:**机器学习可以给数据挖掘提供算法模型上的优势
模式识别:图像识别,模式识别也是一件事情,是利用机器学习方法来作的。
机器学习:方法,解决数据挖掘中存在的问题
深度学习方法
数据–数据分析–信息–数据挖掘–有价值信息
什么是机器学习
什么不是机器学习
如何判断问题是否为机器学习问题
规则:制定依赖于专家自己发现的规律。规则属于硬编码(条件判断),
所以不属于机器学习的范畴
区别于硬编码
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。