当前位置:   article > 正文

大数据初步了解(个人学习笔记)_数据量庞大 数据类型繁多

数据量庞大 数据类型繁多

大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

1.大数据的特征

大数据一般具有4个特征:数据量大、数据类型繁多、数据产生速度快及数据价值密度低

(1)数据量大:就是指的海量数据。(1ZB=1024EB, 1EB=1024PB, 1PB=1024TB, 1TB=1024GB)

(2)数据类型繁多:包括结构化数据、非结构化数据和半结构化数据。

  • 结构化数据:常指存储关系在数据库中的数据,该数据遵循某种标准。(如:企业财务报表、学生档案数据等)
  • 非结构化数据:常指不规则或不完整的数据。(如:办公文档、XML、HTML、图片、音频、视频等)它可能是文本或非文本,也可能是人为的或机器生成的。也可以存储在像NoSQL这样的非关系数据库中。
  • 半结构化数据:常指有一定的结构与一致性约束,但在本质上不存在关系的数据。(如:常用于跨平台传输的XML数据及JSON数据等)
  • 需要注意的是,非结构化数据具有内部结构,但不通过预定义的数据模型或模式进行结构化。

(3)数据产生速度快:“快”分为数据产生得快数据处理得快两个层面。

“1秒定律”:要在秒级时间范围内给出分析结果,超出这个时间,数据就是去价值了。

大数据是一种以实时数据处理、实时结果导向为特征的解决方案。

  • 数据产生得快:数据有爆发式发生(如:欧洲核子研究中心的大型强子对撞机在工作状态下每秒产生拍字节PB级的数据)和涓涓细流式产生(如:点击流、日志、博客、论坛、发邮件、GPS等)。
  • 数据处理得快:大数据有批处理“静止数据”变“正使用数据”)和流处理“动态数据”变“正使用数据”)两种范式,以实现快速的数据处理。

(4)数据价值密度低:由于数据采集的不及时,数据样本不全面,数据可能不连续等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。

2.大数据关键技术

4个关键技术:大数据采集、大数据预处理、大数据存储、大数据分析挖掘。

(1)大数据采集:就是对数据进行ETLextract transform load)操作。即:数据从数据来源经过抽取、转换、加载到目的端,然后进行处理分析的过程。

大数据采集中面临的主要问题:

  1. 数据源多种多样。
  2. 数据量大、变化快。
  3. 如何保证数据采集的可靠性。
  4. 如何避免重复数据。
  5. 如何保证数据的质量。

很多互联网企业都有自己的海量数据采集工具,多用于日志采集,如Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构

(2)大数据预处理:现实中的数据大多是“数据如缺少属性值或紧紧包含聚集数据等),因此需要人们对数据进行预处理。

数据预处理技术主要有(处理“脏”数据的主要技术):

  • 数据清理:用来清除数据中的草绳,纠正不一致。
  • 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。
  • 数据规约:通过聚集、删除冗余特征或聚类来降低数据的规模。
  • 数据变换:把数据压缩到较小的区间(如[0,1])可以提高涉及距离度量的挖掘算法的准确率和效率。

(3)大数据存储:是将数量巨大、难以收集、处理、分析的数据集持久化到计算机中。

为了能快速、稳定地存取这些数据,至少得依赖于磁盘阵列。同时,还得通过分布式存储方式将不同区域、类别、级别的数据存放于不同的磁盘阵列中。

分布式存储系统主要包含以下两类:

分布式文件系统分布式键值系统
原理存储管理需要多种技术的协同工作,其中文件系统为其提供最底层存储能力的支持存储和管理的是对象而不是数据块。
特征适用于批处理,能够提供高吞吐的数据访问。用于存储关系简单的半结构化数据。
典例HDFS(是一个高度容错性系统)Amazon Dynamo、对象存储技术(object storage)

(4)大数据分析挖掘:目的是把隐藏在一大批看起来杂乱无章的数据中的信息,集中起来进行萃取、提炼,以找出研究对象的内在规律。

大数据分析与挖掘主要包含两个内容:可视化分析与数据挖掘算法。

  • 可视化分析:分析大数据时最基本的要求。
  • 大数据挖掘算法的选择。是大数据分析中的理论核心。数据挖掘算法是根据数据创建数据挖掘模型的一组试探法和计算。创建模型时,算法:①分析用户提供的数据。②针对特定类型的模式和趋势进行查找。③使用分析结果定义用于创建挖掘模型的最佳参数。④将这些参数用于整个数据集。⑤提取可行模式和详细统计信息。(挖掘算法中常采用人机交互技术)

3.大数据计算模式

即:根据大数据的不同数据特征和计算特征,从多样性的大数据计算问题和需求提炼并建立的各种高层抽象(abstraction)或模型(model)

MapReduce主要适合于进行大数据线下批处理。(缺点:)在面向低延迟具有复杂数据关系复杂计算的大数据问题时有很大的不适应性

大数据计算模式对应的系统如下:

  • 大数据查询与分析计算:HBase、Hive、Cassandra、Premel、Impala、Shark、Hana、Redis。
  • 批处理计算:MapReduce、Spark。
  • 流式计算:Scribe、Flume、Storm、S4、SparkStreaming。
  • 迭代计算:HaLoop、iMapReduce、Twister、Spark。
  • 图计算:Pregel、PowerGrapg、GraphX
  • 内存计算:Dremel、Hana、Redis。

4.大数据框架

大数据框架:是对于可以进行大数据分析处理工具的集合,主要用于负责对大数据系统中的数据进行计算

其中,

  • 数据:包括从持久存储中读取的数据通过消息队列等方式接入到系统中的数据
  • 计算:从数据中提取信息的过程。

按照所处理的数据形式得到结果的时效性分类,大数据处理框架可以分为三类:批处理系统、流处理系统和混合处理系统。

三类框架的总结和比较(简略版):

批处理系统流处理系统混合处理系统
概念批处理是一种用来计算大规模数据集的方法。是指用于处理永不停止地接入数据的系统。分为逐项处理和微批处理。一些处理框架可同时处理批处理和流处理工作负载。
特征有限、持久、海量。主要操作大量的、静态的数据。并不对已存在的数据集进行操作,而是对从外部系统接入的数据进行处理。1.提供处理数据所需方法。2.提供自己的集成项、库、工具
适用场景处理非常巨大的数据集时,批处理系统是最有效的实时性要求较高的场景(如:日志分析、设备监控、网站实时流量变化等)可胜任图形分析、机器学习、交互式查询等多种任务。
不适用场景延时要求较高的场景。//
典例HadoopStormSpark、Flink

(注:表格中标注“/”的位置为我不了解的内容,知道的朋友欢迎评论帮我补充,谢谢啦)

主流框架的选择与比较:

HadoopStormSparkFlink
适用场景仅需要批处理的工作负载(如果对时间不敏感)。仅需要流处理的工作负载。对于混合型工作负载对于混合型工作负载
优点成本更低。可支持更广泛的语言实现极低延迟的处理可提供**高速批处理和微批处理模式的流处理。**该技术的支持更完善,具备各种集成库和工具,可实现灵活的集成。**提供了真正的流处理并具备批处理能力。**通过深度优化可运行针对其他平台编写的任务,提供低延迟的处理。
缺点/默认配置可能产生重复结果并无法保证顺序。/实际应用方面还为时过早

(注:表格中标注“/”的位置为我不了解的内容,知道的朋友欢迎评论帮我补充,谢谢啦)

具体使用哪个框架主要取决于待处理数据的状态,对处理所需时间的需求,以及希望得到的结果

5.大数据与云计算

大数据的本质就是利用计算机集群来处理大批量数据,大数据的技术关注点在于如何将数据分发给不同的计算机进行存储和处理。

云计算的本质是将计算能力作为一种较小颗粒度的服务提供给用户,按需使用和付费。

云计算的特点:

  • 经济性:不需要购买整个服务器。
  • 快捷性:即刻使用,不需要长时间购买和安装部署。
  • 弹性:随着业务增长可以购买更多的计算资源,可以需要时购买几十台服务器的1个小时时间,运算完成就释放。
  • 自动化:不需要通过人来完成资源的分配和部署,通过API可以自动创建云主机等服务。

(1)大数据与云计算的联系

  • 云计算就是计算机硬件资源的虚拟化。
  • 大数据是对于海量数据的高效处理。
  • 大数据+云计算:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。

(2)大数据与云计算的区别

云计算大数据
概念改变了IT。改变了业务。
目标受众CIO等关心的技术层,是一个进阶的IT解决方案。CEO关注的业务层产品,大数据的决策者是业务层。
  • 大数据必须有云作为基础架构,才能得以顺畅运营。
  • 大数据和云计算二者已彼此渗透,密不可分。

6.大数据与人工智能

人工智能(artificial intelligence,AI):

概念:人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

主要目标:使机器能够胜任一些通常需要人类智能才能完成的复杂工作。

主要应用:

  1. 图像识别与语音识别。
  2. 人机对弈。
  3. 智能控制与智能搜索。
  4. 机器人的研究与应用。
  • 人工智能是对人脑思维过程的模拟与思维能力的模仿。

(1)大数据与人工智能的区别:

大数据人工智能
概念大数据和云计算都是技术上的概念。人工智能是应用层面的概念。
实现主要依靠海量数据帮助人们对问题作出更好的判断和分析。是一种计算形式,它允许机器执行认知功能。(如:代替人类对认知结果作出决定)
  • 人工智能的技术前提是云计算和大数据。
  • 大数据为人工智能的发展提供了足够多的样本和数据模型。

7.总结回顾

这里选择我自己认为比较重要的几个知识点回顾提炼一下。(这里的问题都是脑子里回味一下能答出个大概就可以,具体回答可以往上面翻基本都写了。)

  1. 什么是大数据?
  2. 大数据的4个特征?
  3. 什么是结构化数据、非结构化数据和半结构化数据?他们之间的区别和联系是什么?
  4. 大数据有哪些框架?
  5. 大数据、云计算和人工智能三者之间的区别和联系是什么?

这里是我个人回顾的一个简单的回答,如果哪里写错了或者表达不够准确的欢迎朋友们评论告诉我。

  1. 关键词:无法在一定时间内用常规工具捕捉处理;数据集合;海量、高增长率和多样化的信息资产。(这个具体我写在了文章的最开头大数据的定义,自己脑子里简单回顾一下就可以了。)
  2. 关键词:量大、类型多、产速快、价值密度低。(即:数据量大、数据类型繁多、数据产生速度快及数据价值密度低。)
  3. 三个数据类型的理解顾名思义,但是一定要注意的是非结构化数据具有内部结构,它常指不规则或不完整的数据。结构化数据可以联系关系型数据库里建的表来理解。半结构化数据就是有一定结构和一致性约束但本质不存在关系。区别从他们的定义就可以看出来了。这里他们的联系我也没想到要怎么说,我理解的是实际开发中或者企业中处理数据多是三种数据都有混合在一起的?如果有清楚的朋友欢迎告诉我。
  4. 三类框架:批处理系统、流处理系统和混合处理系统。
  5. 关键词:云计算是技术层产品;大数据是业务层产品;云计算便利了大数据;人工智能是应用层面的概念;大数据是帮助人判断;人工智能是代替人做决定;云计算和大数据为人工智能提供技术支持。(具体可以看我上面的表格,还是比较清晰的我感觉)

参考文档:

参考的是《大数据分析 Python爬虫、数据清洗和数据可视化》黄源、蒋文豪、徐受蓉主编的,清华大学出版社的,这里我看的是实体书,没有电子版的可以分享给大家,有兴趣的可以自己去找来看看,他里面还有一些配图用来理解一些定义和关系挺清楚的。本文就是我对书里我认为重要的内容做了个笔记总结等。哪里写的不对或者表达不够准确欢迎告诉我哦。(如果有人看的话哈哈哈)

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/855098
推荐阅读
相关标签
  

闽ICP备14008679号