• 7.17 MB
  • 2022-04-29 14:00:29 发布

大数据行业发展与基本概念_V10410(PPT41页).ppt

  • 41页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
'大数据基本概念与行业发展 大数据的起源12数据发展简史3国内行业发展 基于历史数据,利用数据建模定量分析不同球员特点,合理搭配,重新组队;打破传统思维,通过分析比赛数据,寻找“性价比”最高球员,运用数据取得成功;布拉德•皮特主演的《点球成金》是一部美国奥斯卡获奖影片,所讲述的是皮特扮演的棒球队总经理利用计算机数据分析,对球队进行了翻天覆地的改造,让一家不起眼的小球队能够取得巨大的成功。电影《点球成金》 仅供开采162年仅供开采45年仅供开采60年2013年,10分钟的信息总量将达1.8ZB2010年全球数据总量1.2ZB,年增长50%数据不再是社会生产的“副产物”,而是可被二次乃至多次加工的原料,从中可以探索更大价值,它变成了生产资料。不可再生资源VS数据2020年全球数据总量将达到40ZB 数据爆炸式增长(每分钟……)Twitter上发布98000+新微博13000+个iPhone应用下载Skype上37万+分钟的语音通话上传6600张新照片到flickr发出1.68亿+条EmailYouTube上上传600+新视频淘宝光棍节10680+个新订单12306出票1840+张 传统处理方式所无法解决的挑战12345挑战数据体量越来越大非结构半结构混杂处理速度要求越来越快数据应用模式创新更丰富的视觉元素 需要性价比更高的储存方式数据库数据仓库 85%半/非结构化的Log/Webpage/Email/PDF/Image/Full-text/MS-Officefile需要不同的数据管理策略当我们想要扩充时,才发觉:架构只能scale-up,scale-out不易处理时间过长,time-to-value受限成本过高,cost-efficiency受限15%结构化的DB/DW遗憾残缺 需要更高效的计算方式规模时间传统大数据 什么是大数据?维基百科:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油” 容量Volume多样Variety价值Value速度Velocity数据体量巨大。从TB级别,跃升到PB级以上。数据类型繁多。日志、视频、图片、GIS等。秒级定律。一般要求在秒级内给出分析结果。利用低价值密度数据,可以带来高价值回报。大数据的“4V”特征 更多的“V”可变性Variability真实性Veracity可视化Visualization数据的含义总是在快速变化的。要考虑具体的上下文。确保数据的真实性,才能保证数据分析的正确性。只有正确的可视化,原始数据才可被投入使用。 大数据的起源12数据发展简史3国内行业发展 数据概述在人类发展历程中,数据表现方式分为两类:模拟数据(声音,文件,图像,视频)数字数据(文字,符号)自从计算机发明以来,数据在计算机中都是以二进制0和1的形式进行保存。鉴于对数据的分类管理需要,随之而来各种各种的数据管理软件应运而生。 数据仓库NoSQLNewSQL关系型数据库集群化大数据数据发展的五个阶段 第一阶段关系型数据库 第二阶段数据仓库DW-DataWarehouse面向主题数据是按照一定的主题域进行组织,一个主题通常与多个操作型信息系统相关。集成的必须保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定某个数据进入数据仓库之后,一般情况下将被长期保留,修改和删除操作很少。反映历史变化仓库中的数据通常包含历史信息,反映过去某一时点到目前的各个阶段的信息。用于支持管理决策 ETLBI 第三阶段NoSQL、NewSQL事务分析互联网OldSQL大数据时代架构多元化NewSQL分析OldSQL事务NoSQL互联网 键值存储数据库NoSQL互联网列式存储数据库文档存储数据库图像存储数据库文件存储数据库消息队列系统 NewSQL分析 第四阶段集群化高可用通常采用Master-Slave或者P2P模式,保障数据的灾备。分片将大规模数据按照一定规则拆分,不同的分片存储在不同的结点。复制数据通常会在集群的多个结点中留存多个数据副本,以保证可靠。混合应用不同的业务场景,会混合使用多种不同的数据存储系统。 服务器1分片处理前分片处理后片服务器1片服务器2片服务器3 服务器1复制前复制后服务器1服务器2服务器3主从复制or对等复制 第五阶段大数据让大象跳舞 Hadoop2.0生态 流式计算框架 搜索引擎框架 某政务大数据项目架构 大数据的起源12数据发展简史3国内行业发展 大数据是如何成为网红的?2005年2008年2011年2015年2016年2012年2014年第一款商用Hadoop项目诞生在美国发表第一个关于大数据的白皮书国家工信部发布物联网十二五规划成为世界经济论坛重要主题之一在我国政府报告中大数据首次出现国务院印发《促进大数据发展行动纲要》大数据“十三五”规划出台 我国大数据的发展阶段时间探索起步期快速推进器规模发展期产业消化期应用成熟期市场认可度1)大数据产业在中国出现,并逐步受到关注,互联网企业率先将应用落地2)2015年我国提出《大数据发展行动纲要》大力支持大数据产业发展,并于2016年提升为国家战略3)大数据概念广泛普及,企业用户不断提升,资本市场高度关注,大数据企业规模化发展4)大数据市场相对成熟,市场热度逐渐消化,大数据企业整合5)行业标准建立、监管规范完善,被广泛应用,行业将趋于稳定发展 我国大数据产业市场规模2017年我国大数据市场规模已达358亿元,年增速达到47.3%。预计2020年,我国大数据市场规模将达到731亿元。 我国大数据主要应用领域市场吸引力应用成熟度教育物流电信交通医疗政府公共服务金融电子商务 我国大数据区域分布京津冀地区依托北京,培育了一大批大数据企业,是目前我国大数据企业集聚最多的地方。珠三角地区依托广州和深圳两个国家超级计算中心的集聚作用,在腾讯、华为、中兴等一批骨干企业的带动下,逐渐形成了大数据集聚发展的趋势。长三角地区依托上海、杭州、南京,吸引了大批大数据企业,上海发布《上海推进大数据研究与发展三年行动计划》,推动大数据在城市管理和民生服务领域应用。大西南地区以贵州、重庆为代表城市,通过积极吸引国内外龙头骨干企业,实现大数据产业在当地的快速发展。 基础资源/云平台数据存储数据采集数据处理数据分析展示应用管理工具实时接入、海量堆积多种结构、海量存储离线统计、实时计算数据仓库、机器学习图形、报表等工具库高可用、高性能集群数据安全大数据的一般利用过程(生命周期) 大数据产业链及细分领域数据采集基础软件硬件应用软件信息服务数据存储数据处理数据分析展示应用●采集设备●存储设备●服务器●咨询与服务●采集、监测软件●智能搜索与分析软件●系统集成●数字交易●云计算●信息安全●数据库软件 大数据-让大象跳舞 '