什么是大数据史上最全大数据理论解析 什么是大数据什么是大数据技术( 三 )


爆发:2017年以来,大数据基本渗透到人们生活的方方面面 。例如:
无处不在的交通违章监控;疫情下的卫生法规 。
这些都是大数据的产物 。
与此同时,优秀的互联网公司已经构建了相对完善的大数据架构,并在各自的业务中进行应用 。各种新的数据库、计算引擎和数据流框架不断涌现,并不断提出新的需求 。随着互联网的成熟和发展,这充分说明了技术对于大数据产业发展的重要性 。随着人工智能、云计算、区块链等新技术与大数据的融合,大数据将释放更多的可能性,迎来全方位的爆发式增长 。
六个工作环节在实践中,大数据系统包括以下几个环节,解决什么问题 。
(1)数据收集
各种数据生产方式都需要我们配备一套完整的数据收集方案 。比如,你要在App上收集用户行为信息,就需要掩埋各种数据 。
(2)数据存储
虽然存储的硬件成本降低了,但毕竟还是有成本的,数据也不能乱堆在存储设备上,所以需要精心设计相应的数据库和文件存储方案来支持这种巨量的数据访问 。
(3)数据的计算
目前主流是批处理和流处理,针对这些模式开发了很多计算框架,比如目前广泛使用的Spark和Flink 。
(4)数据挖掘和分析
针对大量的数据和低密度的值,我们期望用一些巧妙的方案找到有用的信息甚至结论,于是各种算法和工具层出不穷 。
(5)数据的应用
从数据中挖掘出的有价值的信息正在我们身边发挥着巨大的经济价值 。内容推荐、天气预测甚至疫情控制都是在大数据的指导下进行的 。
(6)数据安全
大数据价值巨大,一旦泄露,就会成为不法分子损害我们权益的帮手 。因此,如何保证数据安全也是一个重要的问题 。
大数据时代的思维方式大数据时代,有哪些思维方式可以帮助我们快速投入工作?
全面思考
与总体思维相对应的是抽样思维,长期以来,抽样思维在很多行业和实验中发挥了非常重要的作用 。在数据获取和处理困难的情况下,采样思维是一种极好的权宜之计 。
然而,在大数据场景下,数据采集变得极其便捷,数据存储不再昂贵,各种硬件的性能不断提升,数据的计算速度也越来越快 。特别是很多优秀的R&D机构都推出了强大的大数据架构解决方案,如Hadoop、Spark、Flink等 。,进一步降低了全尺度处理的成本,使全尺度数据分析成为现实 。
容错思维
在总思维的基础上,第二个重要的思维是容错 。
我们生活的世界是复杂的,不确定性让我们的世界充满了各种各样的异常、偏差和错误,所以我们收集的总数据自然存在这些问题,比如数据不完整、错误、收集设备不足、对非结构化数据的认知不同 。过去我们在数据处理上往往追求精益求精,希望用严格的数据筛选策略和足够复杂的计算逻辑得到完美的结果 。但这并不符合实际情况,极度的复杂也导致了泛化性能差 。测试阶段的优秀结果在实际生产环境中往往是不可接受的 。
任何模型的准确率都不可能达到100% 。在大数据的体系下,更应该注重效率的提升 。在这样的前提下,我们应该容忍那些固有的错误,甚至是错误 。
相关思考
因为大数据数量庞大,而且存在各种各样的错误,甚至是差错,数据之间的关系比较复杂 。通过这些数据,我们会发现它包含了各种各样的奇怪的知识,属于“事实”而非“因果”比如当某个地区在百度上搜索“感冒”的人数超过平时的人数时,你可能会从数据中推断出这里有很多人感冒了,做出一些商业决策,比如卖感冒药,但是你很难从这个数据中搞清楚他们为什么感冒了 。因为感冒的原因有很多 。

推荐阅读