Spark安装+python操作Spark
Apache Spark是一种快速的集群计算技术,专为快速计算而设计。它基于Hadoop MapReduce,它扩展了MapReduce模型,以有效地将其用于更多类型的计算,包括交互式查询和流处理。
Apache Spark是一种快速的集群计算技术,专为快速计算而设计。它基于Hadoop MapReduce,它扩展了MapReduce模型,以有效地将其用于更多类型的计算,包括交互式查询和流处理。
从事数据开发工作,掌握Hive的性能调优非常重要。
HiveSQL计算两个时间的时间差,并转换为相应的单位。
在数据开发过程中,我们经常会遇到'列转行',也就是要将一个列字段拆分成多条行记录。
在数据开发过程中,我们经常会遇到'行转列',也就是要将多条行记录合并到一个列字段里。
hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。
这里总结一下HiveSQL基本语法和常用函数。
Hive创建完成后需要将一批输入导入或者导出。
Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也秉承了这些特性。 简单来说,Hive就是在Hadoop上架了一层SQL接口,可以将SQL翻译成MapReduce去Hadoop上执行,这样就使得数据开发和分析人员很方便的使用SQL来完成海量数据的统计和分析,而不必使用编程语言开发MapReduce那么麻烦。
一般来说表名需要见名知意,通过表名就可以知道它是哪个业务域,干嘛用的,什么粒度的数据。不同用途的表有一些特殊的命名法则。