0%

Matplotlib是Python中最常用的可视化工具之一, 它比较底层,可定制性强、图表资源丰富。

Apache Spark是一种快速的集群计算技术,专为快速计算而设计。它基于Hadoop MapReduce,它扩展了MapReduce模型,以有效地将其用于更多类型的计算,包括交互式查询和流处理。

从事数据开发工作,掌握Hive的性能调优非常重要。

HiveSQL计算两个时间的时间差,并转换为相应的单位。

在数据开发过程中,我们经常会遇到'列转行',也就是要将一个列字段拆分成多条行记录。

在数据开发过程中,我们经常会遇到'行转列',也就是要将多条行记录合并到一个列字段里。

hive提供了一个动态分区功能,其可以基于查询参数的位置去推断分区的名称,从而建立分区。