Python学习100天(从入门到精通系列文章)
文章目录
- Python学习100天(从入门到精通系列文章)
- 前言
- 一、Hive概述
- 1.1 Hive的主要作用
- 1.2 Hive的特点
- 二、环境搭建
- 2.1 准备工作
- 2.2 Java环境
- 2.3 MySQL环境
- 2.4 启动环境
- 三、Hadoop常用命令
- 四、Hive基本语法
- 4.1 数据库操作
- 4.2 创建外部表
- 4.3 加载数据
- 4.4 分区表
- 4.5 数据查询示例
- 4.6 分组聚合
- 五、Hive数据类型与建表
- 5.1 数据类型
- 5.2 表类型对比
- 5.3 常用修饰符
- 六、Hive常用函数
- 6.1 数学函数
- 6.2 字符串函数
- 6.3 日期时间函数
- 6.4 聚合函数
- 6.5 窗口函数
- 七、HiveSQL vs MySQL对比
- 八、性能优化
- 总结
前言
学完了 MySQL数据库的操作,我们已经掌握了关系型数据库的核心技能。但面对海量数据时,传统的关系型数据库往往会力不从心。今天我们来学习 Hive——Apache 旗下最流行的大数据仓库工具,它能用 SQL 的方式处理 PB 级别的数据,是大数据工程师的必备技能。
一、Hive概述
Hive 是 Facebook 开源的一款基于 Hadoop 的数据仓库工具,目前由 Apache 软件基金会维护,它是应用最为广泛的大数据解决方案。
简单来说,Hive 能将 SQL 查询转变为 MapReduce 或 Spark 任务,对 SQL 提供了完美的支持,能够非常方便地实现大数据统计,让不会使用 Java、Scala 语言的人也可以玩转大数据平台和分布式文件系统。
1.1 Hive的主要作用
- 将结构化的数据文件映射为一张表。
- 提供类 SQL 的查询语言 HiveQL 来操作大规模数据。
- 底层依赖 Hadoop 的 HDFS 存储和 MapReduce / Spark / Tez 引擎执行任务。
1.2 Hive的特点
| 特点 | 说明 |
|---|