上传者: weixin_38643401
|
上传时间:2018/6/20 1:19:43
|
文件大小:557KB
|
文件类型:PDF
Python学习笔记——大数据之Spark简介与环境搭建
Spark是Apache顶级项目里面最火的大数据处理的计算引擎,它目前是担任大数据计算的工作。
包括离线计算或交互式查询、数据挖掘算法、流式计算以及图计算等。
核心组件如下:SparkCore:包含Spark的基本功能;
尤其是定义RDD的API、操作以及这两者上的动作。
其他Spark的库都是构建在RDD和SparkCore之上的。
SparkSQL:提供通过ApacheHive的SQL变体Hive查询语言(HiveQL)与Spark进行交互的API。
每个数据库表被当做一个RDD,SparkSQL查询被转换为Spark操作。
对熟悉Hive和HiveQL的人,Spark可以拿来就用。
SparkStrea
本软件ID:15448805