Hadoop简单应用案例,包括MapReduce、单词统计、HDFS基本操作、web日志分析、Zookeeper基本使用、Hive简单操作等
2024/12/21 18:55:43 29.92MB hadoop
1
随着云时代的到来,大数据也吸引了越来越多多关注。
而Spark做为大数据处理的佼佼者,越来越受到人们的关注。
正是由于Spark技术的出现,使得在云计算上构建超大规模的大数据平台成为了可能。
Spark诞生于伯克利大学AMPLab,是现今大数据领域里最为活跃,最为热门,最为高效的大数据通用计算平台。
Spark是基于MapReduce算法实现的一个分布式计算框架,Spark继承了Hadoop的MapReduce的所有优点,但是比Hadoop更为高效。
Spark成功使用SparkSQL/SparkStreaming/MLlib/GraphX近乎完美的解决了大数据中的BatchProcessing、
1
该文档的目录如下:1.1实验目的1.2实验环境V1.3实验步骤1.3.1安装eclipse1.3.2安装Hadoop-EclipsePlugin1.3.3配置Hadoop-EclipsePlugin1.3.4在Eclipse中操作HDFS中的文件1.3.5在Eclipse中创建MapReduce项目附:查看HDFS文件系统数据的三种方法
2024/11/4 1:38:39 1.34MB hadoop MapReduce
1
网络日志的样本,可用于hadoop进行分析联系,对于练习hive、mapreduce等,可以方便的作为原数据
2024/11/3 22:54:19 1.97MB hadoop 网络日志 分析样本
1
hadoop分布式网络爬虫的实现,采用mapreduce和java,能实现深度搜索
2024/10/24 16:11:09 70KB 网络爬虫 hadoop mapreduce java
1
第一阶段:这一阶段会学习MapReduce、Hive、HDFS、Yarn、Spark等计算框架的开发技术,以及Scala编程语言。
通过项目实践,你能快速掌握这些技术,获得数据开发、数据挖掘、机器学习等职位必备的基本开发能力。
第二阶段:这一阶段会学习FLume、Kafka、SparkStreaming、Flink/Storm、Zookeeper、HBase等计算框架的开发技术,以及大数据体系内的数据采集和数据仓库理论思想和技术实现。
通过项目实践,你能快速掌握这些技术,获得完整的大数据架构开发能力。
第三阶段:这一阶段会学习NLP文本相似度、中文分词、HMM算法、推荐算法CF、回归算法等应用与开发技术,整体认识商业项目-音乐推荐系统。
使用海量真实数据对大数据平台和算法进行应用实践,快速掌握大数据行业具有巨大价值的核心技术。
第四阶段:这一阶段会学习分类算法、聚类算法、分类算法-决策树、分类算法-SVM、神经网络+深度学习,深化前3阶段技术能力,初入机器学习领域。
通过对机器学习核心算法的强化练习,你将能完美胜任目前人才最紧缺的数据挖掘开发职位。
2024/10/13 15:34:27 128B 大数据 机器学习 数据挖掘
1
课程简介:某购物电商网站数据分析平台,分为收集数据、数据分析和数据展示三大层面。
其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用。
课程内容(1)文件收集框架Flume①Flume设计架构、原理(三大组件)②Flume初步使用,实时采集数据③实际案例:使用Flume监控数据,实时收集存储HDFS中(2)大数据分析平台架构①数据平台三大模块让技术产生价值!②分析平台业务数据③大数据平台技术选型和搭建配置测试(3)数据分析平台七大业务分析①具体的七大业务分析,针对不同的数据②将数据收到HDFS/Hive/HBase,使用MapReduce和Hive离线分析,其中涉及地域分析、用户相关信息分析及外链分析等。
③依据业务深入MapReduce使用④数据处理时,针对不同问题如何优化调整等
2024/10/9 9:38:49 889B Hadoop
1
目录软件下载2安装虚拟机管理器2新建虚拟机,安装Ubuntu3锐捷校园认证下虚拟机Ubuntu的联网设置11熟悉Ubuntu系统13安装SSH、配置SSH无密码登陆20安装Java环境22安装Hadoop24Hadoop伪分布式配置25启动Hadoop26运行Hadoop伪分布式实例30启动YARN35附加教程:配置PATH环境变量37使用Eclipse编译运行MapReduce程序(Hadoop-Eclipse-Plugin,建议)38使用Eclipse打包自己的MapReduce程序51不用Hadoop-Eclipse-Plugin编写MapReduce程序54Hadoop集群安装配置教程56HBase安装56HBase伪分布式配置57HBaseShell编程实践60HBaseJAVAAPI编程实践64安装MySQL68Hive安装70Redis安装和使用74MongoDB安装和使用83Neo4j安装和使用96安装Spark103使用SparkShell编写代码104Scala独立应用编程106Java独立应用编程109使用Eclipse编写Spark应用程序(scala+sbt)112使用Eclipse编写Spark应用程序(scala)(建议)121使用Eclipse编写Spark应用程序(java+maven)123使用Eclipse编写Spark应用程序(java)128Storm安装和使用130使用Eclipse编写Storm程序(maven)134Kafka安装142Flume安装151Sqoop安装159Hama安装165使用Eclipse编写Hama应用程序168参考文献:174
2024/9/27 1:24:07 17.37MB hadoop spark storm hbase
1
Cloudera和英特尔公司的工程师们正在通力合作,旨在使Sparkshuffle阶段具有更高的可扩展性和稳定性。
本文对相关方法的设计进行了详细描述。
区别常见的Embarrassingly Parallel系统,类似MapReduce和Apache Spark(Apache Hadoop的下一代数据处理引擎)这样的计算引擎主要区别在于对“all-to-all” 操作的支持上。
和许多分布式引擎一样,MapReduce和Spark的操作通常针对的是被分片数据集的子分片,很多操作每次只处理单个数据节点,同时这些操作所涉及到的数据往往都只存在于这个数据片内。
all-to-all操作必须将数据集看作一个
2024/9/25 10:14:06 326KB 双倍提升ApacheSpark排序性能
1
倒排索引(InvertedIndex)被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射,是目前几乎所有支持全文索引的搜索引擎都需要依赖的一个数据结构。
资源中包含了MapReduce实现的文档倒排索引的源码、jar包、测试数据(包含停词表)和结果。
2024/9/15 10:22:16 3.55MB MapRed Java Hadoop SDU
1
共 81 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡