input文件夹存放的是项目数据源;
wordcount统计每个单词的总数;
count和count1分别使用dataframe和rdd统计人口性别和身高;
demo1最受欢迎的老师的问题;
demo2多文件去重合并;
demo3计算年度最高温度
2024/4/27 8:47:20 67KB spark
1
开始吧下载无业游民的盒子::流浪者盒子添加u16/path/you_downloaded_box无所事事下载hbase,hadoop,spark将下载到./ansible/roles/spark2/files运行ansible-playbook./ansible/playbook.yml-i./ansible/inventory-uvagrant-k密码是vagrant下载jdk8:://pan.baidu.com/s/1bpxfpvD下载hbase:://pan.baidu.com/s/1slhdGhZ下载hadoop::下载星火::检查hdfs:::50070/dfshealth.html#tab-datanode火花:::HBase的:::16010/master-status部署SparkHBase示例字数示例chmod+x./ansible/deploy-wordcount.sh运行./ansible/deploy-wordcount.
2024/3/12 12:22:37 1.28MB ansible spark hadoop hbase
1
hadoop入门例子
2024/3/10 7:50:24 4KB hadoop
1
mapreduce
2024/1/31 6:57:30 60KB mapreduce
1
最近在研究hadoop与mapReduce,网上教程只有个wordcount程序示范,太简单,故写了个相对复杂点的涉及到多个文件之间同时运算的矩阵乘法的代码用于实验与测试,上传供大家学习与参考。
调用方法:执行:hadoopjarmatrix.jarcom.baosight.mapred.test.MatrixMultileft:/tmp/aright:/tmp/boutput:/tmp/cleftprefix:000000_rightprefix:000000_>参数1:left:左矩阵路径>参数2:right:右矩阵路径>参数3:output:左矩阵乘右矩阵结果路径>参数4:leftprefix:左矩阵文件前缀如/tmp/a/000000_0,000000_1,000000_2……的000000_>参数5:rightprefix:右矩阵文件前缀>左右矩阵按列存储,每个文件只存放一列值,如2x2的单位矩阵,000000_0存放10000000_1存放01
2023/12/29 10:37:31 10KB hadoop mapreduce 矩阵运算
1
flink1.9版本自带的wordcount例子,位于flink-1.9.0\examples\streaming目录下
2023/12/3 12:11:43 9KB flink wordcount streaming
1
介绍如何在IntellijIdea中通过创建maven工程配置MapReduce的编程环境。
2023/9/22 22:23:15 65KB MapReduce
1
Hadoop2.x版本中jar不再集中在一个hadoop-core*.jar中,而是分成多个jar,如使用Hadoop2.6.0运行WordCount实例至多需三个jar。
2023/3/18 1:21:12 33.61MB hadoop2.6.0 eclipse 包含包 依赖
1
hadoop2.7.1对应的hadoop.dll,winutils.exe等。
亲测,可用!针对问题:hadoop2.7.1运行Wordcount错误atjava.lang.ProcessBuilder.start(ProcessBuilder.java:1012)Exceptioninthread"main"java.lang.UnsatisfiedLinkError处理办法:1:将文件解压到hadoop的bin目录下2:将hadoop.dll复制到C:\Window\System32下3:添加环境变量HADOOP_HOME,指向hadoop目录4:将%HADOOP_HOME%\bin加入到path里面5:重启myeclipse或者eclipse
2021/8/20 6:43:56 781KB hadoop2.7.1 hadoop.dll winutils.exe Wordcount
1
由于集群资源有限,可能多个应⽤用同时使⽤用Hadoop集群,防⽌止系统资源被单个应⽤用占⽤用过多影响整体集群使⽤用情况,引⼊入资源池管理理集群资源。
unde允许未声明的池OYARN(MR2Included)(服务范围)cyarnschedulerfair.allow-undeclaredpools默认情况下,"A|owUndeclaredpools"可选项是选中的,需要关闭。
否则如果用户指定一个尚未声明的资源池时,比如prod,YARN将会自动生成一个prod资源池。
配置文件修改后需要重新启动YARN服务,重新部署客户端配置。
6.配置“若用户提交任务不指定特定的queue,就使用default资源池”FairScheduerUserAsDefaultQueue使用默认队列时的FairSchedulerOResourceManagerDefaultGroupC当设置为true时,如果未指定池名称,Fair用户Scheduler将会使用用户名作为默认的池名yarnscheduler.fairuser-as-default尔当没为1s时,所有应用程序都在名为default的共享池中运行7.进去动态资源池配置页面clouderamanager群集核图表·倍份●ARN(MR2Include大数据分听平台t50状态宴例配置命令应用程序HHBase主机SHDFS报告利用率报告切换至经奥规划角iHueVImpalaYARN应用栏予v范图bOozemale个查询YAHN(MR2Inclirlen)见围)ksey当论置为te时.如果未指动态资源池配置Scheduler将会使用用户名作为Gateway会SEark2称。
当设置为fdse时,所有应月ucbhlistorySever静态服务池温YARN(MR2Inclut个名为defaut的其享池中运行v类别ClouderaManagementService每页c|ouderaMANAGER群集够断·审楼图表理文持·admn边态资潺池配置(大数分平台)YARNImpalaAdmission(antro源池计划模式放置规贝阳广限制可以嵌,它的每一个级别都可以支持不同的计划程序,如日FC或Farscheduler。
每个池都可以配置为仅允许某些用户和组集访问该池已为3个正在运行的NedeMenacer总共配置72个vcre640当宇节内存。
直看动态责源池钛添创建资需也默认设置访间控制没置最小资源数最大资数虚内板虚拟内核正在运行的应用程序最大量计划策略1500%150.%7.1资源池(资源分配界面)。
主要配置项权重(%):动态权重,资源不是静态的,去其他池相关的资源共享最大最小CPU、内存正在运行的应用程序最大数量●计划策略创建资源池,资源池名称为deV创建资源池资源池名称d口父池Resourcelimits计划策略抢占提交访问控制管理访问控制4与其他池相关的资源共享资源数虚拟内核吉字节:内存Theminumnumberofvirtualcoresandmemoryavailabletothispool.Thistakespriorityovertheweightbasedshare(optional)最大资源数虚拟内核吉字:内存Themaximunnumberofvirtualcoresandmemoryavailabletothispool.Thistakespriorityovertheweightbasedshare(optional)正在运行的应用程序最大池中同时运行的应用程序数量限制。
数量取消创建7.2配置计划策略(对dev资源池控制)编辑资源池ResourceLimits计划策略抢占提交访问控制管理访问控制DRF:Dominantresourcefairness。
根据c門U和内存公平调度资源。
(建议)○FAR仅根据内存公平调度资源FIFC:拥有子池的池不能是FFO。
取消保存7.3提交访问控制(对dev资源池控制)编辑资源池Resourcelimits计划策略抢占提交访问控制管理访问控制此功能仅在“启用ResourceManagerACL"设置为te且“管理ACL"未设置为*时相关。
(请参见顶级页面中的“访问控制设置"。
)Fairscheduler访问控制列表可以控制向池提交应用程序的用户。
对于子池,有杈限提交父池旳用户自动继承子池的相同功能。
○允许任何用尸向该池提交允许这些用户和组向该池提交用户组bi_dev,bi_dev_vipl取消保存7.4管理访问控制(对dev资源池控制)编辑资源池Resourcelimits计划策略抢占提交访问控制管理访问控制此功能仅在"启用ResourceManagerACL"设置为true且“管理ACL未设置为*时相关。
(请参见顶级页面中的"访问控制设置"。
)FairScheduler访问控制列表可以控制可以管理池的用户。
对于子池,有权限管理父池的用户自动继承子池的相同功能○允许任何用户管理该池⊙允许这些用户和组管理该池用户arm组bi_cev,bi_dev_vip保存7.5验证资源池访问控制●新建o用户:yan.yo用户组:Wms为该用户初始化wordcount数据,具体操作见步骤3在执行hadoop命令內加入资源池控制,如下图yan.yhi-bca?-ue-201-]sgroups新的用户组Lyan.jyabi-bcao-ue-001*]5hadoopjar/usr/local/cloud0:56:08INFOinputFileInputFormatTotalinpt18/03/0810:56:08INFDmapreduceJobSubmitter:nuberofsplits8/03/0810:56:09INFOmapreduce,JobSubmitter:Submittingtokensforjob:job_152041指定资源池dev9c23.8/03/0810:56:09INFDmapreduce.Jobsubmitter:Cleaningupthestagingarea/user/ya18/03/0810:56:09WARNsecurity.UserGroupInformation:PriviledgedActionExceptionasauth:SIMPLE)couse:javcioICException:org.apache,hadoop,yarn.exceptions.YarnExceptiFatledtosbitapplication1520413797733_0023tDYARNnstoqueuerootcevvotoIDExceticn:org.apachehadoopyarn.exceptions.YarnExceptian:Failedtosubmitapplication_1520413797733-0023toYARN:UseryanJycamotsubmitapplicaticnstoqueueroanner.java:300)atjavasecurityAccesscontroller.doPrivleged(NativeMethod)tiondoAs(UserGroupInfonmaticnjava:1920)Cob,java:1325)atsunreflectNativeMethodAccessorIpLinvoke(NativeNethodAccessorImpLjava:bZnreflect.DelegatingMethodAccesJava,lcngrefLectanDescription.invoke(ProgramDriver71)Java:74)utsun,I'eeLLNutive:Lhu.Imul,niwuAee(NuLiveveceexyodecessorImpl.java:43)atsunreflectNativeMethodAccesso-ImpLivoke(NativeNetatorg.apache,hadoop,util.RunJar,matnCRunar.java:136Causedby:org.apachehadoopyorn.exceptions.YarnException:Failedtosubmitapplication-1520413797733_0023toYARN:UseryariycarnotsubnitapplicationstoqueLeroot.devatorg.apache,hadoopyarn.clientapiimol,YarndlientInpl,subcation(YarnCLientImpL,java:2570saurccMgrDelcgate.java:290)atorg.apache,hadoopmapredYARNRunnersubritJob(YARNRunne8.计划模式(资源池配置集)可以根据不同时段使用不同的资源池配置。
动态资源池配置(大数据分析平台YaRNMalaArm?Control池计划模式故置规则用广制要确定特定设置问时应处于活动状态,请指定计划规则及规则的评估顷序创速计划则重新持列十划模式顾序每天重复,从早上8点0O分到晚上1点0C分CSD,从2018-02-07开。
2每天重复,从凌属12点00分到早上8点0C分CsT,从20180307开ETLIE编|3在所有其他规则不活用时运行配置了计划模式,资源池会有多套配置,如下图clouderamanager·主机,·审孩图,备份·管理适持warm动态资源池配置(大数据分析平台)YARNImpalaAdmissionControl资源池计划横式款置规则用户限制池可以嵌,它的郎一个级别都可以支排不同的计划程序,如FFO或Farscheduler。
都个池都可以配置为允许某些用户和组集法间该池已为3个正在运行的NodeManager总共配置72个Vcore和640吉字节内存,直看动态资源池状态创建资歇认设置访问控制设置配置集ET时段default资源数最大资原数月户活跃时段名称虛拟内核内存正在运仁的立月程序最大数量计划筑暗ETL时段users116%wonhigh-bl4667计划规则主要控制配置有效时间段,创建计划规则如下图创建计划规则配置集◎新建用户活跃时段default可以将此配置集配置为包含不同的每泡CPU和内存设置。
○使用现有项重复每天全天介于早上8点00分CST:晚上11点0分CsT取消创建9.放置规则主要作用:控制任务(Job、Task)使用资源池规则,即任务会根据以下规则放到对应资源池执行。
clouderaMANAGeR:主机,说图表·音份理搜索dmin动念资源池配置(大数据分析平台)ARNImpalaAdmissionConrol负源池计划模式故置规则用产限制配置YARN如呵确定将在哪个池中运行应月程序创键放置规‖重新列放置观则放规则仅想已在适得时走存在时使用该池编相2仪当root.users.username存在司使用该消编辐|3使用rootdefault此规始终满正。
不会使用后续现则。
10.用户限制主要作用:控制单个用户最大应用程序并发度。
动态资源池配置(大数分析平台)YARNImpalaAdmissionControl密源浊计划模式放置规Q用户见制用户可以同时捉交的最大应用程序数量创建用广阳制默认设置止在行的应用序量大数量操作bide1编辑|动态资源池到这里基本配置完成。
具体配置方案,要根据项目实际情况。
建议:保证默认资源池可以使用,不影响正常使用的情况下配置动态资源池。
2020/1/16 2:18:11 1.67MB cdh 动态资源池 hadoop spark
1
共 11 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡