PDI最佳理论etl开发必备手册
2023/3/10 20:43:46 150KB etl pdi 最佳实践 大数据
1
Kettle完整的开发手册,多个控件说明,有流程实例,在国内缺少kettle学习材料值得一看
2023/2/16 8:27:20 7.91MB etl BI kettle ettl
1
etl工具,infomatica,nformaticaEnterpriseDataIntegration包括InformaticaPowerCenter和InformaticaPowerExchange两大产品,凭借其高功能、可充分扩展的平台,可以解决几乎所有数据集成项目和企业集成方案。
·InformaticaPowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可以按任意速度在企业内交付数据,具有高功能、高可扩展性、高可用性的特点。
InformaticaPowerCenter包括4个不同版本,即:标准版,实时版,高级版,云计算版。
同时,它还提供了多个可选的组件,以扩展InformaticaPowerCenter的核心数据集成功能,这些组件包括:数据清洗和匹配、数据屏蔽、数据验证、Teradata双负载、企业网格、元数据交换、下推优化(PushdownOptimization)、团队开发和非结构化数据等。
2023/2/15 1:38:42 309KB infoma
1
PentahoKettle处理方案:使用PDI构建开源ETL处理方案MattCasters,RolandBouman,JosvanDongen等著,初建军,蔡雪梅译仅用于学习使用,不得用于商业用途,如有侵权,请告知
2023/2/4 7:25:07 94.42MB ETL Kettle
1
中文译本,高清版本,详细讲解维度模型设计与完成方案,缓慢变化维完成技术。
2023/1/11 12:12:30 4.25MB dw etl
1
真实ETL工作项目经历,处理面试中项目问题
2022/11/27 23:48:53 1.71MB 面试 etl 职场和发展 数据仓库
1
BI项目中ETL设计与思考.docxDataStage(ETL)技术总结.docxETL增量抽取.docxETL增量抽取方式.docxETL工具点评.docxETL常见功能瓶颈.docxETL构建企业级数据仓库五步法.docxETL高级教程.docx三大主流ETL工具选型.docx什么是ETL.docx商业智能通过SSIS设计ETL来将Oracle,DB2,Sybase等数据源的数据定期导入到数据仓库.docx商务智能(BI)的四大关键技术-ETL(抽取(Extract)、转换(Transform)和加载(Load)).docx选择合适的ETL工具满足数据整合功能挑战.docx
2021/9/4 2:30:55 178KB ETL BI DATASTAGE 增量抽取
1
9.1版本Kettle,很好的开源ETL工具,免安装,直接解压运用,百度网盘链接,官网巨慢,搬运不易!
2020/10/25 18:14:31 204B etl kettle
1
由于集群资源有限,可能多个应⽤用同时使⽤用Hadoop集群,防⽌止系统资源被单个应⽤用占⽤用过多影响整体集群使⽤用情况,引⼊入资源池管理理集群资源。
unde允许未声明的池OYARN(MR2Included)(服务范围)cyarnschedulerfair.allow-undeclaredpools默认情况下,"A|owUndeclaredpools"可选项是选中的,需要关闭。
否则如果用户指定一个尚未声明的资源池时,比如prod,YARN将会自动生成一个prod资源池。
配置文件修改后需要重新启动YARN服务,重新部署客户端配置。
6.配置“若用户提交任务不指定特定的queue,就使用default资源池”FairScheduerUserAsDefaultQueue使用默认队列时的FairSchedulerOResourceManagerDefaultGroupC当设置为true时,如果未指定池名称,Fair用户Scheduler将会使用用户名作为默认的池名yarnscheduler.fairuser-as-default尔当没为1s时,所有应用程序都在名为default的共享池中运行7.进去动态资源池配置页面clouderamanager群集核图表·倍份●ARN(MR2Include大数据分听平台t50状态宴例配置命令应用程序HHBase主机SHDFS报告利用率报告切换至经奥规划角iHueVImpalaYARN应用栏予v范图bOozemale个查询YAHN(MR2Inclirlen)见围)ksey当论置为te时.如果未指动态资源池配置Scheduler将会使用用户名作为Gateway会SEark2称。
当设置为fdse时,所有应月ucbhlistorySever静态服务池温YARN(MR2Inclut个名为defaut的其享池中运行v类别ClouderaManagementService每页c|ouderaMANAGER群集够断·审楼图表理文持·admn边态资潺池配置(大数分平台)YARNImpalaAdmission(antro源池计划模式放置规贝阳广限制可以嵌,它的每一个级别都可以支持不同的计划程序,如日FC或Farscheduler。
每个池都可以配置为仅允许某些用户和组集访问该池已为3个正在运行的NedeMenacer总共配置72个vcre640当宇节内存。
直看动态责源池钛添创建资需也默认设置访间控制没置最小资源数最大资数虚内板虚拟内核正在运行的应用程序最大量计划策略1500%150.%7.1资源池(资源分配界面)。
主要配置项权重(%):动态权重,资源不是静态的,去其他池相关的资源共享最大最小CPU、内存正在运行的应用程序最大数量●计划策略创建资源池,资源池名称为deV创建资源池资源池名称d口父池Resourcelimits计划策略抢占提交访问控制管理访问控制4与其他池相关的资源共享资源数虚拟内核吉字节:内存Theminumnumberofvirtualcoresandmemoryavailabletothispool.Thistakespriorityovertheweightbasedshare(optional)最大资源数虚拟内核吉字:内存Themaximunnumberofvirtualcoresandmemoryavailabletothispool.Thistakespriorityovertheweightbasedshare(optional)正在运行的应用程序最大池中同时运行的应用程序数量限制。
数量取消创建7.2配置计划策略(对dev资源池控制)编辑资源池ResourceLimits计划策略抢占提交访问控制管理访问控制DRF:Dominantresourcefairness。
根据c門U和内存公平调度资源。
(建议)○FAR仅根据内存公平调度资源FIFC:拥有子池的池不能是FFO。
取消保存7.3提交访问控制(对dev资源池控制)编辑资源池Resourcelimits计划策略抢占提交访问控制管理访问控制此功能仅在“启用ResourceManagerACL"设置为te且“管理ACL"未设置为*时相关。
(请参见顶级页面中的“访问控制设置"。
)Fairscheduler访问控制列表可以控制向池提交应用程序的用户。
对于子池,有杈限提交父池旳用户自动继承子池的相同功能。
○允许任何用尸向该池提交允许这些用户和组向该池提交用户组bi_dev,bi_dev_vipl取消保存7.4管理访问控制(对dev资源池控制)编辑资源池Resourcelimits计划策略抢占提交访问控制管理访问控制此功能仅在"启用ResourceManagerACL"设置为true且“管理ACL未设置为*时相关。
(请参见顶级页面中的"访问控制设置"。
)FairScheduler访问控制列表可以控制可以管理池的用户。
对于子池,有权限管理父池的用户自动继承子池的相同功能○允许任何用户管理该池⊙允许这些用户和组管理该池用户arm组bi_cev,bi_dev_vip保存7.5验证资源池访问控制●新建o用户:yan.yo用户组:Wms为该用户初始化wordcount数据,具体操作见步骤3在执行hadoop命令內加入资源池控制,如下图yan.yhi-bca?-ue-201-]sgroups新的用户组Lyan.jyabi-bcao-ue-001*]5hadoopjar/usr/local/cloud0:56:08INFOinputFileInputFormatTotalinpt18/03/0810:56:08INFDmapreduceJobSubmitter:nuberofsplits8/03/0810:56:09INFOmapreduce,JobSubmitter:Submittingtokensforjob:job_152041指定资源池dev9c23.8/03/0810:56:09INFDmapreduce.Jobsubmitter:Cleaningupthestagingarea/user/ya18/03/0810:56:09WARNsecurity.UserGroupInformation:PriviledgedActionExceptionasauth:SIMPLE)couse:javcioICException:org.apache,hadoop,yarn.exceptions.YarnExceptiFatledtosbitapplication1520413797733_0023tDYARNnstoqueuerootcevvotoIDExceticn:org.apachehadoopyarn.exceptions.YarnExceptian:Failedtosubmitapplication_1520413797733-0023toYARN:UseryanJycamotsubmitapplicaticnstoqueueroanner.java:300)atjavasecurityAccesscontroller.doPrivleged(NativeMethod)tiondoAs(UserGroupInfonmaticnjava:1920)Cob,java:1325)atsunreflectNativeMethodAccessorIpLinvoke(NativeNethodAccessorImpLjava:bZnreflect.DelegatingMethodAccesJava,lcngrefLectanDescription.invoke(ProgramDriver71)Java:74)utsun,I'eeLLNutive:Lhu.Imul,niwuAee(NuLiveveceexyodecessorImpl.java:43)atsunreflectNativeMethodAccesso-ImpLivoke(NativeNetatorg.apache,hadoop,util.RunJar,matnCRunar.java:136Causedby:org.apachehadoopyorn.exceptions.YarnException:Failedtosubmitapplication-1520413797733_0023toYARN:UseryariycarnotsubnitapplicationstoqueLeroot.devatorg.apache,hadoopyarn.clientapiimol,YarndlientInpl,subcation(YarnCLientImpL,java:2570saurccMgrDelcgate.java:290)atorg.apache,hadoopmapredYARNRunnersubritJob(YARNRunne8.计划模式(资源池配置集)可以根据不同时段使用不同的资源池配置。
动态资源池配置(大数据分析平台YaRNMalaArm?Control池计划模式故置规则用广制要确定特定设置问时应处于活动状态,请指定计划规则及规则的评估顷序创速计划则重新持列十划模式顾序每天重复,从早上8点0O分到晚上1点0C分CSD,从2018-02-07开。
2每天重复,从凌属12点00分到早上8点0C分CsT,从20180307开ETLIE编|3在所有其他规则不活用时运行配置了计划模式,资源池会有多套配置,如下图clouderamanager·主机,·审孩图,备份·管理适持warm动态资源池配置(大数据分析平台)YARNImpalaAdmissionControl资源池计划横式款置规则用户限制池可以嵌,它的郎一个级别都可以支排不同的计划程序,如FFO或Farscheduler。
都个池都可以配置为允许某些用户和组集法间该池已为3个正在运行的NodeManager总共配置72个Vcore和640吉字节内存,直看动态资源池状态创建资歇认设置访问控制设置配置集ET时段default资源数最大资原数月户活跃时段名称虛拟内核内存正在运仁的立月程序最大数量计划筑暗ETL时段users116%wonhigh-bl4667计划规则主要控制配置有效时间段,创建计划规则如下图创建计划规则配置集◎新建用户活跃时段default可以将此配置集配置为包含不同的每泡CPU和内存设置。
○使用现有项重复每天全天介于早上8点00分CST:晚上11点0分CsT取消创建9.放置规则主要作用:控制任务(Job、Task)使用资源池规则,即任务会根据以下规则放到对应资源池执行。
clouderaMANAGeR:主机,说图表·音份理搜索dmin动念资源池配置(大数据分析平台)ARNImpalaAdmissionConrol负源池计划模式故置规则用产限制配置YARN如呵确定将在哪个池中运行应月程序创键放置规‖重新列放置观则放规则仅想已在适得时走存在时使用该池编相2仪当root.users.username存在司使用该消编辐|3使用rootdefault此规始终满正。
不会使用后续现则。
10.用户限制主要作用:控制单个用户最大应用程序并发度。
动态资源池配置(大数分析平台)YARNImpalaAdmissionControl密源浊计划模式放置规Q用户见制用户可以同时捉交的最大应用程序数量创建用广阳制默认设置止在行的应用序量大数量操作bide1编辑|动态资源池到这里基本配置完成。
具体配置方案,要根据项目实际情况。
建议:保证默认资源池可以使用,不影响正常使用的情况下配置动态资源池。
2020/1/16 2:18:11 1.67MB cdh 动态资源池 hadoop spark
1
由于集群资源有限,可能多个应⽤用同时使⽤用Hadoop集群,防⽌止系统资源被单个应⽤用占⽤用过多影响整体集群使⽤用情况,引⼊入资源池管理理集群资源。
unde允许未声明的池OYARN(MR2Included)(服务范围)cyarnschedulerfair.allow-undeclaredpools默认情况下,"A|owUndeclaredpools"可选项是选中的,需要关闭。
否则如果用户指定一个尚未声明的资源池时,比如prod,YARN将会自动生成一个prod资源池。
配置文件修改后需要重新启动YARN服务,重新部署客户端配置。
6.配置“若用户提交任务不指定特定的queue,就使用default资源池”FairScheduerUserAsDefaultQueue使用默认队列时的FairSchedulerOResourceManagerDefaultGroupC当设置为true时,如果未指定池名称,Fair用户Scheduler将会使用用户名作为默认的池名yarnscheduler.fairuser-as-default尔当没为1s时,所有应用程序都在名为default的共享池中运行7.进去动态资源池配置页面clouderamanager群集核图表·倍份●ARN(MR2Include大数据分听平台t50状态宴例配置命令应用程序HHBase主机SHDFS报告利用率报告切换至经奥规划角iHueVImpalaYARN应用栏予v范图bOozemale个查询YAHN(MR2Inclirlen)见围)ksey当论置为te时.如果未指动态资源池配置Scheduler将会使用用户名作为Gateway会SEark2称。
当设置为fdse时,所有应月ucbhlistorySever静态服务池温YARN(MR2Inclut个名为defaut的其享池中运行v类别ClouderaManagementService每页c|ouderaMANAGER群集够断·审楼图表理文持·admn边态资潺池配置(大数分平台)YARNImpalaAdmission(antro源池计划模式放置规贝阳广限制可以嵌,它的每一个级别都可以支持不同的计划程序,如日FC或Farscheduler。
每个池都可以配置为仅允许某些用户和组集访问该池已为3个正在运行的NedeMenacer总共配置72个vcre640当宇节内存。
直看动态责源池钛添创建资需也默认设置访间控制没置最小资源数最大资数虚内板虚拟内核正在运行的应用程序最大量计划策略1500%150.%7.1资源池(资源分配界面)。
主要配置项权重(%):动态权重,资源不是静态的,去其他池相关的资源共享最大最小CPU、内存正在运行的应用程序最大数量●计划策略创建资源池,资源池名称为deV创建资源池资源池名称d口父池Resourcelimits计划策略抢占提交访问控制管理访问控制4与其他池相关的资源共享资源数虚拟内核吉字节:内存Theminumnumberofvirtualcoresandmemoryavailabletothispool.Thistakespriorityovertheweightbasedshare(optional)最大资源数虚拟内核吉字:内存Themaximunnumberofvirtualcoresandmemoryavailabletothispool.Thistakespriorityovertheweightbasedshare(optional)正在运行的应用程序最大池中同时运行的应用程序数量限制。
数量取消创建7.2配置计划策略(对dev资源池控制)编辑资源池ResourceLimits计划策略抢占提交访问控制管理访问控制DRF:Dominantresourcefairness。
根据c門U和内存公平调度资源。
(建议)○FAR仅根据内存公平调度资源FIFC:拥有子池的池不能是FFO。
取消保存7.3提交访问控制(对dev资源池控制)编辑资源池Resourcelimits计划策略抢占提交访问控制管理访问控制此功能仅在“启用ResourceManagerACL"设置为te且“管理ACL"未设置为*时相关。
(请参见顶级页面中的“访问控制设置"。
)Fairscheduler访问控制列表可以控制向池提交应用程序的用户。
对于子池,有杈限提交父池旳用户自动继承子池的相同功能。
○允许任何用尸向该池提交允许这些用户和组向该池提交用户组bi_dev,bi_dev_vipl取消保存7.4管理访问控制(对dev资源池控制)编辑资源池Resourcelimits计划策略抢占提交访问控制管理访问控制此功能仅在"启用ResourceManagerACL"设置为true且“管理ACL未设置为*时相关。
(请参见顶级页面中的"访问控制设置"。
)FairScheduler访问控制列表可以控制可以管理池的用户。
对于子池,有权限管理父池的用户自动继承子池的相同功能○允许任何用户管理该池⊙允许这些用户和组管理该池用户arm组bi_cev,bi_dev_vip保存7.5验证资源池访问控制●新建o用户:yan.yo用户组:Wms为该用户初始化wordcount数据,具体操作见步骤3在执行hadoop命令內加入资源池控制,如下图yan.yhi-bca?-ue-201-]sgroups新的用户组Lyan.jyabi-bcao-ue-001*]5hadoopjar/usr/local/cloud0:56:08INFOinputFileInputFormatTotalinpt18/03/0810:56:08INFDmapreduceJobSubmitter:nuberofsplits8/03/0810:56:09INFOmapreduce,JobSubmitter:Submittingtokensforjob:job_152041指定资源池dev9c23.8/03/0810:56:09INFDmapreduce.Jobsubmitter:Cleaningupthestagingarea/user/ya18/03/0810:56:09WARNsecurity.UserGroupInformation:PriviledgedActionExceptionasauth:SIMPLE)couse:javcioICException:org.apache,hadoop,yarn.exceptions.YarnExceptiFatledtosbitapplication1520413797733_0023tDYARNnstoqueuerootcevvotoIDExceticn:org.apachehadoopyarn.exceptions.YarnExceptian:Failedtosubmitapplication_1520413797733-0023toYARN:UseryanJycamotsubmitapplicaticnstoqueueroanner.java:300)atjavasecurityAccesscontroller.doPrivleged(NativeMethod)tiondoAs(UserGroupInfonmaticnjava:1920)Cob,java:1325)atsunreflectNativeMethodAccessorIpLinvoke(NativeNethodAccessorImpLjava:bZnreflect.DelegatingMethodAccesJava,lcngrefLectanDescription.invoke(ProgramDriver71)Java:74)utsun,I'eeLLNutive:Lhu.Imul,niwuAee(NuLiveveceexyodecessorImpl.java:43)atsunreflectNativeMethodAccesso-ImpLivoke(NativeNetatorg.apache,hadoop,util.RunJar,matnCRunar.java:136Causedby:org.apachehadoopyorn.exceptions.YarnException:Failedtosubmitapplication-1520413797733_0023toYARN:UseryariycarnotsubnitapplicationstoqueLeroot.devatorg.apache,hadoopyarn.clientapiimol,YarndlientInpl,subcation(YarnCLientImpL,java:2570saurccMgrDelcgate.java:290)atorg.apache,hadoopmapredYARNRunnersubritJob(YARNRunne8.计划模式(资源池配置集)可以根据不同时段使用不同的资源池配置。
动态资源池配置(大数据分析平台YaRNMalaArm?Control池计划模式故置规则用广制要确定特定设置问时应处于活动状态,请指定计划规则及规则的评估顷序创速计划则重新持列十划模式顾序每天重复,从早上8点0O分到晚上1点0C分CSD,从2018-02-07开。
2每天重复,从凌属12点00分到早上8点0C分CsT,从20180307开ETLIE编|3在所有其他规则不活用时运行配置了计划模式,资源池会有多套配置,如下图clouderamanager·主机,·审孩图,备份·管理适持warm动态资源池配置(大数据分析平台)YARNImpalaAdmissionControl资源池计划横式款置规则用户限制池可以嵌,它的郎一个级别都可以支排不同的计划程序,如FFO或Farscheduler。
都个池都可以配置为允许某些用户和组集法间该池已为3个正在运行的NodeManager总共配置72个Vcore和640吉字节内存,直看动态资源池状态创建资歇认设置访问控制设置配置集ET时段default资源数最大资原数月户活跃时段名称虛拟内核内存正在运仁的立月程序最大数量计划筑暗ETL时段users116%wonhigh-bl4667计划规则主要控制配置有效时间段,创建计划规则如下图创建计划规则配置集◎新建用户活跃时段default可以将此配置集配置为包含不同的每泡CPU和内存设置。
○使用现有项重复每天全天介于早上8点00分CST:晚上11点0分CsT取消创建9.放置规则主要作用:控制任务(Job、Task)使用资源池规则,即任务会根据以下规则放到对应资源池执行。
clouderaMANAGeR:主机,说图表·音份理搜索dmin动念资源池配置(大数据分析平台)ARNImpalaAdmissionConrol负源池计划模式故置规则用产限制配置YARN如呵确定将在哪个池中运行应月程序创键放置规‖重新列放置观则放规则仅想已在适得时走存在时使用该池编相2仪当root.users.username存在司使用该消编辐|3使用rootdefault此规始终满正。
不会使用后续现则。
10.用户限制主要作用:控制单个用户最大应用程序并发度。
动态资源池配置(大数分析平台)YARNImpalaAdmissionControl密源浊计划模式放置规Q用户见制用户可以同时捉交的最大应用程序数量创建用广阳制默认设置止在行的应用序量大数量操作bide1编辑|动态资源池到这里基本配置完成。
具体配置方案,要根据项目实际情况。
建议:保证默认资源池可以使用,不影响正常使用的情况下配置动态资源池。
2015/7/3 7:11:31 1.67MB cdh 动态资源池 hadoop spark
1
共 42 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡