在大数据阐发场景中,以ETL(Extract抽取-Transform交互转换-Load加载)为例,数据的操作搜罗了以上游程:RDBMS==>Sqoop==>Hadoop==>Sqoop==>RDBMS/NoSQL/...,这里波及了三个流程:数据抽取==>数据荡涤==>数据入库。
这三个步骤涌现了明晰的秩序下场。
假如数据抽取需要3h,数据荡涤需要2h,数据入库需要1h。
咱们能够使用linuxshell提供的crontab来实现。
他的短处是使用约莫,缺陷却有许多:1.流程便捷于跟踪以及监控(流程某个情景侵蚀没行为监控)。
2.在这个流程中有些模块实施的功夫大概涌现提前/提前。
譬如数据荡涤料想需要2h,
1