这篇小记主要处于两方面考虑:首先,希望打破一提到海量数据分析,就只有hadoop基础上的一系列工具,更多的时候很多企业需要的是更轻量的设计(办喜酒杀猪杀鸡未必都要用一把刀),因此将开放平台基础分析组件重构版本beatles的设计写出来,给出更多的思考空间。
其次,也是希望推广一种思想,所有的系统,框架设计简化(可扩展),小部件精致化,这样才能让很多项目能够整体灵活,细节给力。
这篇小记一共分成4部分,概述,整体设计,局部设计,待续。
如果你只想了解个背景,那么看完概述即可,如果对于流式分析的大框架设计感兴味(看看省略了分布式计算集群的什么?核心设计是怎么样的),请仔细看完整体设计。
如果还对代码优化有
2023/2/23 9:27:07 893KB Beatles小记
1
本jar包用于mongo数据同步到hive,需求三个jar包之一
2023/2/20 14:27:38 137KB mongo
1
基于Hadoop的文本分类算法系统,本系统实现了分词处理,停用词处理(IK);
使用朴素贝叶斯分类算法来对文本进行训练和分类,在测试过程中使用词频特征选择作为特征词选择算法,分类精确率达到了78%,包含卡方特征选择算法(训练集特征选择)。
2023/2/18 1:28:21 3.9MB Hadoop 文本分类 朴素贝叶斯 TF
1
大数据视频及源码材料包含:Linux的使用、HBASE、Flume、kafka、Hadoop、ProtoBuf、sqoop、Hive、
2023/2/14 20:24:40 45KB 大数据
1
本文则主要引见TalkingData在大数据平台建设过程中,逐渐引入Spark,并且以HadoopYARN和Spark为基础来构建移动大数据平台的过程。
当下,Spark已经在国内得到了广泛的认可和支持:2014年,SparkSummitChina在北京召开,场面火爆;
同年,SparkMeetup在北京、上海、深圳和杭州四个城市举办,其中仅北京就成功举办了5次,内容更涵盖SparkCore、SparkStreaming、SparkMLlib、SparkSQL等众多领域。
而作为较早关注和引入Spark的移动互联网大数据综合服务公司,TalkingData也积极地参与到国内Spark社区的各种活动,
2023/2/14 1:52:31 415KB 从Hadoop到Spark的架构实践
1
hadoop+lucene包含和solr、solrcloud对比
2023/2/11 14:02:46 485KB hadoop lucene 分布式索引
1
本实验所用的Hadoop版本是hadoop-2.7.7.tar.gz,下载后,解压根据文章步骤安装即可
2023/2/11 6:24:18 203.75MB hadoop
1
该资源为java客户端连接hbase集群,在windows客户端配置hadoop环境所需求用到的工具类,有需自取
2023/2/10 22:36:28 270KB hadoop winutils hbase
1
当flinkonyarn模式运行时,发生如下异常信息,需要将压缩包中的4个依赖jar包放入flink安装路径下的lib目录下。
Exceptioninthread"main"java.lang.NoClassDefFoundError:com/sun/jersey/api/client/config/ClientConfigatorg.apache.hadoop.yarn.client.api.TimelineClient.createTimelineClient(TimelineClient.java:45)atorg.apache.hadoop.yarn.client.api.impl.YarnClientImpl.serviceInit(YarnClientImpl.java:163)atorg.apache.hadoop.service.AbstractService.init(AbstractService.java:163)atorg.apache.spark.deploy.yarn.Client.submitApplication(Client.scala:150)atorg.apache.spark.scheduler.cluster.YarnClientSchedulerBackend.start(YarnClientSchedulerBackend.scala:56)...Causedby:java.lang.ClassNotFoundException:com.sun.jersey.api.client.config.ClientConfig
2023/2/8 13:55:32 1.5MB flink 依赖 jar包 NoClassDefFo
1
Hadoop是大数据领域最流行的技术,但并非唯一。
还有很多其他技术可用于处理大数据问题。
除了ApacheHadoop外,另外9个大数据技术也是必须要了解的。
1.ApacheFlink2.ApacheSamza3.GoogleCloudDataFlow4.StreamSets5.TensorFlow6.ApacheNiFi7.Druid8.LinkedInWhereHows9.MicrosoftCognitiveServicesApacheFlink:是一个高效、分布式、基于Java实现的通用大数据
1
共 434 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡