通过flume监控文件,让kafka消费flume数据,再将sparkstreaming连接kafka作为消费者进行数据处理,文档整理实现
2023/6/7 18:34:57 3.33MB flume kafka sparkstreami 文档整理
windows环境下hadoop2.7.x版本依赖,可解决各种版本问题
2023/6/6 15:23:07 51KB hadoop
数据治理是指从使用零散数据变为使用统一主数据、从具有很少或没有组织和流程治理到企业范围内的综合数据治理、从尝试处理主数据混乱状况到主数据井井有条的一个过程。
2023/6/3 14:46:30 10.73MB 数据治理
应老师要求,对谷歌三篇论文进行阅读,并且写好阅读报告。
粗略看完谷歌三篇论文,《GoogleMapreduce》、《GoogleFileSystem》、《GoogleBigTable》,说实话看的很迷茫,对于计算机的了解刚起步的我,实在很难这么短时间理解比较深刻的的论文,只能说有一个大致的印象。
之前初步了解到学习谷歌的三篇论文需要java、分布式、操作系统这些基础,也了解到大数据不可阻挡的趋势
2023/6/2 4:23:58 23KB 大数据 谷歌 论文 阅读报告
即便是菜鸟也可以自己搭建Hadoop集群的教程,Linux上CentOS7安装CDH5.12.1进行集群搭建。
以及遇到的问题总结。
和大家分享,共同进步。
本来不想设置分数,但是最低就是1分。




2023/5/31 10:42:26 4.85MB centos CDH 5.12.1 Linux
hadoop2.7在windows下安装的配置文件winutils.exe+hadoop.dll
2023/5/28 23:32:40 75KB hadoop windows
收集爬虫(又被称为网页蜘蛛,收集机械人,在FOAF社区中间,更频频的称为网页追赶者),是一种依据未必的法则,自动地抓取万维网信息的法度圭表标准大概剧本。
另外一些不常使用的名字另有蚂蚁、自动索引、模拟法度圭表标准大概蠕虫。
本实例经由Java爬取豆瓣影戏数据,并经由文件流存入当地
2023/5/7 10:54:17 15.97MB JAVA爬虫 豆瓣电影
Hadoop集群的job提交源码剖析脑子导图
2023/5/6 16:24:39 186KB xmind hadoop job
本文层主若是协同过滤算法实现的影戏推选体系源码,对于应自己博客MapReduce基于物品的协同过滤算法实现影戏推选体系。
驱散巨匠存眷数据迷信,存眷我。
谢谢
2023/5/3 22:57:16 4.8MB MapRed hadoop 推荐 协同过滤
是博客傍边汽车感情阐发的数据集
2023/5/3 10:27:25 834KB 汽车情感分析
共 339 条记录 首页 上一页 下一页 尾页