搜索【海量数据】的结果-好快吧下载

Ai—challenger数据集细粒度情感分析

在线评论的细粒度情感分析对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值，并且在互联网行业有极其广泛的应用，次要用于个性化推荐、智能搜索、产品反馈、业务安全等。
本次比赛我们提供了一个高质量的海量数据集，共包含6大类20个细粒度要素的情感倾向。
参赛人员需根据标注的细粒度要素的情感倾向建立算法，对用户评论进行情感挖掘，组委将通过计算参赛者提交预测值和场景真实值之间的误差确定预测正确率，评估所提交的预测算法。

2023/2/23 12:41:35 8.83MB AIchallenger 细粒度情感分析

1

Beatles小记

这篇小记主要处于两方面考虑：首先，希望打破一提到海量数据分析，就只有hadoop基础上的一系列工具，更多的时候很多企业需要的是更轻量的设计（办喜酒杀猪杀鸡未必都要用一把刀），因此将开放平台基础分析组件重构版本beatles的设计写出来，给出更多的思考空间。
其次，也是希望推广一种思想，所有的系统，框架设计简化（可扩展），小部件精致化，这样才能让很多项目能够整体灵活，细节给力。
这篇小记一共分成4部分，概述，整体设计，局部设计，待续。
如果你只想了解个背景，那么看完概述即可，如果对于流式分析的大框架设计感兴味（看看省略了分布式计算集群的什么？核心设计是怎么样的），请仔细看完整体设计。
如果还对代码优化有

2023/2/23 9:27:07 893KB Beatles小记

1

SQL&NoSQL之辩，究竟谁更适海量数据处理

SQL经历了时间的考验，目前已获得了广泛的部署；
NoSQL作为关系型数据库的可行替代品，也得到了大量的支持者。
在大数据应用程序的选择中，究竟谁更胜一筹，让我们听听两位专家的的解析。
大数据应用程序究竟是选择SQL还是NoSQL？VoltDB公司首席技术官RyanBetts和Couchbase公司首席执行官BobWiederhold分别提出了不同的意见，同时借助多项论据来支持本人的说法，让我们来看看他们是如何证明的。
执行大数据【注】项目的企业面对的关键决策之一是使用哪个数据库，SQL还是NoSQLSQL有着骄人的业绩，庞大的安装基础；
而NoSQL正在获得可观的收益，且有很多支持者。
我们来看看两位专

2023/2/21 6:12:16 263KB SQL&NoSQL之辩，究竟谁更适海量数据处理

1

HDFS全面详解

HadoopHDFS分布式文件系统DFS简介HDFS的系统组成引见HDFS的组成部分详解副本存放策略及路由规则命令行接口Java接口客户端与HDFS的数据流讲解掌握hdfs的shell操作掌握hdfs的javaapi操作理解hdfs的工作原理设计思想分而治之：将大文件、大批量文件，分布式存放在大量服务器上，以便于采取分而治之的方式对海量数据进行运算分析；
在大数据系统中作用：为各类分布式运算框架（如：mapreduce，spark，tez，……）提供数据存储服务重点概念：文件切块，副本存放，元数据补充：hdfs是架在本地文件系统上面的分布式文件系统，它就是个软件，也就是用一套代码把底下所有机器的

2023/2/6 8:29:52 430KB HDFS全面详解

1

思明软件大数据技术平台打造历程和Impala实战分享

思明软件大数据技术平台除解决海量数据存储和快速并行处理之外，还对大数据服务和管理进行了技术革新和封装，使其能满足应用开发各种业务需求。
本期云先锋将为大家分享思明软件大数据平台打造历程和Impala实战。
在采访思明数据刘诚忠的过程中，他表示当下大数据领域企业级市场靠技术垄断获取高额利润的玩法已经过时了，技术的成本会不断降低，这是大势所趋，这个市场的巨头会出现在技术很好，但服务更好的公司里。
而站在用户的角度，用户们首先关心的是如何让数据发挥价值，然后才是这套解决方案依赖何种技术，能否能快速应用，能否能适应后面可能的扩展，相对技术来说第一点是更难的。
事实上今天的企业客户，特别在大数据技术领域，更需要

2023/1/22 12:45:23 275KB 思明软件大数据技术平台打造历程和Impala实战分享

1

使用并行计算大幅提升递归算法效率

无论什么样的并行计算方式，其终极目的都是为了有效利用多机多核的计算能力，并能灵活满足各种需求。
相对于传统基于单机编写的运行程序，如果使用该方式改写为多机并行程序，能够充分利用多机多核cpu的资源，使得运行效率得到大幅度提升，那么这是一个好的靠谱的并行计算方式，反之，又难使用又难直接看出并行计算优势，还要耗费大量学习成本，那就不是一个好的方式。
由于并行计算在互联网应用的业务场景都比较复杂，如海量数据商品搜索、广告点击算法、用户行为挖掘，关联推荐模型等等，如果以真实场景举例，初学者很容易被业务本身的复杂度绕晕了头。
因而，我们需要一个通俗易懂的例子来直接看到并行计算的优势。
数字排列组合是个经典的算法

2018/2/5 13:07:12 157KB 使用并行计算大幅提升递归算法效率

1

使用并行计算大幅提升递归算法效率

无论什么样的并行计算方式，其终极目的都是为了有效利用多机多核的计算能力，并能灵活满足各种需求。
相对于传统基于单机编写的运行程序，如果使用该方式改写为多机并行程序，能够充分利用多机多核cpu的资源，使得运行效率得到大幅度提升，那么这是一个好的靠谱的并行计算方式，反之，又难使用又难直接看出并行计算优势，还要耗费大量学习成本，那就不是一个好的方式。
由于并行计算在互联网应用的业务场景都比较复杂，如海量数据商品搜索、广告点击算法、用户行为挖掘，关联推荐模型等等，如果以真实场景举例，初学者很容易被业务本身的复杂度绕晕了头。
因而，我们需要一个通俗易懂的例子来直接看到并行计算的优势。
数字排列组合是个经典的算法

2018/2/5 13:07:12 157KB 使用并行计算大幅提升递归算法效率

1

Greenplum在企业生产中的最佳实践

GP是一个分布式X86架构，是把多台X86服务器组合成一起做一个大的集群。
相比传统单机版的Oracle和MySQL，它的特点是使用比较多的服务器做海量数据处理。
一般在企业客户中，把X86服务器采集过来后会做上机安装，如果企业使用的集群规模比较大，比如国内客户最大的有将近128个节点，数据量有1PB。
在部署的时候，X86的服务器会非常多，有超过100台的服务器。
为了保证它整个集群的高可用、功能，在部署的时候一般是需要跨多个机柜。
（双机柜为一组的部署方式）对GP来说建议在部署的时候，把服务器放在多个机柜上面，如果企业客户机器非常多，往往是以两个机柜为一组。
对于X86服务器上架之后，接下来就要把X8

2016/1/15 20:41:23 334KB Greenplum在企业生产中的最佳实践

1

中南大学大型数据库技术实验三、四

熟习ORACLE的基于大数据集（记录达到千万级）的相关数据库操作包括生成海量测试数据的更新操作、基于海量数据的索引维护、表空间、分区、视图、序列及相关的统计分析。
熟习ORACLE的后备与恢复技术。
针对ORACLE表空间进行相关操作。

2021/9/12 3:09:31 103KB 实验代码

1

多线程以JDBC的方式前往海量数据

适合多线程，jdbc的方式获取数据

2016/9/27 20:12:09 4KB 多线程 jdbc 返回数据

1

钉钉无人值守自动打卡脚本永不迟到的神器安卓和苹果教程 New!

在日常工作中，钉钉打卡成了我生活中不可或缺的一部分。然而，有时候这个看似简单的任务却给我带来了不少烦恼。每天早晚，我总是得牢记打开钉钉应用，点击"工作台"，再找到"考勤打卡"进行签到。有时候因为工作忙碌，会忘记打卡，导致考勤异常，影响当月的工作评价。而且，由于我使用的是苹果手机，有时候系统更新后，钉钉的某些功能会出现异常，使得打卡变得更加麻烦。另外，我的家人使用的是安卓手机，他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说，每次打卡都是一次挑战。他们总是担心自己会操作失误，导致打卡失败。为了解决这些烦恼，我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习，我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。

2024-04-09 15:03 15KB 钉钉 钉钉打卡

个人信息

一言

热门下载

最新下载

其他资源