#语料库阐明------------------------------------------------------------------------##词典1、HowNet情感词典2、ntusd情感词典3、情感分析停用词表4、结巴分词自定义词典5、常用语词典,包括流行新词,网络流行词,手机词汇,粤语,潮语潮词、阿里巴巴-通讯产品词汇等##手机评论数据1、HTC手机评论,包括打分,共302篇1-52、魅族手机评论,包括打分,共529篇1-53、诺基亚手机评论,包括打分,共614篇1-54、OPPO手机评论,包括打分1-5,共553篇5、三星手机评论,包括打分1-5,共762篇6、中兴手机评论,包括打分1-5,共785篇7、摩托罗拉手机评论,包括打分1-5,共990篇8、整合:正面评论1084篇,负面评论524篇##淘宝商品评论数据1、正面评论一万篇,负面评论一万篇2、待预测的语料一万篇##2012微博情感分析数据共三个任务,数据集来自腾讯微博,每个话题1,000条,总约两万条微博1、观点句与非观点句的判别2、情感分类3、情感要素抽取##谭松波酒店评论语料正负样本不平衡,正样本7,000,负样本3000,共10,000.##酒店、服装、水果、平板、洗发水正负样本均5,000,总样本数50,000
2015/3/9 14:02:03 12.81MB 中文语料 情感分析 数据集
1
中文信息计算机自动处理的研究已有几十年的历史,但至今仍有许多技术难题没有得到很好处理,中文姓名自动识别问题就是其中的一个。
由于它与中文文本的自动分词一样,属于中文信息处理的基础研究领域,因而它的研究成果直接影响到中文信息的深层次研究。
汉语的自身特点使得中文信息自动处理大多是先对要处理的文本进行自动分词(加入显式分割符),然后再在分词的基础上进行词法、语法、语义等方面的深入分析。
而在分词阶段,文本中的人名、地名以及其它专有名词和生词大多被切分成单字词,在这种情形下如不能很好地处理汉语文本中专有名词生词的识别问题,将给其后的汉语文本的深入分析带来难以逾越的障碍。
中文姓名的自动识别问题就是在这种背景下提出来的。
对这一问题的研究目前采用的技术中主要利用以下几方面的信息:姓名用字的频率信息、上下文信息[1,2]、语料库统计信息[2]、词性信息等[3]。
本文的方法是,首先对中文人名的构成、姓名用字的规律及上下文文本信息特征进行充分分析,在此基础上建立起两组规则集,将其作用于测试文本,获得初步识别结果,再利用大规模语料库的统计信息对初步识别结果进行概率筛选,设定合适的阈值,输出最终识别结果。
经对50多万字的开放语料测试,系统自动识别出1781个中文人名,在不同的筛选阈值下获得90%以上的识别准确率,而召回率高于91%。
2018/8/19 23:04:07 83KB 中文分词 搜索引擎 人名 自动
1
中文,情感分析,中文观点倾向性分析评测语料,义务1。
2020/3/16 2:33:46 18.23MB 情感分析
1
对文本进行聚类,文本预处理-->构造特征向量-->聚类,紧缩包内含有实验用语料亲测可用,谢谢支持。
2016/1/15 22:25:31 685KB 文本聚类
1
∀同义词词林扩展版#收录词语近7万条,全部按意义进行编排,是一部同义类词典。
哈工大信息检索研讨室参照多部电子词典资源,并按照人民日报语料库中词语的出现频度,只保留频度不低于3的(小规模语料的统计结果)部分词语,剔除14706个罕用词和非常用词后,词表共包含77343条词语。
2015/4/27 23:43:28 1008KB 同义词词林
1
分了26类的体育语料,包括棒球帆船击剑举重篮球垒球马术排球皮划艇乒乓球曲棍球拳击柔道赛艇射击射箭手球摔跤跆拳道体操田径网球游泳羽毛球自行车足球等领域,在每个文件夹中的all.txt文件已经分词处理,可用于自然言语处理
2021/6/15 4:33:39 8.35MB 体育 分词 语料
1
该语料共包含中文和英文两种语言,次要是商品评论,评论篇幅都比较短,可以被应用于篇章级或者句子级的情感分析任务。
数据集被分为训练数据、测试数据、带标签的测试数据三个文件,共有正向和负向两种极性。
情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025
2020/2/11 16:19:38 5.22MB 情感分析
1
利用wiki中文语料训练时,需用到opencc来简繁体汉子转为简体汉字,pip安装opencc时需要distribute_setup.py,将该文件放到python的Lib文件夹下。
一些人说可以处理,我试了下没处理。
建议大家使用下opencc.exe(内含)。
2021/9/16 23:47:37 1.1MB open-cc
1
对文本进行聚类,文本预处理-->构造特征向量-->聚类,紧缩包内含有实验用语料
2022/9/7 14:25:21 685KB 5.1
1
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡