著名的SighanBakeoff语料。
包含了训练集、测试集及测试集的(黄金)标准切分。
2024/8/28 2:50:43 2.33MB 命名实体识别 数据集
1
2018最新最全nlp中文问答语料对,包括常规问答,笑话等
2024/8/27 12:08:55 23.33MB NLP 语料对 中文聊天语料
1
Keras【极简】seq2seq英译中示例,附带语料以及训练500次后的模型
30.58MB seq2seq
1
该语料主要用于识别出整条微博所表达的情绪,不是简单的褒贬分类,而是涉及到多个细粒度情绪类别(例如悲伤、忧愁、快乐、兴奋等),属于细粒度的情感分类问题。
情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025
2024/8/25 4:28:50 9.15MB 情感分析
1
包含情感词(积极,消极,程度词,主张词),情感词典(大连理工,HowNet),中文情感挖掘酒店评论语料
1
新词发现作为自然语言处理领域的一项基础研究,一直受到学术界和企业界的广泛关注。
将新词发现问题转换为确定词语边界问题。
首先对语料进行中文分词,然后统计"散串",最后提出一种基于词内部结合度和边界自由度的新词发现方法。
通过在大规模语料上进行新词发现实验,验证了该方法的有效性。
今后的研究重点将放在如何有效地识别低频新词上,以提高系统的整体性能。
1
SRILM源代码阅读笔记。
主要针对SRILM的ngram的训练,即ngram-count。
7个文件:1.类图.jpg:与ngram-count相关的主要类的静态图(使用了starUML的逆向工程工具);
2.ngram-count.jpg:从语料训练出模型的主要流程;
3.lmstats.countfile.jpg:ngram-count的子流程,用于构建词汇表和统计ngram的频度;
4.ngram.estimate.jpg:ngram-count的子流程,在词汇表和ngram频度的基础上计算ngram条件概率以及backoff权值的过程;
5.ngram.read.jpg:与训练无关,读取ARPA格式的语言模型的过程;
6.SRILM.uml:以上5个文件的原始图,以StarUML绘制(利用StarUML可直接编辑)7.SRILM.vsd:ngram-count相关的主要数据结构的内存布局+ngram条件概率计算公式的参数说明,以visio绘制(利用visio可直接编辑)
2024/7/15 8:41:17 4.87MB SRILM 源代码 分析 ngram
1
谭松波老师的评论语料资源gb2312,除了原始编码格式,还有UTF-8编码格式的,在这里一起分享给大家,还将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表原始数据的一个txt文件,即一篇评论,更加的方便大家使用
2024/6/4 7:30:38 9.88MB 谭松波 酒店评论语料
1
自己用来训练word2vec的,已提取文本,做了分词处理,过滤了大部分的特殊字符。
共包含3273626个段落的文本(一个段落包含了多个语句)。
处理后的语料有1.1G,由于文件较大,提供百度网盘下载地址。
2024/5/19 17:09:13 650B 维基 中文语料 word2vec
1
一些测试用的闲聊语料,未经过清洗,数量约为9.7万条。
2024/5/13 11:25:23 6.59MB 数据集 闲聊
1
共 109 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡