保险领域的问答系统训练语料,可以用来训练chatbot,希望有帮助
2025/8/6 15:26:26 84.16MB 问答系统
1
本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。
整个语料大小264M,包含1116903条数据,数据用空格隔开,可以用来训练分词模型。
2025/7/17 17:47:24 108.12MB NLP 语料 中文分词语料 中文语料
1
这是关于微博情感分析的语料,类别分好,可以直接投入分析程序中使用,方便大家研究情感分类,免去大家写爬虫或API等方式爬取数据的烦恼
2025/7/17 6:30:47 27.15MB 情感分析 微博
1
共8400多对中英语句,已预处理,中文用jieba分了词,标点符号没问题,保存于en-zh.csv,分隔符是制表符\t(不是默认逗号)。
句粒度,但有不少长句,裁剪后5w对也够用。
原始数据集也在包中,其中en-zh_News.tmx有一部分句子有问题,(en-zh.csv丢弃了有问题的句子),如果必要建议不要直接使用该文件。
另外附赠我对语料的预处理文件(propressor.py),以及数据集(pytorch的Dataset)等相关的实现(LangData.py)。
如果又可以改善的地方,欢迎留言
2025/7/16 16:52:35 35.14MB 中英平行语料库 语料
1
PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。
为了促进中文信息处理研究的发展,他们三方计划公开PFR语料库。
作为公开的前期工作,从4月3日起,在他们三方的主页上免费公开PFR语料库1月份的语料,欢迎大家下载。
PFR语料库的制作规范参阅《现代汉语语料库加工――词语切分与词性标注规范》。
如果您在研究或论文工作中使用PFR语料库,请注明来源。
2025/7/8 1:18:11 19.36MB 数据集
1
该语料由电影评论组成,其中持肯定和否定态度的各1,000篇;
另外还有标注了褒贬极性的句子各5331句,标注了主客观标签的句子各5000句。
该语料可以被应用于各种粒度的,如词语、句子和篇章级情感分析研究中。
情感分析资源大全:http://blog.csdn.net/qq280929090/article/details/70838025
2025/6/24 8:26:31 101.19MB 情感分析
1
法律类句子对齐语料,是跨语言信息技术的实用好资源
2025/6/11 9:21:21 11.78MB 平行语料
1
自然语言处理课程的小作业,以新闻语料为基础,用HMM算法实现中文分词。
按照每个字为B,E,S,M进行划分。
以新闻语料为基础,用HMM算法实现中文分词。
按照每个字为B,E,S,M进行划分。
2025/6/3 8:36:25 2.25MB HMM
1
本资源为自己人工标记的微博语料,分为消极pos.txt,积极neg.txt各60000条,适用于机器学习情感分析,训练数据原数据
1
主要修复了微博分析、期刊分析、相似分析模块的一些Bug,增加了ROSTDM模块,tool目录下ROSTDM中,有使用手册ROSTCM5.8.0.559版2010.09.18update!0.增加了词性标注、语料标注工具1.将ROST反剽窃系统6.8版整合到ROSTCM中的相似分析中2.增加了第三方工具,可以方便的把数据导出为ROSTCM能处理的文本文件
2025/4/1 8:44:44 1.19MB 抓取 微博
1
共 114 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡