已经标记号label的中文命名实体识别的语料库,采用BIM标志形式。
包括人名(PERSON)、地点(LOCATION)、时间(TIME)及机构名(ORGANIZATION)。
2024/5/10 1:36:01 17.29MB nlp NER 命名实体识别
1
文本分训练和测试集,每个类别2000条新闻,简单做分类,测试效果是足够了
2024/4/14 18:29:40 8.3MB 文本分类语料
1
解决nltk安装punkt等语料库时报错的问题;
把下载好的语料包punkt.zip解压到nltk_data/tokenizers/punkt中
2024/4/12 10:36:57 13.07MB 自然语言处理
1
共22000条酒店评论情感分析语料,包括pos积极语料,neg消极语料。
2024/3/27 22:58:15 15.04MB 情感分析 中文 酒店评论
1
为了弥补国内在中文情感挖掘方面的语料的匮乏,谭松波收集整理了一个较大规模的酒店评论语料。
语料规模为10000篇。
语料从携程网上自动采集,并经过整理而成。
为了方便起见,语料被整理成4个子集:1.ChnSentiCorp-Htl-ba-2000:平衡语料,正负类各1000篇。
2.ChnSentiCorp-Htl-ba-4000:平衡语料,正负类各2000篇。
3.ChnSentiCorp-Htl-ba-6000:平衡语料,正负类各3000篇。
4.ChnSentiCorp-Htl-unba-10000:非平衡语料,正类为7000篇。
2024/3/24 6:03:01 3.81MB 酒店评价语料
1
跨语言文本相似度计算是挖掘蒙汉可比语料的基础和关键,其结果直接影响了可比语料的质量。
本文通过分析新闻文本特点,提出了一种融合多特征的跨语言新闻文本相似度计算方法。
该方法首先抽取新闻的发布日期、标题及正文信息作为特征,再利用双语文档发布日期的差异、正文长度关系、正文阿拉伯数字相似度、标题重合程度及正文重合程度五种启发信息进行加权线性组合来判断相似程度。
实验表明,本文提出的方法能明显提高蒙汉新闻文本相似度计算的准确率。
1
复旦大学中文语料分类数据3个子文档一共有19666个文档是很好的分类语料库
2024/3/21 19:06:57 105.02MB wenbenfenlei
1
该数据是完整的BIO标注语料,可用于深度学习机器学习模型训练,分为训练集、测试集以及验证集。
2024/1/13 15:46:20 1.82MB BIO标注 深度学习 训练预料
1
网上流传的人民日报1998年1月份的语料库,北京大学开发;
处理成了crf分词训练语料的格式;
2023/12/12 10:08:19 2.32MB 语料库 中文分词 人民日报 crf
1
本资源将所有语料分成pos.txt和neg.txt两个文件,每个文件中的一行代表一篇评论
2023/12/8 3:14:31 14.74MB 情感分析
1
共 109 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡