分词_频数_词性@35万_结巴语料,分词_频数_词性@35万_结巴语料
2023/3/18 11:01:03 64B nlp 语料 频数 词性
1
BIO标注集,即B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。
2023/3/6 17:49:27 7.19MB NER 语料
1
文件为JSON格式数据,很简单解析,包括歌词、歌名、歌手等信息,包括各种风格的歌曲,大约1万8千首左右(未去重)。
可以用作歌词生成模型训练、中文歌词向量模型训练等。
2023/3/3 19:55:57 10.81MB 中文;歌词;
1
这是覃建波老师的酒店评论数据集,是公认的情感分析语料数据,做中文自然言语处理情感分析所用。
2023/2/19 21:35:37 3.81MB 中文 情感分析 语料数据
1
通过爬得的网页来获取平行网页,java言语开发的,开源
2023/2/19 14:21:44 3.87MB 爬虫
1
对文本进行聚类,文本预处理-_-构造特征向量-_-聚类,紧缩包内含有实验用语料
2023/2/17 16:01:23 749KB 文本聚类 K-Means算法 python2.6 MySQL
1
希拉里克林顿的电子邮件,整理了近7,000页克林顿的电子邮件,用作机器学习自然言语处理的语料。
2023/2/14 10:09:42 13.54MB 自然语言处理 机器学习 邮件门 克林顿
1
研讨中国古文翻译的语料,是pdf格式的,来自gwgz这个分支
2023/1/18 10:33:09 316.72MB gwgz
1
该资源主要参考我的博客:word2vec词向量训练及中文文本相似度计算http://blog.csdn.net/eastmount/article/details/50637476其中包括C语言的Word2vec源代码(从官网下载),自定义爬取的三大百科(百度百科、互动百科、维基百科)中文语料,涉及到国家、景区、动物和人物。
同时包括60M的腾讯新闻语料,是一个txt,每行相当于一个新闻。
国家包括了Python的Jieba分词代码,详见博客。
免费资源希望对你有所协助~
2023/1/16 9:44:47 142.09MB word2vec 源码 中文预料 词向量
1
对关系抽取技术研讨概况进行总结。
在回顾关系抽取发展历史的基础上,将关系抽取研讨划分为两个阶段:面向特定领域的关系抽取研讨和面向开放互联网文本的关系抽取研讨。
在分析相关文献的基础上,总结出两个研讨阶段的技术路线:面向特定领域的关系抽取技术以基于标注语料的机器学习方法为主;面向开放互联网文本的关系抽取则根据不同任务需要,采取基于启发式规则的方法或者基于背景知识库实例的机器学习方法。
2019/1/6 23:35:30 427KB paper
1
共 109 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡