中文文本分类语料(复旦)-训练集和测试集这个链接是训练集,本语料库由复旦大学李荣陆提供。
test_corpus为测试语料,共9833篇文档;
train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。
训练语料和测试语料基本按照1:1的比例来划分。
使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
文件较大,下载时请耐心等待。
2023/11/10 13:33:38 101.81MB 文本分类 数据集 复旦 中文
1
刘志远大神的新书《自然语言处理表示学习技术》
2023/11/7 20:15:19 1.34MB nlp
1
本语料库由复旦大学李荣陆提供。
train.zip共9804篇文档,test.zip共9832篇文档,都分为20个类别。
下载后可以自己重新切分数据,也可以直接用。
免费下载地址:链接:https://pan.baidu.com/s/1E2vUjyBtrlG0SBCkO-_IAQ密码:dq9m使用时尽量注明来源(复旦大学计算机信息与技术系国际数据库中心自然语言处理小组)。
2023/11/3 21:56:21 106.17MB 中文文本分类 数据集
1
作者:[英]MattWynne/[挪]AslakHellesy出版社:人民邮电出版社原作名:TheCucumberBook:Behaviour-DrivenDevelopmentforTestersandDevelopers译者:许晓斌/王江平这是一本半技术书籍,虽然是测试使用,但阅读它实在也需要一定的代码基础,所以可见,测试的技术含量越来越高了:D由于本人使用Java,所以忽略了12章以后的内容,由于它所使用到的那些框架都是基于Ruby。
本书分为3部分:1.基础2.进阶3.应用在第一部分,基础篇中,介绍了Gherkin语法,Cucumber的产生背景与适用范围,以及常见问题与解答。
Cucumber是一种系统行为的描述文件,它是活文档,应该时刻描述当前系统的正确行为,并且能够自动测试。
这一特性事实上也要求在写Cu..ber文件时,务必做到用户精准,不要重复场景,用书上的话来讲,就是同一句话,对且只对应系统中的唯一的一个行为。
Cu..ber主要用于在团队中进行沟通,语言必须能通用,要通用就要求隐藏技术细节,以自然语言去描述系统的行为,最经典的场景如:Given...When...Then...给定一定场景,当做什么操作时,会产生什么样的结果。
表格的使用,Backgroud关键字都是为了让特性文件能更简洁,也更易懂和富有表现力。
第二部分进阶篇中,介绍了一些高级的功能,比如:钩子和标签钩子是指@Before@After这种加上实现方法之前,在测试开始时和结束后执行一些特定的操作。
Cu...ber的步骤是全局的,同理,@Be..这类钩子也是全局的,Cu...ber的全局是大有深意的,因为它认为,特性中的所有有用步骤,只能对应一种系统的行为。
若需要让其支持单个场景,则需要对在钩子后面加上标签的方式。
标签同钩子形式相同,可以在场景和特性关键词上加标签。
对于特性(Feature)的标签,会加在每个场景上。
Cu...ber可以对一组标签进行测试。
Cu...ber测试中(可以推而广之到任何测试中),凡是有数据库参与,需要在测试之前保证数据库是干净的,并且当前测试不会遗留下数据影响到下一个测试。
可以使用事务和Truncate的方式来保证这点,实际上,只要测试环节所需要的数据都由Given中提供,则不会有问题。
第三部分讲应用,基本上都是基于Ruby的一些库,但11章的命令行使用方式还是很有意义的,Cu...ber本身就是一个命令行工具,通过命令行,可以对特性文件进行一些过滤,对输出格式进行定制,以及集成到持续集成中。
命令行命令可以使用帮助:--help一些重要的命令:--tags过滤标签--lines指定行执行xxx.feature:45指定行的另一种形式--format格式化输出如果真能把Cucumber用起来,用严肃的态度对待每一个步骤,以测试驱动开发,做出来的项目质量应该能大上一个台阶的,是个很好的工具。
2023/11/3 8:45:35 6.7MB 软件测试
1
语义相似度任务-LCQMC数据集下载。
LCQMC是哈尔滨工业大学在自然语言处理国际顶会COLING2018构建的问题语义匹配数据集,其目标是判断两个问题的语义是否相同
2023/10/27 18:30:22 6.33MB 语义 相似度 lcqmc 语义相识度
1
知网hownet中英文情感词典,用于nlp自然语言处理
2023/10/15 22:07:28 82KB 情感词典 知网
1
中医舌诊知识是中医学的一个重要组成部分,它可以为计算机自动诊断、中医智能教学、中医自然语言理解提供知识基础。
介绍了中医舌诊本体,建立了九个中医舌诊本体类和一些相关的本体类,同时也获取了舌诊知识的一些公理。
2023/10/4 14:02:36 80KB 中医舌诊知识 知识获取 本体
1
本人在公司闲来无事,根据句子意思给出相应的标签,包含着自己对机器学习和自然语言的处理。
欢迎大家相互学习
2023/10/3 22:09:50 30.83MB 自然语言 机器学习 多标签
1
在使用StanfordCoreNLP对文本句子进行分析时,需要先对句子进行分词nlp.word_tokenize(sentence)然后对分词后的句子进行句子成分分析nlp.pos_tag(sentence)然后继续进行命名实体识别nlp.ner(sentence)再之后就是句法分析与依存句法分析nlp.parse(sentence)nlp.dependency_parse(sentence)
2023/10/2 13:15:30 5KB 自然语言处理
1
来自斯坦福大学和GoogleResearch的研究者对医疗领域中的深度学习应用进行了综述,并将研究文章发表在《NatureMedicine》上。
这篇文章从应用于医疗行业的计算机视觉、自然语言处理、强化学习和通用方法入手,详细介绍了深度学习在医疗中的应用。
2023/9/26 2:37:11 6.44MB 深度学习
1
共 130 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡