LOB语料库创建时间:1970年代初创建单位:英国Lancaster大学和挪威Oslo大学以及Bergen大学规模层级:100万词次基本情况:研究当代英国英语,与美国英语对比,使用了TAGIT系统,以统计方式建立换算几率矩阵,提高标注正确率。
TheLancaster-OsloBergenCorpus(LOB)wascompiledbyresearchersinLancaster,OsloandBergen.ItconsistsofonemillionwordsofBritishEnglishtextsfrom1961.Thetextsforthecorpusweresampledfrom15differenttextcategories.Eachtextisjustover2.000wordslong(longertextshavebeencutatthefirstsentenceboundaryafter2.000words)andthenumberoftextsineachcategoryvaries(seetablebelow).FurtherinformationaboutthetextscanbefoundintheLOBmanual(externallink).ThiscorpusistheBritishcounterpartoftheBrownCorpusofAmericanEnglish.whichcontainstextsprintedinthesameyearsothatcomparisonbetweenbothvarietiescouldbemade
2025/8/14 21:55:32 94.94MB LOB语料库 英语语料库
1
搜狗实验室新闻分类语料库,主要有10个分类,共50多万条记录0汽车1财经2IT3健康4体育5旅游6教育7招聘8文化9军事
2025/8/9 21:23:17 25.78MB 搜狗 语料库 分类
1
共8400多对中英语句,已预处理,中文用jieba分了词,标点符号没问题,保存于en-zh.csv,分隔符是制表符\t(不是默认逗号)。
句粒度,但有不少长句,裁剪后5w对也够用。
原始数据集也在包中,其中en-zh_News.tmx有一部分句子有问题,(en-zh.csv丢弃了有问题的句子),如果必要建议不要直接使用该文件。
另外附赠我对语料的预处理文件(propressor.py),以及数据集(pytorch的Dataset)等相关的实现(LangData.py)。
如果又可以改善的地方,欢迎留言
2025/7/16 16:52:35 35.14MB 中英平行语料库 语料
1
PFR人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。
为了促进中文信息处理研究的发展,他们三方计划公开PFR语料库。
作为公开的前期工作,从4月3日起,在他们三方的主页上免费公开PFR语料库1月份的语料,欢迎大家下载。
PFR语料库的制作规范参阅《现代汉语语料库加工――词语切分与词性标注规范》。
如果您在研究或论文工作中使用PFR语料库,请注明来源。
2025/7/8 1:18:11 19.36MB 数据集
1
北京大学语料库(1833177字)包含训练和测试集,文本格式的数据,包含utf8和GBK两种格式
1
搜狗语料库,自己用结巴分词分好的。
(为什么摘要必须大于50个字)
2025/6/12 21:04:15 16.3MB 语料库;分词
1
30万条书籍评论,包括长短评论,正面负面中性评论,中文语料库,可以用于训练做情感分析。
2025/5/25 10:27:21 32.34MB 情感分类 数据集
1
本书全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等,既有对基础知识和理论模型的介绍,也有对相关问题的研究背景、实现方法和技术现状的详细阐述。
2025/5/21 7:49:40 16.87MB 语言处理
1
香港城市大学语料库(1772202字,训练集)、微软亚洲研究院语料库(1089050字,训练集)、北京大学语料库(1833177字,训练集)
2025/4/19 8:10:18 41.84MB 分词语料库
1
美国当代英语语料库COCA词频20000【包含Txt、Word、PDF】(完整)
1
共 120 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡