搜索【语料库】的结果-好快吧下载

天津大学社会信息检索TFIDF大作业

本资源为天津大学社会信息检索的一项大作业，基于爬取的语料库，总体实现了三个功能:TFIDF计算，两句子相似度计算，基于语料库的搜索引擎。
具体任务如下：1)TFIDF:给定用自己名字命名的文件夹，请自己爬取一定数量的网页、微博形成语料集合，存入该文件夹；
在线状态下，对其中的词语进行TFIDF统计。
2)SIM:在线状态下，从网页页面输入任意两个句子，求其相似度，包括：内积，余弦及Jaccard三种度量方式；
同时，可实现对导入的文件夹语料的tfidf统计。
3）SJet：实现基于向量空间模型（VSM）的搜索引擎。

2025/12/5 0:54:57 1.59MB TFIDF 天津大学 社会信息检索 SIRC

1

图灵语料库

文档为图灵机器人语料库，里面有三千多条语料，对话生动有趣

2025/9/22 3:35:13 850KB 深度学习

1

英语语料库LOB语料库

LOB语料库创建时间:1970年代初创建单位:英国Lancaster大学和挪威Oslo大学以及Bergen大学规模层级:100万词次基本情况:研究当代英国英语,与美国英语对比,使用了TAGIT系统,以统计方式建立换算几率矩阵,提高标注正确率。
TheLancaster-OsloBergenCorpus(LOB)wascompiledbyresearchersinLancaster,OsloandBergen.ItconsistsofonemillionwordsofBritishEnglishtextsfrom1961.Thetextsforthecorpusweresampledfrom15differenttextcategories.Eachtextisjustover2.000wordslong(longertextshavebeencutatthefirstsentenceboundaryafter2.000words)andthenumberoftextsineachcategoryvaries(seetablebelow).FurtherinformationaboutthetextscanbefoundintheLOBmanual(externallink).ThiscorpusistheBritishcounterpartoftheBrownCorpusofAmericanEnglish.whichcontainstextsprintedinthesameyearsothatcomparisonbetweenbothvarietiescouldbemade

2025/8/14 21:55:32 94.94MB LOB语料库 英语语料库

1

搜狗实验室新闻分类语料库

搜狗实验室新闻分类语料库，主要有10个分类，共50多万条记录0汽车1财经2IT3健康4体育5旅游6教育7招聘8文化9军事

2025/8/9 21:23:17 25.78MB 搜狗 语料库 分类

1

中英平行语料库（八万对，句粒度）

共8400多对中英语句，已预处理，中文用jieba分了词，标点符号没问题，保存于en-zh.csv，分隔符是制表符\t（不是默认逗号）。
句粒度，但有不少长句，裁剪后5w对也够用。
原始数据集也在包中，其中en-zh_News.tmx有一部分句子有问题，（en-zh.csv丢弃了有问题的句子），如果必要建议不要直接使用该文件。
另外附赠我对语料的预处理文件（propressor.py），以及数据集（pytorch的Dataset）等相关的实现（LangData.py)。
如果又可以改善的地方，欢迎留言

2025/7/16 16:52:35 35.14MB 中英平行语料库 语料

1

北大中文《人民日报》199801-199806数据集

PFR人民日报标注语料库(版本1.0，下面简称PFR语料库)是在得到人民日报社新闻信息中心许可的条件下，以1998年人民日报语料为对象，由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。
为了促进中文信息处理研究的发展，他们三方计划公开PFR语料库。
作为公开的前期工作，从4月3日起，在他们三方的主页上免费公开PFR语料库1月份的语料，欢迎大家下载。
PFR语料库的制作规范参阅《现代汉语语料库加工――词语切分与词性标注规范》。
如果您在研究或论文工作中使用PFR语料库，请注明来源。

2025/7/8 1:18:11 19.36MB 数据集

1

北京大学语料库（1833177字）包含训练和测试集

北京大学语料库（1833177字）包含训练和测试集，文本格式的数据，包含utf8和GBK两种格式

3.55MB 自然语言 语料库

1

搜狗语料库（已分词）

搜狗语料库，自己用结巴分词分好的。
（为什么摘要必须大于50个字）

2025/6/12 21:04:15 16.3MB 语料库；分词

1

书评语料库（30万条评论）

30万条书籍评论，包括长短评论，正面负面中性评论，中文语料库，可以用于训练做情感分析。

2025/5/25 10:27:21 32.34MB 情感分类 数据集

1

统计自然语言处理（第二版）宗成庆完整版

本书全面介绍了统计自然语言处理的基本概念、理论方法和最新研究进展，内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘和信息抽取、口语信息处理与人机对话系统等，既有对基础知识和理论模型的介绍，也有对相关问题的研究背景、实现方法和技术现状的详细阐述。

2025/5/21 7:49:40 16.87MB 语言处理

1

钉钉无人值守自动打卡脚本永不迟到的神器安卓和苹果教程 New!

在日常工作中，钉钉打卡成了我生活中不可或缺的一部分。然而，有时候这个看似简单的任务却给我带来了不少烦恼。每天早晚，我总是得牢记打开钉钉应用，点击"工作台"，再找到"考勤打卡"进行签到。有时候因为工作忙碌，会忘记打卡，导致考勤异常，影响当月的工作评价。而且，由于我使用的是苹果手机，有时候系统更新后，钉钉的某些功能会出现异常，使得打卡变得更加麻烦。另外，我的家人使用的是安卓手机，他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说，每次打卡都是一次挑战。他们总是担心自己会操作失误，导致打卡失败。为了解决这些烦恼，我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习，我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。

2024-04-09 15:03 15KB 钉钉 钉钉打卡

个人信息

一言

热门下载

最新下载

其他资源