本资源为天津大学社会信息检索的一项大作业,基于爬取的语料库,总体实现了三个功能:TFIDF计算,两句子相似度计算,基于语料库的搜索引擎。
具体任务如下:1)TFIDF:给定用自己名字命名的文件夹,请自己爬取一定数量的网页、微博形成语料集合,存入该文件夹;
在线状态下,对其中的词语进行TFIDF统计。
2)SIM:在线状态下,从网页页面输入任意两个句子,求其相似度,包括:内积,余弦及Jaccard三种度量方式;
同时,可实现对导入的文件夹语料的tfidf统计。
3)SJet:实现基于向量空间模型(VSM)的搜索引擎。
2025/12/5 0:54:57 1.59MB TFIDF 天津大学 社会信息检索 SIRC
1
这是一个基于C#的反作弊系统,基于VSM空间向量模型,能对doc和txt文件进行相似度的检测,在VS2005和SQLServer2005上实现
2024/8/10 16:32:07 127KB C# 文档那个相似度检测
1
针对中文短文本篇幅较短、特征稀疏性等特征,提出了一种基于隐含狄利克雷分布模型的特征扩展的短文本分类方法。
在短文本原始特征的基础上,利用LDA主题模型对短文本进行预测,得到对应的主题分布,把主题中的词作为短文本的部分特征,并扩充到原短文本的特征中去,最后利用SVM分类方法进行短文本的分类。
实验表明,该方法在性能上与传统的直接使用VSM模型来表示短文本特征的方法相比,对不同类别的短文本进行分类,都有不同程度的提高与改进,对于短文本进行补充LDA特征信息的方法是切实可行的。
2024/7/6 6:33:32 1.14MB LDA 短文本分类
1
向量空间模型(VSM)的JAVA实现,从文档表示到相似度计算,使用两种相似度计算方式:cos和tf-idf算法,对错误进行修改
2024/4/11 8:17:58 2.63MB 向量空间模型 JAVA
1
向量空间模型(VSM)的JAVA实现,从文档表示到相似度计算,使用两种相似度计算方式:cos和tf-idf算法
2023/12/24 22:41:27 1.87MB 向量空间模型 VSM JAVA
1
ShadowMap,ShadowVolume,PlaneShadow,提供了VSM和透明阴影的实现细节的HLSL代码。
全部可执行文件和源文件。
2023/8/11 6:53:46 15.13MB Map Shadow Volume Plane
1
基于python3编写的VSM模型构建样例,包含分词处理后的输入文件以及停用词文件
2023/8/1 6:08:30 320KB python VSM
1
VSM文本特色遴选文本特色遴选文本特色遴选文本特色遴选
2023/3/29 13:15:56 5.16MB 特征选择 工具 IG
1
人工智人-家居设计-基于VSM权重改进算法的智能导医系统研讨.pdf
2016/4/1 1:45:45 7.19MB 人工智人-家居
1
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡