TFIDF算法java完成,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
2020/1/11 16:05:49 1.83MB tf-idf java jar
1
DLx开发人员欢迎来到DLx开发人员页面!在这里,您可以找到有关各种DLx项目的DLx工具,资产和实用程序的文档。
请查看下面的链接以获取更多信息,或前往查看所有DLx存储库。
内容关于数字语言学数字语言学(DLx)是语言数据的数字管理,存储和传播的科学。
数字语言学的最佳实践是使用现代开放式Web平台(主要是HTML,CSS,JavaScript和JSON)来处理语言数据。
DLx项目旨在顺应语言学家已经考虑过的方式和使用其数据的方式,并提供一种可互操作的数据格式和一套供语言学家使用的工具。
DLx项目是完全开源的,其目的是简化操作,以便社区中的其他协作者可以为任何DLx项目做出贡献。
网络上的DLx网络应用程序和工具一个用于语言学家输入,编辑和管理他们的语言数据和语料库的网络应用程序。
包括用于管理词典和文本以及用于标记语料库的工具。
可离线或在线工作,并允许在线协作。
2016/8/26 19:29:08 11KB language linguistics dlx digital-linguistics
1
语料库,本人整理的,对txt文件进行去停用词、分词。
(停用词是指对文本含义几乎没有影响的词,这些词存入到.txt,分词调用的结巴分词库)
2021/11/2 18:37:45 40.58MB 词料库
1
#语料库阐明------------------------------------------------------------------------##词典1、HowNet情感词典2、ntusd情感词典3、情感分析停用词表4、结巴分词自定义词典5、常用语词典,包括流行新词,网络流行词,手机词汇,粤语,潮语潮词、阿里巴巴-通讯产品词汇等##手机评论数据1、HTC手机评论,包括打分,共302篇1-52、魅族手机评论,包括打分,共529篇1-53、诺基亚手机评论,包括打分,共614篇1-54、OPPO手机评论,包括打分1-5,共553篇5、三星手机评论,包括打分1-5,共762篇6、中兴手机评论,包括打分1-5,共785篇7、摩托罗拉手机评论,包括打分1-5,共990篇8、整合:正面评论1084篇,负面评论524篇##淘宝商品评论数据1、正面评论一万篇,负面评论一万篇2、待预测的语料一万篇##2012微博情感分析数据共三个任务,数据集来自腾讯微博,每个话题1,000条,总约两万条微博1、观点句与非观点句的判别2、情感分类3、情感要素抽取##谭松波酒店评论语料正负样本不平衡,正样本7,000,负样本3000,共10,000.##酒店、服装、水果、平板、洗发水正负样本均5,000,总样本数50,000
2015/3/9 14:02:03 12.81MB 中文语料 情感分析 数据集
1
中科院自动化所录制的情感语料库,数据库包括奖金10000条语音。
发音为中文数据库包括angry、fear、happy、neutral、sad和surprise六种情绪,四个演员对300句相反文本和100句不同文木进行朗诵。
收集的语音信号基本是纯净无噪声的,以16000khz采样率,16bit,pcm格式存储。
2020/10/9 3:03:54 46.57MB 语料库
1
中文信息计算机自动处理的研究已有几十年的历史,但至今仍有许多技术难题没有得到很好处理,中文姓名自动识别问题就是其中的一个。
由于它与中文文本的自动分词一样,属于中文信息处理的基础研究领域,因而它的研究成果直接影响到中文信息的深层次研究。
汉语的自身特点使得中文信息自动处理大多是先对要处理的文本进行自动分词(加入显式分割符),然后再在分词的基础上进行词法、语法、语义等方面的深入分析。
而在分词阶段,文本中的人名、地名以及其它专有名词和生词大多被切分成单字词,在这种情形下如不能很好地处理汉语文本中专有名词生词的识别问题,将给其后的汉语文本的深入分析带来难以逾越的障碍。
中文姓名的自动识别问题就是在这种背景下提出来的。
对这一问题的研究目前采用的技术中主要利用以下几方面的信息:姓名用字的频率信息、上下文信息[1,2]、语料库统计信息[2]、词性信息等[3]。
本文的方法是,首先对中文人名的构成、姓名用字的规律及上下文文本信息特征进行充分分析,在此基础上建立起两组规则集,将其作用于测试文本,获得初步识别结果,再利用大规模语料库的统计信息对初步识别结果进行概率筛选,设定合适的阈值,输出最终识别结果。
经对50多万字的开放语料测试,系统自动识别出1781个中文人名,在不同的筛选阈值下获得90%以上的识别准确率,而召回率高于91%。
2018/8/19 23:04:07 83KB 中文分词 搜索引擎 人名 自动
1
∀同义词词林扩展版#收录词语近7万条,全部按意义进行编排,是一部同义类词典。
哈工大信息检索研讨室参照多部电子词典资源,并按照人民日报语料库中词语的出现频度,只保留频度不低于3的(小规模语料的统计结果)部分词语,剔除14706个罕用词和非常用词后,词表共包含77343条词语。
2015/4/27 23:43:28 1008KB 同义词词林
1
分了26类的体育语料,包括棒球帆船击剑举重篮球垒球马术排球皮划艇乒乓球曲棍球拳击柔道赛艇射击射箭手球摔跤跆拳道体操田径网球游泳羽毛球自行车足球等领域,在每个文件夹中的all.txt文件已经分词处理,可用于自然言语处理
2021/6/15 4:33:39 8.35MB 体育 分词 语料
1
很好用的语料库检索软件,功能强大,非常适合于言语文字等方面的研究
2016/6/14 19:52:55 12.41MB 检索软件
1
虚假新闻检测器使用LSTM-RNN通过使用LSTM(长期短期记忆)递归神经网络,开发了深度学习模型来识别文章何时可能是假新闻。
数据集数据集在kaggle网站上给出任务在nltkFramework的协助下,通过删除标点符号,停用词等对文本数据进行预处理执行一种热编码,包括填充序列应用词嵌入语料库文件训练具有100个神经元的单层LSTM模型训练数据的准确性为99%,测试数据的准确性为90%
2018/8/11 9:08:51 2.75MB JupyterNotebook
1
共 117 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡