语料库通用技术平台Inspire1次要包括语料采集、语料加工、语料统计和语料检索等四大功能
2017/9/22 20:41:11 10.22MB 语料 检索 统计 分析
1
英文分词语料库,共有198796行,每个单词都有词性标注,对句话的结束都有句号,便于处理。
覆盖大部分主盛行业的语料。
例如:Newsweek/NNP,/,trying/VBGto/TOkeep/VBpace/NNwith/INrival/JJTime/NNPmagazine/NN,/,announced/VBDnew/JJadvertising/NNrates/NNSfor/IN1990/CDand/CCsaid/VBDit/PRPwill/MDintroduce/VBa/DTnew/JJincentive/NNplan/NNfor/INadvertisers/NNS./.
2019/3/16 22:18:40 1.65MB 语料库 词性标注 英文 nlp
1
(完整版)来源:复旦大学计算机信息与技术系国际数据库中心自然言语处理小组;
由复旦大学李荣陆提供;
test_corpus.rar为测试语料,train_corpus.rar为训练语料。
1
ThiscorpuscontainsaselectionfromtheTIMITAcoustic-PhoneticContinuousSpeechCorpus,consistingofspeechfiles,annotations,andassociatedmaterials:*16speakersfrom8dialectregions*1maleand1femalefromeachdialectregion*total130sentences(10sentencesperspeaker;notethatsomesentencesaresharedamongotherspeakers,sa1andsa2arespokenbyallspeakers.)*total160sentencerecordings(10recordingsperspeaker)*audioformat:wavformat,singlechannel,16kHzsampling,16bitsample,PCMencoding数据相关论文:使用该数据的论文:暂无信息来自万方数据的相关论文:期刊论文基于学习者英语语料的类联接研究概念、方法及例析-外语电化教学-2009(3)期刊论文基于HTK的连续语音识别系统及其在TIMIT上的实验-现代计算机(专业版)-2009(11)会议论文IterativeLanguageModelAdaptationforLargeVocabularyContinuousSpeechRecognition-20114thIEEEInternationalConferenceonComputerScienceandInformationTechnology(ICCSIT2011)(2011年第四届IEEE计算机科学与信息技术国际会议)-2011会议论文TheFixed-PointOptimizationofMelFrequencyCepstrumCoefficientsforSpeechRecognition-The6thInternationalForumonStrategicTechnology(IFOST2011)(第六届国际战略技术论坛)-2011会议论文语音编码对说话人识别系统的影响-第二届和谐人机环境联合(第15届全国多媒体技术、第2届全国人机交互、第2届全国普适计算)学术会议-2006期刊论文车载环境下基于样本熵的语音端点检测方法-计算机研究与发展-2011,48(3)会议论文ACorpus-basedComparativeStudyofCompanyProfiles--ACaseStudyBetweenWorldTop-500andZhejiangTop-100-2010SummitInternationalMarketingScienceandManagementTechnologyConference(2010年国际营销科学与管理技术大会)-2010期刊论文留学生汉语中介语语料库建设若干问题探讨——以中山大学汉字偏误中介语语料库为例-言语文字应用-2012(2)会议论文ANON-FIXED-LENGTHSEQUENCESCLUSTERINGAPPROACHFORSPEECHCORPUSREDUCTION-2007InternationalConferenceonMachineLearningandCybernetics(IEEE第六届机器学习与控制论国际会议)-2007期刊论文联想学习记忆的脑功能磁共振成像-中华神经科杂志-2008,41(4)
2018/3/18 8:32:39 21.22MB TIMIT语音库 测试序列
1
TFIDF算法java完成,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
2020/1/11 16:05:49 1.83MB tf-idf java jar
1
DLx开发人员欢迎来到DLx开发人员页面!在这里,您可以找到有关各种DLx项目的DLx工具,资产和实用程序的文档。
请查看下面的链接以获取更多信息,或前往查看所有DLx存储库。
内容关于数字语言学数字语言学(DLx)是语言数据的数字管理,存储和传播的科学。
数字语言学的最佳实践是使用现代开放式Web平台(主要是HTML,CSS,JavaScript和JSON)来处理语言数据。
DLx项目旨在顺应语言学家已经考虑过的方式和使用其数据的方式,并提供一种可互操作的数据格式和一套供语言学家使用的工具。
DLx项目是完全开源的,其目的是简化操作,以便社区中的其他协作者可以为任何DLx项目做出贡献。
网络上的DLx网络应用程序和工具一个用于语言学家输入,编辑和管理他们的语言数据和语料库的网络应用程序。
包括用于管理词典和文本以及用于标记语料库的工具。
可离线或在线工作,并允许在线协作。
2016/8/26 19:29:08 11KB language linguistics dlx digital-linguistics
1
语料库,本人整理的,对txt文件进行去停用词、分词。
(停用词是指对文本含义几乎没有影响的词,这些词存入到.txt,分词调用的结巴分词库)
2021/11/2 18:37:45 40.58MB 词料库
1
#语料库阐明------------------------------------------------------------------------##词典1、HowNet情感词典2、ntusd情感词典3、情感分析停用词表4、结巴分词自定义词典5、常用语词典,包括流行新词,网络流行词,手机词汇,粤语,潮语潮词、阿里巴巴-通讯产品词汇等##手机评论数据1、HTC手机评论,包括打分,共302篇1-52、魅族手机评论,包括打分,共529篇1-53、诺基亚手机评论,包括打分,共614篇1-54、OPPO手机评论,包括打分1-5,共553篇5、三星手机评论,包括打分1-5,共762篇6、中兴手机评论,包括打分1-5,共785篇7、摩托罗拉手机评论,包括打分1-5,共990篇8、整合:正面评论1084篇,负面评论524篇##淘宝商品评论数据1、正面评论一万篇,负面评论一万篇2、待预测的语料一万篇##2012微博情感分析数据共三个任务,数据集来自腾讯微博,每个话题1,000条,总约两万条微博1、观点句与非观点句的判别2、情感分类3、情感要素抽取##谭松波酒店评论语料正负样本不平衡,正样本7,000,负样本3000,共10,000.##酒店、服装、水果、平板、洗发水正负样本均5,000,总样本数50,000
2015/3/9 14:02:03 12.81MB 中文语料 情感分析 数据集
1
中科院自动化所录制的情感语料库,数据库包括奖金10000条语音。
发音为中文数据库包括angry、fear、happy、neutral、sad和surprise六种情绪,四个演员对300句相反文本和100句不同文木进行朗诵。
收集的语音信号基本是纯净无噪声的,以16000khz采样率,16bit,pcm格式存储。
2020/10/9 3:03:54 46.57MB 语料库
1
中文信息计算机自动处理的研究已有几十年的历史,但至今仍有许多技术难题没有得到很好处理,中文姓名自动识别问题就是其中的一个。
由于它与中文文本的自动分词一样,属于中文信息处理的基础研究领域,因而它的研究成果直接影响到中文信息的深层次研究。
汉语的自身特点使得中文信息自动处理大多是先对要处理的文本进行自动分词(加入显式分割符),然后再在分词的基础上进行词法、语法、语义等方面的深入分析。
而在分词阶段,文本中的人名、地名以及其它专有名词和生词大多被切分成单字词,在这种情形下如不能很好地处理汉语文本中专有名词生词的识别问题,将给其后的汉语文本的深入分析带来难以逾越的障碍。
中文姓名的自动识别问题就是在这种背景下提出来的。
对这一问题的研究目前采用的技术中主要利用以下几方面的信息:姓名用字的频率信息、上下文信息[1,2]、语料库统计信息[2]、词性信息等[3]。
本文的方法是,首先对中文人名的构成、姓名用字的规律及上下文文本信息特征进行充分分析,在此基础上建立起两组规则集,将其作用于测试文本,获得初步识别结果,再利用大规模语料库的统计信息对初步识别结果进行概率筛选,设定合适的阈值,输出最终识别结果。
经对50多万字的开放语料测试,系统自动识别出1781个中文人名,在不同的筛选阈值下获得90%以上的识别准确率,而召回率高于91%。
2018/8/19 23:04:07 83KB 中文分词 搜索引擎 人名 自动
1
共 121 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡