文本挖掘tmSVM开源项目集成libSVM和liblinear包含Python和Java两种版本带PDF源码参考文档简介文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。
而文本分类是文本挖掘中一个非常重要的手段与技术。
现有的分类技术都已经非常成熟,SVM、KNN、DecisionTree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。
但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡、小样本的训练、Unlabeled样本的有效利用、如何选择最佳的训练样本等。
这些问题都将导致curveofdimension、过拟合等问题。
这个开源系统的目的是集众人智慧,将文本挖掘、文本分类前沿领域效果非常好的算法实现并有效组织,形成一条完整系统将文本挖掘尤其是文本分类的过程自动化。
该系统提供了Python和Java两种版本。
主要特征该系统在封装libsvm、liblinear的基础上,又增加了特征选择、LSA特征抽取、SVM模型参数选择、libsvm格式转化模块以及一些实用的工具。
其主要特征如下:封装并完全兼容*libsvm、liblinear。
基于Chi*的featureselection见feature_selection基于LatentSemanticAnalysis的featureextraction见feature_extraction支持Binary,Tf,log(tf),Tf*Idf,tf*rf,tf*chi等多种特征权重见feature_weight文本特征向量的归一化见Normalization利用交叉验证对SVM模型参数自动选择。
见SVM_model_selection支持macro-average、micro-average、F-measure、Recall、Precision、Accuracy等多种评价指标见evaluation_measure支持多个SVM模型同时进行模型预测采用python的csc_matrix支持存储大稀疏矩阵。
引入第三方分词工具自动进行分词将文本直接转化为libsvm、liblinear所支持的格式。
使用该系统可以做什么对文本自动做SVM模型的训练。
包括Libsvm、Liblinear包的选择,分词,词典生成,特征选择,SVM参数的选优,SVM模型的训练等都可以一步完成。
利用生成的模型对未知文本做预测。
并返回预测的标签以及该类的隶属度分数。
可自动识别libsvm和liblinear的模型。
自动分析预测结果,评判模型效果。
计算预测结果的F值、召回率、准确率、Macro,Micro等指标,并会计算特定阈值、以及指定区间所有阈值下的相应指标。
分词。
对文本利用mmseg算法对文本进行分词。
特征选择。
对文本进行特征选择,选择最具代表性的词。
SVM参数的选择。
利用交叉验证方法对SVM模型的参数进行识别,可以指定搜索范围,大于大数据,会自动选择子集做粗粒度的搜索,然后再用全量数据做细粒度的搜索,直到找到最优的参数。
对libsvm会选择c,g(gamma),对与liblinear会选择c。
对文本直接生成libsvm、liblinear的输入格式。
libsvm、liblinear以及其他诸如weka等数据挖掘软件都要求数据是具有向量格式,使用该系统可以生成这种格式:labelindex:valueSVM模型训练。
利用libsvm、liblinear对模型进行训练。
利用LSA对进行FeatureExtraction*,从而提高分类效果。
开始使用QuickStart里面提供了方便的使用指导如何使用该系统可以在命令行(Linux或cmd中)中直接使用,也可以在程序通过直接调用源程序使用。
在程序中使用。
#将TMSVM系统的路径加入到Python搜索路径中importsyssys.path.insert(0,yourPath+"\tmsvm\src")importtms#对data文件夹下的binary_seged.train文件进行训练。
tms.tms_train(“../data/binary_seged.train”)#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测tms.tms_predict(“../data/binary_seged.test”,”../model/tms.config”)#对预测的结果进行分析,评判模型的效果tms.tms_analysis(“../tms.result”)在命令行中调用#对data文件夹下的binary_seged.train文件进行训练。
$pythonauto_train.py[options]../data/binary_seged.train#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测pythonpredict.py../data/binary_seged.train../model/tms.config#对预测的结果进行分析,评判模型的效果$pythonresult_anlaysis.py../tms.result上面的调用方式都是使用系统中默认的参数,更具体、灵活的参数见程序调用接口输入格式labelvalue1[value2]其中label是定义的类标签,如果是binaryclassification,建议positive样本为1,negative样本为-1。
如果为multi-classification。
label可以是任意的整数。
其中value为文本内容。
label和value以及value1和value2之间需要用特殊字符进行分割,如”\t”模型输出模型结果会放在指定保存路径下的“model”文件夹中,里面有3个文件,默认情况下为dic.key、tms.model和tms.config。
其中dic.key为特征选择后的词典;
tms.model为训练好的SVM分类模型;tms.config为模型的配置文件,里面记录了模型训练时使用的参数。
临时文件会放在“temp”文件夹中。
里面有两个文件:tms.param和tms.train。
其中tms.param为SVM模型参数选择时所实验的参数。
tms.train是供libsvm和liblinear训练器所使用的输入格式。
源程序说明src:即该系统的源代码,提供了5个可以在Linux下可以直接调用的程序:auto_train.py、train.py、predict.py为在Linux下通过命令行调用的接口。
tms.py为在程序中调用的主文件,直接通过importtms即可调用系统的所有函数。
其他文件为程序中实现各个功能的文件。
lsa_src:LSA模型的源程序。
dependence:系统所依赖的一些包。
包括libsvm、liblinear、Pymmseg在Linux32位和64位以及windows下的支持包(dll,so文件)。
tools:提供的一些有用的工具,包括result_analysis.py等。
java:java版本的模型预测程序,项目重要更新日志2012/09/21针对linux下的bug进行修正。
重新生成win和linux版本的。
2012/03/08增加stem模块,并修正了几个Bug。
2011/11/22tmsvm正式发布。
联系方式邮箱:zhzhl202@163.comThanks本系统引用了libsvm、liblinear的包,非常感谢Chih-JenLin写出这么优秀的软件。
本系统还引用了Pymmseg,非常感谢pluskid能为mmseg写出Python下可以直接使用的程序从最初的想法萌生到第一版上线,中间试验了很多算法,最终因为效果不好删掉了很多代码,在这期间得到了许多人的帮助,非常感谢杨铮、江洋、敏知、施平等人的悉心指导。
特别感谢丽红一直以来的默默支持。
2023/2/8 18:37:14 3.39MB 文本挖掘 tmSVM libSVM 支持向量机
1
编写目的编写本测试计划的目的是为整个测试阶段的管理工作和技术工作提供指南;
同时确定测试的内容和范围,为评价系统提供依据;
此外还协助用户安排测试活动,说明对设备器材和机构人员的资源需求;
说明测试结果的评价指标
1.2背景说明本测试计划所属软件系统的名称、特征、要求和难点,以及在开始执行本测试计划之前必须完成的各项任务。
1.3参考资料《XX电子运行维护系统省内系统需求规范V2.0》《XX省EOMS系统需求规范V1.5》《概要设计说明书》《软件需求规格说明书》
2023/1/11 19:46:12 422KB 测试计划
1
1、均值2、标准差3、信息熵4、色彩分量相关性5、色彩分量百分比6、水下彩色图像质量评价
2020/5/19 1:25:46 302KB matalb
1
UCIQE方法一致认为具有更好的清晰度、对比度和亮度,愈加丰富的色彩和自然的表面,并且远景目标得到更好揭示的图像具有更高的质量分数,这一点符合人类的视觉感知。
2017/8/12 12:01:30 3.1MB UCIQE
1
针对海面背景舰船目标单一波段图像识别率低的问题,提出了一种基于卷积神经网络(CNN)的融合识别方法。
该方法提取可见光、中波红外和长波红外3个波段舰船目标特征进行融合识别。
模型次要分为3个步骤:通过设计的6层CNN,同时对三波段图像进行特征提取;利用基于互信息的特征选择方法对串联的三波段特征向量按照重要性进行排序,并按照图像清晰度评价指标选取固定长度的特征向量作为目标识别依据;通过额外的2个全连接层和输出层进行回归训练。
采用自建的三波段舰船图像数据库进行模型的训练和测试,共包含6类目标,5000余张图像。
实验结果表明,本文方法识别率达到84.5%,与单波段识别方法相比有明显提升。
1
可以做图像分割,数据挖掘,目前,针对K-Means算法研究及应用,尤其是在文本聚类挖掘层面的应用研究越来越多。
K-means算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。
该算法认为簇是由距离靠近的对象组成的,因而把得到紧凑且独立的簇作为最终目标。
2015/5/23 20:02:13 3KB 基于 遗传 算法 聚类
1
本文建立了我国人口增长的预测模型,对各年份全国人口总量增长的中短期和长期趋势作出了预测,并对人口老龄化、人口抚养比等一系列评价指标进行了预测。
最后提出了有关人口控制与管理的措施。
模型Ⅰ:建立了Logistic人口阻滞增长模型,利用附件2中数据,结合网上查找补充的数据,分别根据从1954年、1963年、1980年到2005年三组总人口数据建立模型,进行预测,把预测结果与附件1《国家人口发展战略研究报告》中提供的预测值进行分析比较。
得出运用1980年到2005年的总人口数建立模型预测效果好,拟合的曲线的可决系数为0.9987。
运用1980年到2005年总人口数据预测得到2010年、2020年、2033年我国的总人口数分别为13.55357亿、14.18440亿、14.70172亿。
模型Ⅱ:考虑到人口年龄结构对人口增长的影响,建立了按年龄分布的女性模型(Leslie模型):以附件2中提供的2001年的有关数据,构造Leslie矩阵,建立相应Leslie模型;
然后,根据中外专家给出的人口更替率1.8,构造Leslie矩阵,建立相应的Leslie模型。
首先,分别预测2002年到2050年我国总人口数、劳动年龄人口数、老年人口数(见附录8),然后再用预测求得的数据分别对全国总人口数、劳动年龄人口数的发展情况进行分析,得出:我国总人口在2010年达到14.2609亿人,在2020年达到14.9513亿人,在2023年达到峰值14.985亿人;
预测我国在短期内劳动力不缺,但须加强劳动力结构方面的调整。
其次,对人口老龄化问题、人口抚养比进行分析。
得到我国老龄化在加速,预计本世纪40年代中后期构成老龄人口高峰平台,60岁以上老年人口达4.45亿人,比重达33.277%;
65岁以上老年人口达3.51亿人,比重达25.53%;
人口抚养呈现增加的趋势。
再次,讨论我国人口的控制,预测出将来我国育龄妇女人数与生育旺盛期育龄妇女人数,得到育龄妇女人数在短期内将达到高峰,随后又下降的趋势的结论。
最后,分别对模型Ⅰ与模型Ⅱ进行残差分析、优缺点评价与推广。
1
(含源码及报告)本程序分析了自2016年到2021年(外加)每年我国原油加工的产量,并且分析了2020年全国各地区原油加工量等,含饼状图,柱状图,折线图,数据在地图上显示。
运转本程序需要requests、bs4、csv、pandas、matplotlib、pyecharts库的支持,如果缺少某库请自行安装后再运转。
文件含6个excel表,若干个csv文件以及一个名字为render的html文件(需要用浏览器打开),直观的数据处理部分是图片以及html文件,可在地图中显示,数据处理的是excel文件。
不懂可以扫文件中二维码在QQ里面问。
2022/9/30 16:31:44 29.75MB 爬虫 python 源码软件 开发语言
1
-算法目的:节点中包括少数锚节点,剩余节点为未知节点,通过定位算法来确定它们的位置-借助平均定位误差作为评价指标-正文超级详细,并附带算法相关文档
2017/5/22 6:41:47 3KB matlab Dv-hop 无线传感器网络定位
1
语音去混响不断都是会议场景、临境通信中的重要问题。
混响的存在使得语音质量、语音的可懂度大大降低,因此需要特定的算法去对存在混响的室内语音信号进行处理。
《SpeechDereverberation》本书描述了语音去混响的各种处理方法第一章:本书内容综述第二章:混响模型、评价指标第三章:基于统计模型语音去混响算法第四章:基于LPC模型语音去混响算法第五章:基于多麦克风特征值分解语音去混响算法第六章:自适应盲多通道系统辨识第七章:多通道声学系统的子代逆矩阵第八章:移动目标语音的贝叶斯单通道盲去混响第九章:不使用房间声学信息的语音去混响逆滤波第十章:用于语音和音频信号去混响的TRINICON本书适用于学生、研究者或产品开发的工作人员本书版权为作者所有。
2019/6/14 12:34:17 11.06MB
1
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡