文本挖掘tmSVM开源项目集成libSVM和liblinear包含Python和Java两种版本带PDF源码参考文档简介文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。
而文本分类是文本挖掘中一个非常重要的手段与技术。
现有的分类技术都已经非常成熟,SVM、KNN、DecisionTree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。
但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡、小样本的训练、Unlabeled样本的有效利用、如何选择最佳的训练样本等。
这些问题都将导致curveofdimension、过拟合等问题。
这个开源系统的目的是集众人智慧,将文本挖掘、文本分类前沿领域效果非常好的算法实现并有效组织,形成一条完整系统将文本挖掘尤其是文本分类的过程自动化。
该系统提供了Python和Java两种版本。
主要特征该系统在封装libsvm、liblinear的基础上,又增加了特征选择、LSA特征抽取、SVM模型参数选择、libsvm格式转化模块以及一些实用的工具。
其主要特征如下:封装并完全兼容*libsvm、liblinear。
基于Chi*的featureselection见feature_selection基于LatentSemanticAnalysis的featureextraction见feature_extraction支持Binary,Tf,log(tf),Tf*Idf,tf*rf,tf*chi等多种特征权重见feature_weight文本特征向量的归一化见Normalization利用交叉验证对SVM模型参数自动选择。
见SVM_model_selection支持macro-average、micro-average、F-measure、Recall、Precision、Accuracy等多种评价指标见evaluation_measure支持多个SVM模型同时进行模型预测采用python的csc_matrix支持存储大稀疏矩阵。
引入第三方分词工具自动进行分词将文本直接转化为libsvm、liblinear所支持的格式。
使用该系统可以做什么对文本自动做SVM模型的训练。
包括Libsvm、Liblinear包的选择,分词,词典生成,特征选择,SVM参数的选优,SVM模型的训练等都可以一步完成。
利用生成的模型对未知文本做预测。
并返回预测的标签以及该类的隶属度分数。
可自动识别libsvm和liblinear的模型。
自动分析预测结果,评判模型效果。
计算预测结果的F值、召回率、准确率、Macro,Micro等指标,并会计算特定阈值、以及指定区间所有阈值下的相应指标。
分词。
对文本利用mmseg算法对文本进行分词。
特征选择。
对文本进行特征选择,选择最具代表性的词。
SVM参数的选择。
利用交叉验证方法对SVM模型的参数进行识别,可以指定搜索范围,大于大数据,会自动选择子集做粗粒度的搜索,然后再用全量数据做细粒度的搜索,直到找到最优的参数。
对libsvm会选择c,g(gamma),对与liblinear会选择c。
对文本直接生成libsvm、liblinear的输入格式。
libsvm、liblinear以及其他诸如weka等数据挖掘软件都要求数据是具有向量格式,使用该系统可以生成这种格式:labelindex:valueSVM模型训练。
利用libsvm、liblinear对模型进行训练。
利用LSA对进行FeatureExtraction*,从而提高分类效果。
开始使用QuickStart里面提供了方便的使用指导如何使用该系统可以在命令行(Linux或cmd中)中直接使用,也可以在程序通过直接调用源程序使用。
在程序中使用。
#将TMSVM系统的路径加入到Python搜索路径中importsyssys.path.insert(0,yourPath+"\tmsvm\src")importtms#对data文件夹下的binary_seged.train文件进行训练。
tms.tms_train(“../data/binary_seged.train”)#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测tms.tms_predict(“../data/binary_seged.test”,”../model/tms.config”)#对预测的结果进行分析,评判模型的效果tms.tms_analysis(“../tms.result”)在命令行中调用#对data文件夹下的binary_seged.train文件进行训练。
$pythonauto_train.py[options]../data/binary_seged.train#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测pythonpredict.py../data/binary_seged.train../model/tms.config#对预测的结果进行分析,评判模型的效果$pythonresult_anlaysis.py../tms.result上面的调用方式都是使用系统中默认的参数,更具体、灵活的参数见程序调用接口输入格式labelvalue1[value2]其中label是定义的类标签,如果是binaryclassification,建议positive样本为1,negative样本为-1。
如果为multi-classification。
label可以是任意的整数。
其中value为文本内容。
label和value以及value1和value2之间需要用特殊字符进行分割,如”\t”模型输出模型结果会放在指定保存路径下的“model”文件夹中,里面有3个文件,默认情况下为dic.key、tms.model和tms.config。
其中dic.key为特征选择后的词典;
tms.model为训练好的SVM分类模型;tms.config为模型的配置文件,里面记录了模型训练时使用的参数。
临时文件会放在“temp”文件夹中。
里面有两个文件:tms.param和tms.train。
其中tms.param为SVM模型参数选择时所实验的参数。
tms.train是供libsvm和liblinear训练器所使用的输入格式。
源程序说明src:即该系统的源代码,提供了5个可以在Linux下可以直接调用的程序:auto_train.py、train.py、predict.py为在Linux下通过命令行调用的接口。
tms.py为在程序中调用的主文件,直接通过importtms即可调用系统的所有函数。
其他文件为程序中实现各个功能的文件。
lsa_src:LSA模型的源程序。
dependence:系统所依赖的一些包。
包括libsvm、liblinear、Pymmseg在Linux32位和64位以及windows下的支持包(dll,so文件)。
tools:提供的一些有用的工具,包括result_analysis.py等。
java:java版本的模型预测程序,项目重要更新日志2012/09/21针对linux下的bug进行修正。
重新生成win和linux版本的。
2012/03/08增加stem模块,并修正了几个Bug。
2011/11/22tmsvm正式发布。
联系方式邮箱:zhzhl202@163.comThanks本系统引用了libsvm、liblinear的包,非常感谢Chih-JenLin写出这么优秀的软件。
本系统还引用了Pymmseg,非常感谢pluskid能为mmseg写出Python下可以直接使用的程序从最初的想法萌生到第一版上线,中间试验了很多算法,最终因为效果不好删掉了很多代码,在这期间得到了许多人的帮助,非常感谢杨铮、江洋、敏知、施平等人的悉心指导。
特别感谢丽红一直以来的默默支持。
2023/2/8 18:37:14 3.39MB 文本挖掘 tmSVM libSVM 支持向量机
1
1.概述  近年来,随着IT产业的发展,企业相继建立了MRPII、ERP系统,并在不断建设和完善下图中的相关系统,各系统的建设为企业的管理带来了巨大的变化,但企业信息化建设的基本目标是协助企业开源节流。
  当今,电子商务技术的出现,给企业的发展带来了新的机遇,企业能否及时抓住有利的时机建立起自己的电子商务系统,将关系到企业未来的发展。
“要么电子商务,要么无商可务”这句话在某种程度上说出了企业电子商务的重要性。
  什么是企业的电子商务?建立一个企业?COM网站,将企业的基本信息、产品信息、企业联系方式和企业的电子邮件等放在网站上就可以了,这就是目前国内众多企业的现状。
  作为企业电子商务而言,可
1
BWS员工考评系统20100520更新内容:1、普通用户可查看本人当月的考评详情,也可查询近三年的历史信息2、行政人员可以录入考评信息、取消考评信息、查看考评统计并导出EXCEL3、管理员在行政人员功能的基础上,可以恢复考评信息、管理考评项目、管理用户、批量添加用户、设置系统信息、管理公告4、后台自动检查更新使用方法:将ASP代码包上传到服务器,然后输入网址,使用帐号admin 密码admin888登陆,进入后台进行管理。
如果数据库无法正确连接,请修改inc文件夹内的SETUP.ASP 修改数据库路径为绝对路径。
例如:系统在二级子目录baoxiu 则修改为“/baoxiu/data/数据库名称”如果在本地调试时,发现无法添加修改删除网站数据,请右键数据库文件,选择属性,选择权限,添加“IUSR_你的计算机名”帐号,并赋予修改、读取权限。
如无法生成数据报单,请右键EXCEL文件夹,选择属性,选择权限,添加“IUSR_你的计算机名”帐号,并赋予修改、读取、添加权限。
本系统需要父路径支持。
本系统永久免费,但不得去除版权信息,请使用者尊重我个人的劳动成果。
如果可以,请加个友情链接。
未经授权,不得商用。
使用本系统,应该及时重命名数据库联系方式:浙江省浦江县黄宅镇古城东路128号黄宅中学政教处黄峰峰322204
2023/1/17 10:04:27 600KB ASP源码-办公OA
1
RT5350wifi方案PCB及原理图里面bom含有元件件厂家的联系方式原理图为2010年10月份设计的版本安全波动若有不太理解的地方可以评论本人不定时查看
2015/3/7 5:19:44 2.88MB pcb 原理图
1
以客户联系方式的精准性及外呼黄金时间点为切入点,通过整合各渠道服务触点的客户联系方式,并通过客户联系方式的无效性打分,得到对应目标客户联系电话清单的优先级排序,最终应用于外呼营销的外呼号码选择,最大程度提升联系电话无效性,节省过程查找时间,促使营销成功率的最终提升
2015/6/5 9:28:24 100KB 电信 客户联系人 模型 需求
1
以客户联系方式的精准性及外呼黄金时间点为切入点,通过整合各渠道服务触点的客户联系方式,并通过客户联系方式的无效性打分,得到对应目标客户联系电话清单的优先级排序,最终应用于外呼营销的外呼号码选择,最大程度提升联系电话无效性,节省过程查找时间,促使营销成功率的最终提升
2015/6/5 9:28:24 100KB 电信 客户联系人 模型 需求
1
代码中有联系方式不懂之处可联系解答~题目要求:自制一个单片机最小系统,包括串口下载、复位电路。
由系统随机生成0—99的数字在数码管上显示,操作人员必须在2S内按下对应的按键,按键正确获得一分,在2分钟内,对得分进行累加,到时后,由数码管显示得分值。
游戏的启动、暂停(继续)可以由按钮控制。
2016/4/5 18:39:40 87KB 单片机课设
1
·1.内容简介:---------------------------------------------------------------德州仪器(TI)2013校园招聘模拟基础笔试题,内容是笔试原题的拍照,仅供参考,对TI的笔试有很大的协助。
---------------------------------------------------------------·2.资源使用方法说明无---------------------------------------------------------------·3.wogeguaiguai的附言:1.我的其他数学建模比赛和全国电子设计竞赛精华资源也欢迎您下载,大学生基本上都听过这个比赛吧,这个比赛比较有意思,而且获奖比例高。
我的资料都是非常好的准备比赛要用的资料。
我比赛结束之后,这些资料就不用啦,分享给大家!俺一年的搜索资源,同学们一朝即可获得!2.下载本文件后,您可以获得所有信息,不必再零散下载,给您带来很大的方便。
3.5个资源分,绝对物超所值。
评论后,您就可以获得6个资源分,欢迎您评论!---------------------------------------------------------------·4.如有问题,请在博客里留言,博客里有相关联系方式,谢谢。
---------------------------------------------------------------·5.上传时间2013-11-10-afternoon
2020/5/19 2:26:48 7.56MB TI 德州仪器 笔试 模拟
1
文档包括了我做第一题第二题的仿真电路图以及后两题的代码,希望对大家有所协助。
文档末尾有我的联系方式,大家有什么疑问可以联系我
2017/9/22 23:09:04 492KB TI杯A题 STM32
1
科研管理包括机构管理,人员管理,项目管理,成果管理,科研考核,各级用户的使用权限也需要灵活设置和修改。
科研机构包括院系所,重点研讨基地,研讨机构。
所有科研项目,科研人员,科研项目都必须归相应的科研机构管理。
科研人员指从事科研工作的老师,科研工作的管理员,记录人员的工号,姓名,年龄,性别,职称,学科方向,联系方式。
科研项目包括项目名称,项目性质,项目级别,项目成员,项目经费。
科研成果包括科研论文,著作,专利。
科研考核包括根据科研项目,科研成果,计算个科研机构中科研人员的排名。
2019/10/24 20:55:23 1.45MB 高校科研信息管理 jsp 源友
1
共 123 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡