文本挖掘tmSVM开源项目集成libSVM和liblinear包含Python和Java两种版本带PDF源码参考文档简介文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。
而文本分类是文本挖掘中一个非常重要的手段与技术。
现有的分类技术都已经非常成熟,SVM、KNN、DecisionTree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。
但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡、小样本的训练、Unlabeled样本的有效利用、如何选择最佳的训练样本等。
这些问题都将导致curveofdimension、过拟合等问题。
这个开源系统的目的是集众人智慧,将文本挖掘、文本分类前沿领域效果非常好的算法实现并有效组织,形成一条完整系统将文本挖掘尤其是文本分类的过程自动化。
该系统提供了Python和Java两种版本。
主要特征该系统在封装libsvm、liblinear的基础上,又增加了特征选择、LSA特征抽取、SVM模型参数选择、libsvm格式转化模块以及一些实用的工具。
其主要特征如下:封装并完全兼容*libsvm、liblinear。
基于Chi*的featureselection见feature_selection基于LatentSemanticAnalysis的featureextraction见feature_extraction支持Binary,Tf,log(tf),Tf*Idf,tf*rf,tf*chi等多种特征权重见feature_weight文本特征向量的归一化见Normalization利用交叉验证对SVM模型参数自动选择。
见SVM_model_selection支持macro-average、micro-average、F-measure、Recall、Precision、Accuracy等多种评价指标见evaluation_measure支持多个SVM模型同时进行模型预测采用python的csc_matrix支持存储大稀疏矩阵。
引入第三方分词工具自动进行分词将文本直接转化为libsvm、liblinear所支持的格式。
使用该系统可以做什么对文本自动做SVM模型的训练。
包括Libsvm、Liblinear包的选择,分词,词典生成,特征选择,SVM参数的选优,SVM模型的训练等都可以一步完成。
利用生成的模型对未知文本做预测。
并返回预测的标签以及该类的隶属度分数。
可自动识别libsvm和liblinear的模型。
自动分析预测结果,评判模型效果。
计算预测结果的F值、召回率、准确率、Macro,Micro等指标,并会计算特定阈值、以及指定区间所有阈值下的相应指标。
分词。
对文本利用mmseg算法对文本进行分词。
特征选择。
对文本进行特征选择,选择最具代表性的词。
SVM参数的选择。
利用交叉验证方法对SVM模型的参数进行识别,可以指定搜索范围,大于大数据,会自动选择子集做粗粒度的搜索,然后再用全量数据做细粒度的搜索,直到找到最优的参数。
对libsvm会选择c,g(gamma),对与liblinear会选择c。
对文本直接生成libsvm、liblinear的输入格式。
libsvm、liblinear以及其他诸如weka等数据挖掘软件都要求数据是具有向量格式,使用该系统可以生成这种格式:labelindex:valueSVM模型训练。
利用libsvm、liblinear对模型进行训练。
利用LSA对进行FeatureExtraction*,从而提高分类效果。
开始使用QuickStart里面提供了方便的使用指导如何使用该系统可以在命令行(Linux或cmd中)中直接使用,也可以在程序通过直接调用源程序使用。
在程序中使用。
#将TMSVM系统的路径加入到Python搜索路径中importsyssys.path.insert(0,yourPath+"\tmsvm\src")importtms#对data文件夹下的binary_seged.train文件进行训练。
tms.tms_train(“../data/binary_seged.train”)#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测tms.tms_predict(“../data/binary_seged.test”,”../model/tms.config”)#对预测的结果进行分析,评判模型的效果tms.tms_analysis(“../tms.result”)在命令行中调用#对data文件夹下的binary_seged.train文件进行训练。
$pythonauto_train.py[options]../data/binary_seged.train#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测pythonpredict.py../data/binary_seged.train../model/tms.config#对预测的结果进行分析,评判模型的效果$pythonresult_anlaysis.py../tms.result上面的调用方式都是使用系统中默认的参数,更具体、灵活的参数见程序调用接口输入格式labelvalue1[value2]其中label是定义的类标签,如果是binaryclassification,建议positive样本为1,negative样本为-1。
如果为multi-classification。
label可以是任意的整数。
其中value为文本内容。
label和value以及value1和value2之间需要用特殊字符进行分割,如”\t”模型输出模型结果会放在指定保存路径下的“model”文件夹中,里面有3个文件,默认情况下为dic.key、tms.model和tms.config。
其中dic.key为特征选择后的词典;
tms.model为训练好的SVM分类模型;tms.config为模型的配置文件,里面记录了模型训练时使用的参数。
临时文件会放在“temp”文件夹中。
里面有两个文件:tms.param和tms.train。
其中tms.param为SVM模型参数选择时所实验的参数。
tms.train是供libsvm和liblinear训练器所使用的输入格式。
源程序说明src:即该系统的源代码,提供了5个可以在Linux下可以直接调用的程序:auto_train.py、train.py、predict.py为在Linux下通过命令行调用的接口。
tms.py为在程序中调用的主文件,直接通过importtms即可调用系统的所有函数。
其他文件为程序中实现各个功能的文件。
lsa_src:LSA模型的源程序。
dependence:系统所依赖的一些包。
包括libsvm、liblinear、Pymmseg在Linux32位和64位以及windows下的支持包(dll,so文件)。
tools:提供的一些有用的工具,包括result_analysis.py等。
java:java版本的模型预测程序,项目重要更新日志2012/09/21针对linux下的bug进行修正。
重新生成win和linux版本的。
2012/03/08增加stem模块,并修正了几个Bug。
2011/11/22tmsvm正式发布。
联系方式邮箱:zhzhl202@163.comThanks本系统引用了libsvm、liblinear的包,非常感谢Chih-JenLin写出这么优秀的软件。
本系统还引用了Pymmseg,非常感谢pluskid能为mmseg写出Python下可以直接使用的程序从最初的想法萌生到第一版上线,中间试验了很多算法,最终因为效果不好删掉了很多代码,在这期间得到了许多人的帮助,非常感谢杨铮、江洋、敏知、施平等人的悉心指导。
特别感谢丽红一直以来的默默支持。
2023/2/8 18:37:14 3.39MB 文本挖掘 tmSVM libSVM 支持向量机
1
EdysVehiclePhysics带来有趣和现实的车辆到您的游戏!专为游戏玩法,易用性和逼真的行为而设计,需要Unity4.5.3或更高版本。
特征–即便在键盘/触摸屏的情况下也能精确控制和驾驶车辆。
–任何车辆设置:街道,卡车,赛车,漂流…–车辆可以在几分钟内装配和配置(视频教程)–轻松整合到现有项目中:只需在场景中放置预制件,然后点击即可播放。
–车辆损坏的影响,包括处理的恶化。
–支持多种地面材料,包括每种材料的抓地力和阻力系数,地面标记,防滑标记,烟雾,灰尘等。
–许多音频效果:引擎,涡轮增压,变速箱,轮胎打滑,车身撞击,车身划痕…–车辆内置“暂停”功能,无需将timeScale设置为零。
版本:5.32018年1月5日更新大小:39.1MB
2023/2/7 19:32:26 37.3MB unity edys vehicle physics
1
Nike官网最新上架商品实时监控提示,本文只是以Nike为例,请大家举一反三,可以应用到其它网站场景。
2023/2/7 18:41:29 372KB 上新监控 最新商品
1
企业秀源码H5页面最新微场景源码场景画报源码易企秀去版权2015收费
2023/2/7 11:15:14 39.08MB H5场景
1
通过ppt制造技巧,重现贫民窟里的百万富翁故事桥段,从中可以学习到很多ppt制造的高级技巧,让你的ppt像看视频一样
2023/2/6 16:43:26 7.95MB ppt ppt技巧
1
Harmony被世界领先的动画工作室认可和使用了25年,通过为学生,自由职业者,艺术家和专业动画师提供2D动画和全面制作功能,为其制作动画软件提供了公平的竞争环境。
如果你是一个动画初学者或者专业的动画从事工作者,ToonBoomHarmonyPremium17也是你不错的选择哦。
无纸2D动画制作工具ToonBoomHarmonyPremium17中文多语特别版无纸2D动画制作工具ToonBoomHarmonyPremium17中文多语特别版ToonBoomHarmonyPremium17优点根据您的条件展示您的创造力工具的灵活性,功能性和流动性使您可以创建传统动画的质量用于高效动画的一体化工具,从绘图到最终制作节省成本和时间使用由设定标准的领先动画工作室选择的数字解决方案ToonBoomHarmonyPremium17新功能Harmony允许您在同一工具中创建艺术品,动画,添加特效和声音,复合和最终制作!它是您动画的一站式商店–将1个工具整合在一起。
业界领先的手写笔响应性数字从未感受过(或看起来)如此传统适用于比以往更平滑的线条的稳定器触针压力响应倾斜和角度响应与新的统治者和指南保持联系绘图精度变得简单新绘图标尺3,4,5点弯曲透视导轨(曲线)等距透视指南为动画增添生命力自由形态变形器泵送主控制器新的可堆叠主控制器(堆栈向导)显示主控制器功能轻推功能定制包括颜色,命名,形状展开向导RGB差异键控器(彩色键控器)运动模糊升级的功能和效率相机视图对齐指南帧标记预览缓存以获得高功能动画导出到mp4动画预设设置(快捷方式)ToonBoomHarmonyPremium17标准功能画笔引擎具有无限艺术潜力的革命性矢量/位图绘制技术。
调色板和绘画高级调色板可以有效控制每一帧的纹理和颜色。
传统的无纸动画访问传统逐帧动画的完整工具集。
2D/3D集成在将3D元素与2D角色集成时,可以直接在HarmonyPremium中为3D模型及其各个部分设置动画,以实现更具创意的控制。
变形器强大的工具,可以从橡胶软管到手绘外观创建剪切动画。
剪切动画使用专业工具构建简单到高级的钻机。
主控制器可在为复杂钻机制作动画时节省时间。
效果和合成无缝添加特效,摄像机角度和复合场景。
使用自动色调和可以设置动画的高光为角色添加音量和灯光效果。
导出到游戏引擎为您的游戏创建2D动画,该动画轻巧且与Unity等游戏引擎兼容。
管道集成Harmony旨在与生产流程中的其他软件集成。
导入多层PSD和PSB文件,Illustrator,PDF,位图和音频。
世界上最好的动画工作室使用ToonBoom软件,从主要动画公司到小型工作室,我们的客户使用我们的动画软件制作电影,电视节目,游戏,解说员视频和广告。
2023/2/6 9:01:43 462.16MB 无纸2D动画制作工具
1
本范例讲解在SuperMapiclientfor3D完成平面场景的二三维一体化浏览。
2023/2/6 1:25:28 18.9MB SuperMap iClient 3D 浏览
1
为了弥补现有语义Web服务在动态性和交互性方面的不足,将语用Web引入到Web服务研究中,提出了语用Web服务技术,并将其使用于Web服务管理领域。
面向语用Web服务管理分为4个层次:语法Web服务层,语义Web服务层,语用Web服务层,网络服务管理层。
给出了语用Web服务与语义Web服务协作流程的实现场景。
语用Web服务管理促进了服务和消费者之间理解和交互模式的改变。
1
思科首席工程师介绍全球流量预测,SR用途,SR原理,应用场景,思科SR处理方案,segmentRouting是如何转发的?
2023/2/5 7:09:27 4.79MB 思科 SR原理
1
IP可视对讲实时录制零碎开源的,采用了视频编解码技术,高效网络传输,磁盘高效读写技术,以及提供开放接口。
零碎客户端采用扁平化UI,满足各种场景使用,提升了IP可视对讲实时记录零碎的安全性和健壮性。
2023/2/3 23:38:24 42.51MB 通话录制 楼宇对讲 电梯对讲 对讲
1
共 1000 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡