问题发现:本次案例为工作中遇到的实际问题,在语音识别中的语料准备部分,需要从网络中爬取相当数量的相关文本,其中发现爬取到了一些不相关的内容,如何把这些不相关的内容剔除掉成为笔者需要思考的问题。
初步思考:遇到此问题笔者第一时间考虑是将文本分词后向量化,使用聚类看一下分布情况,然而发现在不同训练集中,训练样本变化时,向量随之变化,在测试集中表现一般,在实测中几乎无用。
于是想到向量化的方法问题,使用sklearnCountVectorizer方法进行向量化,仅仅是将所有词频无序的向量化,看到另外博文时,发现应该先将目标主题的文本进行词频统计,将统计结果当做向量化模板,实测发现效果不错,现将此方法分享给大家
1
利用opencv做的人物姿态检测,采用了SVM训练样本
2023/7/11 15:51:08 4.19MB opencv 姿态检测
1
一、引言自适应噪声抵消技术是一种能够很好的消除背景噪声影响的信号处理技术,应用自适应噪声抵消技术,可在未知外界干扰源特征,传递途径不断变化,背景噪声和被测对象声波相似的情况下,能够有效地消除外界声源的干扰获得高信噪比的对象信号。
从理论上讲,自适应干扰抵消器是基于自适应滤波原理的一种扩展,简单的说,把自适应滤波器的期望信号输入端改为信号加噪声干扰的原始输入端,而它的输入端改为噪声干扰端,由横向滤波器的参数调节输出以将原始输入中的噪声干扰抵消掉,这时误差输出就是有用信号了。
在数字信号采集、处理中,线性滤波是最常用的消除噪声的方法。
线性滤波容易分析,使用均方差最小准则的线性滤波器能找到闭合解,若噪声干扰类型为高斯噪声时,可达到最佳的线性滤波效果。
计算机论文www.lunwendingzhi.com;
机械毕业论文www.lunwenwanjia.com在实际的数字信号采集中,叠加于信号的噪声干扰往往不是单一的高斯噪声,而线性滤波器所要求的中等程度噪声偏移,使线性滤波器对非高斯噪声的滤波性能下降,为克服线性滤波器的缺点,往往采用非线性滤波器,所以本文采用神经网络对信号进行滤波处理。
二、基于BP算法和遗传算法相结合的自适应噪声抵消器在本文中,作者主要基于自适应噪声对消的原理对自适应算法进行研究,提出了一种新的算法,即BP算法和遗传算法相结合的自适应算法。
作者对BP网络的结构及算法作了一个系统的综述,分析了BP算法存在的主要缺陷及其产生的原因。
传统的BP网络既然是一个非线性优化问题,这就不可避免地存在局部极小问题,网络的极值通过沿局部改善的方向一小步进行修正,力图达到使误差函数最小化的全局解,但实际上常得到的使局部最优点。
管理毕业论文网www.yifanglunwen.com;
音乐毕业论文www.xyclww.com;
英语毕业论文www.lanrenbanjia.com;
学习过程中,下降慢,学习速度缓,易出现一个长时间的误差平坦区,即出现平台。
通过对遗传算法文献的分析、概括和总结,发现遗传算法与其它的搜索方法相比,遗传算法(GA)的优点在于:不需要目标函数的微分值;
并行搜索,搜索效率高;
搜索遍及整个搜索空间,容易得到全局最优解。
所以用GA优化BP神经网络,可使神经网络具有进化、自适应的能力。
BP-GA混合算法的方法出发点为:经济论文www.youzhiessay.com教育论文www.hudonglunwen.com;
医学论文网www.kuailelunwen.com;
(1)利用BP神经网络映射设计变量和目标函数、约束之间的关系;
(2)用遗传算法作实现优化搜索;
(3)遗传算法中适应度的计算采用神经网络计算来实现。
BP-GA混合算法的设计步骤如下:(1)分析问题,提出目标函数、设计变量和约束条件;
(2)设定适当的训练样本集,计算训练样本集;
(3)训练神经网络;
(4)采用遗传算法进行结构寻优;
(5)利用训练好的神经网络检验遗传算法优化结果。
若满足要求,计算结束;
若误差不满足要求,将检验解加入到训练样本集中,重复执行3~5步直到满足要求。
通过用短时傅立叶信号和余弦信号进行噪声对消性能测试,在单一的BP算法中,网络的训练次数、学习速度、网络层数以及每层神经元的节点数都是影响BP网络的重要参数,通过仿真实验可以发现,适当的训练次数可以使误差达到极小值,但是训练次数过多,训练时间太长,甚至容易陷入死循环,或者学习精度不高。
学习速度不能选择的太大,否则会出现算法不收敛,也不能选择太小,会使训练过程时间太长,一般选择为0.01~0.1之间的值,再根据训练过程中梯度变化和均方误差变化值确定。
基于梯度下降原理的BP算法,在解空间仅进行单点搜索,极易收敛于局部极小,而GA的众多个体同时搜索解空间的许多点,因而可以有效的防止搜索过程收敛于局部极小,只有算法的参数及遗传算子的操作选择得当,算法具有极大的把握收敛于全局最优解。
使用遗传算法需要决定的运行参数中种群大小表示种群中所含个体的数量,种群较小时,可提高遗传算法的运算速度,但却降低了群体的多样性,可能找不出最优解;
种群较大时,又会增加计算量,使遗传算法的运行效率降低。
一般取种群数目为20~100;
交叉率控制着交叉操作的频率,由于交叉操作是遗传算法中产生新个体的主要方法,所以交叉率通常应取较大值,但若过大的话,又可能破坏群体的优良模式,一般取0.4~0.99;
变异率也是影响新个体产生的一个因素,变异率小,产生个体少,变异率太大,又会使遗传算法变成随机搜索,一般取变异率为0.0001~0.1。
由仿真结果得知,GA与BP算法的混合算法不论是在运行速度还是在运算精度上都较单纯的BP算法有提高,去噪效果更加明显,在信噪比的改善程度上,混合算法的信噪
2023/6/7 6:07:05 2KB BP算法 遗传算法 matlab 源码
1
人头检测所需求的训练样本,包含14000张负样本,8000张训练正样本和2000张测试正样本。
包含正面、侧面和背面的人头图像,不包含俯视的人头图像。
2023/3/19 0:28:23 24.23MB 人头样本 训练样本
1
用于车牌字符辨认的样本,每个字符样本为100个,共计6000多个样本,大小为16*32。
用于车牌字符辨认的训练和测试
2023/3/15 19:45:53 5.84MB 车牌字符 字母 省份 数字
1
基于提高红外图像行人检测准确率的目的,提出了一种基于多特征的红外行人检测算法。
首先提取训练样本的梯度方向直方图特征和强度自类似性特征,利用二者相结合得到联合特征训练支持向量机(SVM),之后利用滑动窗口法対整幅红外图像进行遍历,用训练好的SVM进行分类检测。
在LSIFarInfraredPedestrianDataset数据库上实验证明,基于多特征的检测方法相较于单一特征的方法提高了红外行人检测的精度,降低了误检率和漏检率。
1
一个可选定roi区域拍照的程序文本代码以及用其创作的手部样本1000份,只需在一块白色的背景前设置ROI,即可利用摄像头将输入设备的视频分成大量可用于分类器、神经网络训练的手势图片。
2023/3/8 6:29:44 1.09MB 分类器 手势样本
1
文本挖掘tmSVM开源项目集成libSVM和liblinear包含Python和Java两种版本带PDF源码参考文档简介文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。
而文本分类是文本挖掘中一个非常重要的手段与技术。
现有的分类技术都已经非常成熟,SVM、KNN、DecisionTree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。
但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡、小样本的训练、Unlabeled样本的有效利用、如何选择最佳的训练样本等。
这些问题都将导致curveofdimension、过拟合等问题。
这个开源系统的目的是集众人智慧,将文本挖掘、文本分类前沿领域效果非常好的算法实现并有效组织,形成一条完整系统将文本挖掘尤其是文本分类的过程自动化。
该系统提供了Python和Java两种版本。
主要特征该系统在封装libsvm、liblinear的基础上,又增加了特征选择、LSA特征抽取、SVM模型参数选择、libsvm格式转化模块以及一些实用的工具。
其主要特征如下:封装并完全兼容*libsvm、liblinear。
基于Chi*的featureselection见feature_selection基于LatentSemanticAnalysis的featureextraction见feature_extraction支持Binary,Tf,log(tf),Tf*Idf,tf*rf,tf*chi等多种特征权重见feature_weight文本特征向量的归一化见Normalization利用交叉验证对SVM模型参数自动选择。
见SVM_model_selection支持macro-average、micro-average、F-measure、Recall、Precision、Accuracy等多种评价指标见evaluation_measure支持多个SVM模型同时进行模型预测采用python的csc_matrix支持存储大稀疏矩阵。
引入第三方分词工具自动进行分词将文本直接转化为libsvm、liblinear所支持的格式。
使用该系统可以做什么对文本自动做SVM模型的训练。
包括Libsvm、Liblinear包的选择,分词,词典生成,特征选择,SVM参数的选优,SVM模型的训练等都可以一步完成。
利用生成的模型对未知文本做预测。
并返回预测的标签以及该类的隶属度分数。
可自动识别libsvm和liblinear的模型。
自动分析预测结果,评判模型效果。
计算预测结果的F值、召回率、准确率、Macro,Micro等指标,并会计算特定阈值、以及指定区间所有阈值下的相应指标。
分词。
对文本利用mmseg算法对文本进行分词。
特征选择。
对文本进行特征选择,选择最具代表性的词。
SVM参数的选择。
利用交叉验证方法对SVM模型的参数进行识别,可以指定搜索范围,大于大数据,会自动选择子集做粗粒度的搜索,然后再用全量数据做细粒度的搜索,直到找到最优的参数。
对libsvm会选择c,g(gamma),对与liblinear会选择c。
对文本直接生成libsvm、liblinear的输入格式。
libsvm、liblinear以及其他诸如weka等数据挖掘软件都要求数据是具有向量格式,使用该系统可以生成这种格式:labelindex:valueSVM模型训练。
利用libsvm、liblinear对模型进行训练。
利用LSA对进行FeatureExtraction*,从而提高分类效果。
开始使用QuickStart里面提供了方便的使用指导如何使用该系统可以在命令行(Linux或cmd中)中直接使用,也可以在程序通过直接调用源程序使用。
在程序中使用。
#将TMSVM系统的路径加入到Python搜索路径中importsyssys.path.insert(0,yourPath+"\tmsvm\src")importtms#对data文件夹下的binary_seged.train文件进行训练。
tms.tms_train(“../data/binary_seged.train”)#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测tms.tms_predict(“../data/binary_seged.test”,”../model/tms.config”)#对预测的结果进行分析,评判模型的效果tms.tms_analysis(“../tms.result”)在命令行中调用#对data文件夹下的binary_seged.train文件进行训练。
$pythonauto_train.py[options]../data/binary_seged.train#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测pythonpredict.py../data/binary_seged.train../model/tms.config#对预测的结果进行分析,评判模型的效果$pythonresult_anlaysis.py../tms.result上面的调用方式都是使用系统中默认的参数,更具体、灵活的参数见程序调用接口输入格式labelvalue1[value2]其中label是定义的类标签,如果是binaryclassification,建议positive样本为1,negative样本为-1。
如果为multi-classification。
label可以是任意的整数。
其中value为文本内容。
label和value以及value1和value2之间需要用特殊字符进行分割,如”\t”模型输出模型结果会放在指定保存路径下的“model”文件夹中,里面有3个文件,默认情况下为dic.key、tms.model和tms.config。
其中dic.key为特征选择后的词典;
tms.model为训练好的SVM分类模型;tms.config为模型的配置文件,里面记录了模型训练时使用的参数。
临时文件会放在“temp”文件夹中。
里面有两个文件:tms.param和tms.train。
其中tms.param为SVM模型参数选择时所实验的参数。
tms.train是供libsvm和liblinear训练器所使用的输入格式。
源程序说明src:即该系统的源代码,提供了5个可以在Linux下可以直接调用的程序:auto_train.py、train.py、predict.py为在Linux下通过命令行调用的接口。
tms.py为在程序中调用的主文件,直接通过importtms即可调用系统的所有函数。
其他文件为程序中实现各个功能的文件。
lsa_src:LSA模型的源程序。
dependence:系统所依赖的一些包。
包括libsvm、liblinear、Pymmseg在Linux32位和64位以及windows下的支持包(dll,so文件)。
tools:提供的一些有用的工具,包括result_analysis.py等。
java:java版本的模型预测程序,项目重要更新日志2012/09/21针对linux下的bug进行修正。
重新生成win和linux版本的。
2012/03/08增加stem模块,并修正了几个Bug。
2011/11/22tmsvm正式发布。
联系方式邮箱:zhzhl202@163.comThanks本系统引用了libsvm、liblinear的包,非常感谢Chih-JenLin写出这么优秀的软件。
本系统还引用了Pymmseg,非常感谢pluskid能为mmseg写出Python下可以直接使用的程序从最初的想法萌生到第一版上线,中间试验了很多算法,最终因为效果不好删掉了很多代码,在这期间得到了许多人的帮助,非常感谢杨铮、江洋、敏知、施平等人的悉心指导。
特别感谢丽红一直以来的默默支持。
2023/2/8 18:37:14 3.39MB 文本挖掘 tmSVM libSVM 支持向量机
1
模式识别miniproject-脱机手写签名识别,这是每个学习模式识别的同学必做的课程设计miniproject,主要功能要求如下:一共有20个人,在其对应的文件夹中存放了每个人的20个手写签名图像,每幅图像均为PCX图像格式,大小为12994像素大小。
对每个人的手写签名,用其中80%的图像作为训练样本进行训练,用余下的20%的图像进行测试。
在签名图像进行特征提取时,提取6个ET1和6个DT12轮廓特征。
每一个人的手写签名特征假设为48维特征空间的多维高斯分布。
用贝叶斯参数估计法估算概率密度函数(pdf),然后用Bayes分类器识别。
分别计算closetest和opentest下的分类功能。
根据每个类的概率分布函数的最近邻估算来计算贝叶斯识别的opentest识别率。
适用kn最近邻法来直接估算每个类在每个测试样本的后验概率并计算opentest下的分类功能,将该识别率表示为一个关于k的函数并绘图。
这些是基于后验概率的非参数估计的贝叶斯估计。
2023/1/30 10:20:44 816KB 签名 识别 源码
1
多输出支持向量回归对于一般的回归问题,给定训练样本D={(x1,y1),(x2,y2),...,(xn,yn)},yi€R,我们希望学习到一个f(x)使得其与y尽可能的接近,w,b是待确定的参数。
在这个模型中,只要当f(x)与y完全相同时,损失才为零,而支持向量回归假设我们能容忍的f(x)与y之间最多有ε的偏差,当且仅当f(x)与y的差别绝对值大于ε时,才计算损失,此时相当于以f(x)为中心,构建一个宽度为2ε的间隔带,若训练样本落入此间隔带,则认为是被预测正确的。
(间隔带两侧的松弛程度可有所不同)------
2023/1/27 12:33:31 5KB Matlab
1
共 55 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡