2016年11月22日,国家发展改革委、地方网信办、国家标准委联合发布《关于组织开展新型智慧城市评价工作务实推动新型智慧城市健康快速发展的通知》
2023/2/16 10:11:15 28KB 新型智慧城市
1
我们将会使用在信誉评级建模中非常常用的德国信贷数据(Germancreditdataset)作为建模的数据集。
德国信贷数据共有1000条数据,每条数据20个特征。
这些特征包括AccountBalance(Checking账户余额)、Duration(DurationofCreditinmonth借款期限)、Paymentstatus(还款记录)等。
其中比较难以理解的指标是Instalmentpercent,其代表着Installmentrateinpercentageofdisposableincome(分期付款占可支配收入的百分比)。
2023/2/13 1:34:58 246KB GermanCredit
1
本文通过在几个基准数据集上进行实验,研究了旋转森林集成方法在提高基本预测变量解决回归问题的泛化能力方面的功能,并与Bagging,RandomForest,Adaboost.R2和a单一回归树。
还研究了轮作林对其所含参数选择的敏感性。
在考虑的回归数据集上,可以看到Adaboost.R2通常胜过RotationForest,并且两者都优于RandomForest和一棵树。
关于袋装和轮换林,似乎他们之间没有明显的赢家。
此外,修剪树似乎对所有考虑的方法的功能都有一些不良影响。
2023/2/12 9:46:37 423KB Rotation Forest; Adaboost.R2; Bagging;
1
文本挖掘tmSVM开源项目集成libSVM和liblinear包含Python和Java两种版本带PDF源码参考文档简介文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。
而文本分类是文本挖掘中一个非常重要的手段与技术。
现有的分类技术都已经非常成熟,SVM、KNN、DecisionTree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。
但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡、小样本的训练、Unlabeled样本的有效利用、如何选择最佳的训练样本等。
这些问题都将导致curveofdimension、过拟合等问题。
这个开源系统的目的是集众人智慧,将文本挖掘、文本分类前沿领域效果非常好的算法实现并有效组织,形成一条完整系统将文本挖掘尤其是文本分类的过程自动化。
该系统提供了Python和Java两种版本。
主要特征该系统在封装libsvm、liblinear的基础上,又增加了特征选择、LSA特征抽取、SVM模型参数选择、libsvm格式转化模块以及一些实用的工具。
其主要特征如下:封装并完全兼容*libsvm、liblinear。
基于Chi*的featureselection见feature_selection基于LatentSemanticAnalysis的featureextraction见feature_extraction支持Binary,Tf,log(tf),Tf*Idf,tf*rf,tf*chi等多种特征权重见feature_weight文本特征向量的归一化见Normalization利用交叉验证对SVM模型参数自动选择。
见SVM_model_selection支持macro-average、micro-average、F-measure、Recall、Precision、Accuracy等多种评价指标见evaluation_measure支持多个SVM模型同时进行模型预测采用python的csc_matrix支持存储大稀疏矩阵。
引入第三方分词工具自动进行分词将文本直接转化为libsvm、liblinear所支持的格式。
使用该系统可以做什么对文本自动做SVM模型的训练。
包括Libsvm、Liblinear包的选择,分词,词典生成,特征选择,SVM参数的选优,SVM模型的训练等都可以一步完成。
利用生成的模型对未知文本做预测。
并返回预测的标签以及该类的隶属度分数。
可自动识别libsvm和liblinear的模型。
自动分析预测结果,评判模型效果。
计算预测结果的F值、召回率、准确率、Macro,Micro等指标,并会计算特定阈值、以及指定区间所有阈值下的相应指标。
分词。
对文本利用mmseg算法对文本进行分词。
特征选择。
对文本进行特征选择,选择最具代表性的词。
SVM参数的选择。
利用交叉验证方法对SVM模型的参数进行识别,可以指定搜索范围,大于大数据,会自动选择子集做粗粒度的搜索,然后再用全量数据做细粒度的搜索,直到找到最优的参数。
对libsvm会选择c,g(gamma),对与liblinear会选择c。
对文本直接生成libsvm、liblinear的输入格式。
libsvm、liblinear以及其他诸如weka等数据挖掘软件都要求数据是具有向量格式,使用该系统可以生成这种格式:labelindex:valueSVM模型训练。
利用libsvm、liblinear对模型进行训练。
利用LSA对进行FeatureExtraction*,从而提高分类效果。
开始使用QuickStart里面提供了方便的使用指导如何使用该系统可以在命令行(Linux或cmd中)中直接使用,也可以在程序通过直接调用源程序使用。
在程序中使用。
#将TMSVM系统的路径加入到Python搜索路径中importsyssys.path.insert(0,yourPath+"\tmsvm\src")importtms#对data文件夹下的binary_seged.train文件进行训练。
tms.tms_train(“../data/binary_seged.train”)#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测tms.tms_predict(“../data/binary_seged.test”,”../model/tms.config”)#对预测的结果进行分析,评判模型的效果tms.tms_analysis(“../tms.result”)在命令行中调用#对data文件夹下的binary_seged.train文件进行训练。
$pythonauto_train.py[options]../data/binary_seged.train#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测pythonpredict.py../data/binary_seged.train../model/tms.config#对预测的结果进行分析,评判模型的效果$pythonresult_anlaysis.py../tms.result上面的调用方式都是使用系统中默认的参数,更具体、灵活的参数见程序调用接口输入格式labelvalue1[value2]其中label是定义的类标签,如果是binaryclassification,建议positive样本为1,negative样本为-1。
如果为multi-classification。
label可以是任意的整数。
其中value为文本内容。
label和value以及value1和value2之间需要用特殊字符进行分割,如”\t”模型输出模型结果会放在指定保存路径下的“model”文件夹中,里面有3个文件,默认情况下为dic.key、tms.model和tms.config。
其中dic.key为特征选择后的词典;
tms.model为训练好的SVM分类模型;tms.config为模型的配置文件,里面记录了模型训练时使用的参数。
临时文件会放在“temp”文件夹中。
里面有两个文件:tms.param和tms.train。
其中tms.param为SVM模型参数选择时所实验的参数。
tms.train是供libsvm和liblinear训练器所使用的输入格式。
源程序说明src:即该系统的源代码,提供了5个可以在Linux下可以直接调用的程序:auto_train.py、train.py、predict.py为在Linux下通过命令行调用的接口。
tms.py为在程序中调用的主文件,直接通过importtms即可调用系统的所有函数。
其他文件为程序中实现各个功能的文件。
lsa_src:LSA模型的源程序。
dependence:系统所依赖的一些包。
包括libsvm、liblinear、Pymmseg在Linux32位和64位以及windows下的支持包(dll,so文件)。
tools:提供的一些有用的工具,包括result_analysis.py等。
java:java版本的模型预测程序,项目重要更新日志2012/09/21针对linux下的bug进行修正。
重新生成win和linux版本的。
2012/03/08增加stem模块,并修正了几个Bug。
2011/11/22tmsvm正式发布。
联系方式邮箱:zhzhl202@163.comThanks本系统引用了libsvm、liblinear的包,非常感谢Chih-JenLin写出这么优秀的软件。
本系统还引用了Pymmseg,非常感谢pluskid能为mmseg写出Python下可以直接使用的程序从最初的想法萌生到第一版上线,中间试验了很多算法,最终因为效果不好删掉了很多代码,在这期间得到了许多人的帮助,非常感谢杨铮、江洋、敏知、施平等人的悉心指导。
特别感谢丽红一直以来的默默支持。
2023/2/8 18:37:14 3.39MB 文本挖掘 tmSVM libSVM 支持向量机
1
在科学研究和生产中,经常需要做许多试验,并通过对试验数据的分析,来寻求问题的处理办法。
如此,就存在着如何安排试验和如何分析试验结果的问题,也就是如何进行试验设计和数据处理的问题。
全书共分为10章,第1章介绍了试验设计与数据处理的一些基本概念;
第2章介绍单因素优选法;
第3章介绍了试验数据的方差分析法;
第4章介绍了如何利用正交表进行正交试验设计及正交试验设计的优点;
第5章介绍了对单指标及多指标正交试验设计及其结果的直观分析法;
第6章介绍了正交试验设计结果方差分析法的基本原理;
第7章介绍了正交表的并列法、拟水平法、部分追加法及直积法;
第8章介绍了试验数据的回归分析;
第9章介绍了均匀试验设计;
第10章介绍了Excel在试验数据处理中的应用。
1
编写目的编写本测试计划的目的是为整个测试阶段的管理工作和技术工作提供指南;
同时确定测试的内容和范围,为评价系统提供依据;
此外还协助用户安排测试活动,说明对设备器材和机构人员的资源需求;
说明测试结果的评价指标。
1.2背景说明本测试计划所属软件系统的名称、特征、要求和难点,以及在开始执行本测试计划之前必须完成的各项任务。
1.3参考资料《XX电子运行维护系统省内系统需求规范V2.0》《XX省EOMS系统需求规范V1.5》《概要设计说明书》《软件需求规格说明书》
2023/1/11 19:46:12 422KB 测试计划
1
针对有功网损、电压偏差和静态电压稳定裕度的多目标无功优化问题,提出一种基于改进粒子群-禁忌搜索算法的多目标电力系统无功优化方法。
以最小特征值模为电压稳定裕度指标建立了3个目标函数的单一妥协模型。
应用Kent映射产生的混沌序列作为初始种群,保证初始种群的多样性和均匀性。
粒子群优化(PSO)算法进行前期计算时,采用凸函数递减惯性权重和自适应学习因子提高算法的收敛速度和精度;
针对PSO算法搜索精度不高和陷入局部最优的问题,在PSO算法后期收敛后引入禁忌搜索算法全局寻优。
基于群体适应度方差,引入模糊截集理论将模糊集合转化为经典集合,定义了经典集合下的收敛指标,当其值为0时进入禁忌搜索计算阶段,处理2种算法的切换问题。
将所提方法应用于IEEE14、IEEE30和IEEE118节点系统中,验证了其有效性和可行性。
2023/1/11 2:14:42 1.06MB
1
页面的打开速度对网站的优化有极大的意义,如果打开一个页面不断处于白屏状态,比如TTFB超过5秒,可能大部分人都会把它关掉。
或者是页面加载出来了,但是比较慢,页面显示不完整,标签栏不断在转圈,页面长期处于不可交互的状态,这也是一种很不好的体验。
如何评价一个页面打开得快不快,可以用两个指标描述,一个是ready的时间,另一个是load的时间。
这个可以从Chrome的控制台看到,如打开stackoverflow.com网站的首页:一共是加载490KB,ready时间是7.36s,load时间是17.35s。
再来看下打开谷歌的情况:虽然两个页面的内容差别比较大,但是从时间来看的话,很明显谷歌的速度要明
1
大型网站架构演化 大型网站软件系统的特点 大型网站架构演化发展历程 初始阶段 应用服务和数据服务分离 使用缓存改善网站功能 缓存类型 本地缓存 分布式缓存 缓存产品 redis 业界主流 memcached 解决问题 数据库访问 使用应用服务器集群改善网站的并发处理能力 问题:负载均衡情况下session状态的保持? 解决方案: 基于DNS的负载均衡 反向代理 ngix JK2 数据库的读写分离 问题:读库与写库的数据同步 解决方案:不同的数据库都有自己的数据库的主从复制功能 使用反向代理与CDN加速网站响应 反向代理产品 ngix 使用分布式文件系统和分布式数据库系统 使用no-sql和搜索引擎 站内搜索 lucene nutch 分词器 no-sql库 mongodb hadoop 业务拆分 webservice restful 分布式服务 大型网站架构演化的价值观 核心价值:随网站所需灵活应对 驱动力量:网站的业务发展 网站架构设计误区 一味追随大公司的解决方案 为技术而技术 企图用技术解决一切问题大型网站架构模式 架构模式 分层 分割 分布式 分布式应用和服务 分布式静态资源 分布式数据和存储 分布式计算 集群 缓存 CDN 反向代理 本地缓存 分布式缓存 异步 冗佘 冷备份 主从分离,实时同步实现热备份 灾备数据中心 自动化 发布过程自动化 ant maven. 自动化代码管理 svn cvs github 自动化测试 loadrunner hudson. 自动化安全测试 自动化部署 自动化报警 自动化失效转移 自动化失效恢复 自动化降级 自动化分配资源 安全 密码和手机校验码 数据库中的密码加密后存->不可ni->md5 加密 子主题1 验证码 防止机器登录 对于攻击网站的XSS攻击,SQL注入,进行编码转换 对垃圾信息,敏感信息进行过滤 对交易转账等重要操作根据交易模式和交易信息进行风险控制 Sina微博的应用大型网站架构要素 功能 可用性 伸缩性 扩展性 安全性瞬时响应:网站的高功能架构 网站的功能测试 不同的视角 用户的视角 开发人员的视角 运维人员的视角 功能测试指标 响应时间 并发数 吞吐量 功能测试方法 功能测试 负载测试 压力测试 稳定性测试 web前端功能优化 浏览器优化 减少http请求 使用浏览器缓存 启用压缩 css上,js下 减少cookie传输,静态资源使用独立域名访问 CDN加速 反向代理 应用服务器功能优化 分布式缓存 缓存的原理 合理使用缓存 频繁修改的数据 没有热点的访问 数据不一致和脏读 缓存可用性 缓存预热 缓存穿透 缓存架构 jbosscache为代表的需要更新同步的分布式级缓存 以memcached为代表的不互相通信的分布式缓存 异步操作 使用集群 代码优化 多线程 资源复用 单例 对象池 数据结构 垃圾回收 存储功能优化 固态硬盘 RAID与HDFS万无一失:网站的高可用性 高可性的度量与考核 度量 考核 高可用的网站架构 高可用的应用 高可用的服务 高可用的数据 CAP原理 数据备份 失效转移 高可用网站的软件质量保证 网站发布 自动化测试 预发布验证 代码控制 自动化发布 灰度发布 网站运行临控 临控数据采集 临控管理永无止境:网站的可伸缩性 网站架构的伸缩性设计 不同功能进行物理分离实现伸缩 单一功能通过集群规模实现伸缩 应用服务器集群的伸缩性设计 http重定向负载均衡 DNS域名解析负载均衡 反向代理负载均衡 ip负载均衡 数据链路层负载均衡 负载均衡算法 分布式缓存集群的伸缩性设计 mem
2021/7/2 17:55:03 1.02MB 网站架构
1
V-M双闭环不可逆直流调速系统设计1.技术要求:(1)该调速系统能进行平滑的速度调节,负载电机不可逆运行,具有较宽的调速范围(D≥10),系统在工作范围内能稳定工作(2)系统静特性良好,无静差(静差率s≤2)(3)动态功能指标:转速超调量δn<8%,电流超调量δi<5%,动态速降Δn≤8-10%,调速系统的过渡过程时间(调节时间)ts≤1s(4)系统在5%负载以上变化的运行范围内电流连续(5)调速系统中设置有过电压、过电流等保护,并且有制动措施2.设计内容:(1)根据题目的技术要求,分析论证并确定主电路的结构型式和闭环调速系统的组成,画出系统组成的原理框图(2)调速系统主电路元部件的确定及其参数计算(包括有变压器、电力电子器件、平波电抗器与保护电路等)(3)动态设计计算:根据技术要求,对系统进行动态校正,确定ASR调节器与ACR调节器的结构型式及进行参数计算,使调速系统工作稳定,并满足动态功能指标的要求(4)绘制V-M双闭环直流不可逆调速系统的电气原理总图(要求计算机绘图)(5)整理设计数据资料,课程设计总结,撰写设计计算说明书
1
共 518 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡