横瓜文件FTP下载资源搜索服务器主要用来架构图片搜索下载、视频搜索下载、图书搜索下载、软件搜索下载、电影搜索下载、MP3搜索下载、音乐搜索下载、游戏搜索下载等任何资源文件的搜索下载服务器。
最大并发连接数可达1000,仅依靠一台PC服务器,就可同时为1000个客户提供负载均衡的并发下载服务和检索服务,同时支持断点续传下载、迅雷下载、快车下载、IE浏览器HTTP下载等,在负载均衡方面,将迅雷快车等软件的风暴下载技术斩断成普通HTTP下载,实现了全体资源文件公平公正均衡下载的目标,节省了资源服务商带宽,提高了并发数量。
单个被下载文件最大可达2G字节,文件检索数量最多可达2000万个文件,扫描文件速度约2000个文件/秒,分词速度2500万字/分钟,平均检索时间小于0.001秒。
对于10万个文件,可在50秒内完成所有架构工作。
横瓜采用横瓜分布式Map数据库技术、分词索引技术、最大左匹配切词技术、倒排技术、MD5摘要信息抽取技术、新词智能识别技术、硬盘整理加速技术、疑似垂直搜索技术、中文海量词典技术、横瓜HTTP检索服务器web-search缓存技术、HTM转换TXT技术等,横瓜是根据文件名进行检索的,是基于Windows平台的WEB服务器软件系统,用来提供超大文件下载服务和检索服务。
横瓜PC硬件最低配置,需要700M内存、空闲硬盘空间1G、文件系统NTFS。
搜索引擎开发及合作,请联系QQ(601069289)安装说明:1、第一次使用软件前,先执行Setup.exe。
程序add.exe、title.exe为系统内核,勿动!2、架构搜索步骤:先将资源文件放在当前目录下的'file'文件夹('file'文件夹内可以随意组织子文件夹),然后单击websearch.exe程序的按钮“”创建索引“”,若标签提示分词完成,就可单击按钮“”WWW查询“”使用检索查询服务了。
若硬盘文件有变动,可重新单击“”创建索引“”来更新检索系统。
3、websearch.exe可实现扫描、索引、分词等,若要执行HTTP检索下载服务,websearch.exe须挂机。
4、websearch.exe挂机后,从IE中输入“”http://IP地址或域名:7777/“”可检索查询。
在www目录下,存有搜索引擎的主页和LOGO,客户可以根据个性需要自行修改。
5、使用本软件,必须开放端口:7000、7001、70002、70003、70004、7777、77786、本软件使用的基础词典已经用MD5加密封装,用户可以在dic.txt中自由添加新词,新词被添加到dic.txt后,被检索的几率变大。
若不添加新词,也可以被检索到,只是几率稍小些。
7、不得将本软件用于赢利目的、销售他人、非法用途等,否则将会被追究法律责任。
2024/8/7 12:17:16 3.32MB 服务器软件-FTP服务器
1
本词库系将搜集到的大词库用词库转换器转换成谷歌输入法的词库格式,导入到谷歌输入法中制作而成的词库。
词库的使用方法很简单,在谷歌输入法状态栏上按右键,点击“属性设置-词典”,在“用户词典管理”中点击“导入”即可。
完成导入之后,您的谷歌输入法将拥有至少200万的超大词库,打起字来一定更加得心应手。
独家原创资源,转载请注明出处。
2024/4/1 8:42:08 29.27MB 输入法 词库 WINDOWS 谷歌
1
用于金山DIC词典文件导出的工具软件名称:金山词霸的DIC词典导出程序软件版本:0.22软件作者:dwing软件类型:文件提取类工具/英文命令行界面软件性质:免费软件(freeware)发布日期:2006.5.28软件大小:9.37KB
1
从理论上推导了数字图像相关(DIC)方法中应变精度的影响因素,指出应变计算精度会随着窗口尺寸的变小而下降。
为了提高图像有效分辨率,针对细长平面试件提出了一种二维多相机全场DIC方法。
该方法根据特征点检测及匹配算法定位特征点对的亚像素位置,通过DIC方法对特征点对进行高精度配准,利用发展的逐步优化单应矩阵方法求解图像变换关系,得到变形前后的无缝拼接图像。
分别实施了纯平移和橡胶梁三点弯两组实验。
在纯平移实验中,该方法计算得到的应变均值误差及均方根误差均在50με以内,验证了该方法的有效性;采用橡胶梁三点弯实验对比该方法与三维多相机全场DIC方法,并基于实验结果对该方法的优点与缺点进行了分析。
2023/10/1 21:30:34 11.59MB 测量 二维数字 多相机 全场变形
1
本文档介绍Sphinx4在Windows下的中文训练过程及注意事项,与本文档配套的是我自己的训练实例bergtrain和用到的软件。
本文档编写日期2013-04-231、为什么要训练?sphinx4目前的版本中仅提供了英文等语音识别库。
中文的库是PTM或semi类型的,在java版sphinx中无法使用。
2、Sphinx的训练指哪些内容?在Sphinx中有语言模型、声学模型等概念,如果你不想了解这些,请参考以下内容:a1、中文每个字的标准发音已经有一个较为全面的文件进行了标注这个文件就是zh_broadcastnews_utf8.dic(下称这类文件为发音字典),在sphinx网站上可以下载,我们也包含了它。
下面是该文件的片断,它用类似拼音的方式标注了每个字或词的发音。
昌chang昌北changbei昌必changbi昌都changdu昌赫changhea2、需要告诉sphinx我们经常使用的字、词是哪些,它们出现的频率如何由于开放式语音识别尚难实现,所以sphinx实际上只能较好的处理相对小的语言集合。
因此,针对特定的领域,告诉sphinx该领域的词汇和各词出现的频率将极大提高识别率。
a3、需要告诉sphinx每个字、词的真正读音发音字典告诉sphinx每个字的标准读音,但面对的说话人往往不会以标准读音来朗读。
因此sphinx需要学习说话人的“口音”。
如果训练时的读者发音比较标准,则sphinx能“举一反三”,识别其他不那么标准的读者的语音。
推荐的做法是训练一些典型的口音:标准男、女声,童音,最后再考虑特定用户的口音。
3、如何准备训练内容所需的原料?需要准备两大内容:1)文本语料文件,2)语料录音文件。
文本语料文件给出2.a2中需要的内容,在bergtrain的etc文件下的berginput.txt文件就是一个预料文件。
它以行为单位,给出了150个中文句子。
语料录音文件是根据文本语料文件,朗读它的每行/句话,保存到每一个语音文件即可。
语料文件中的语句应该尽量选择领域相关的,在覆盖领域内名词的前提下,覆盖尽可能多的通用词汇。
4、训练环境及注意事项本文的训练软硬件如下:硬件:T60P笔记本,机器自带录音设备;
操作系统为Win732位。
软件:Sphinx cmuclmtk-0.7-win32.zip pocketsphinx-0.8-win32.zip sphinxbase-0.8-win32.zip sphinxtrain-1.0.8-win32.zip sphinx4-1.0beta6-bin.zip,用于编写java版的识别软件所需的库 脚本执行软件 ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi ActivePython-2.7.2.5-win32-x86.msi 录音和处理软件 audacity-win-2.0.3rc1.zip,可进行录音和声音文件处理(如降噪),免费软件 FairStars.zip,可进行批量录音(V3.5绿色版) 文本编辑软件UltraEdit,UltraEdit-32.rar绿色版注意: 文件格式 语料文件必须使用UltraEdit进行编辑, 在编辑后,使用文件-转换-ASCII转UTF-8(UNICODE编辑),指定文件中的中文使用utf8编码。
在保存前,设置格式如下: 换行符:UNIX终束符-LF 指定文件中的回车/换行符为编码0A的换行符 格式:UTF-8-无BOM 每个文件的末尾必须有一个回车! 这个回车将在保存时被替换为编码0A的换行符,训练脚本需要这个符号来确认文件的结束。
录音文件 如果你不希望去编辑训练中的配置文件,则在使用FairStars录音时作如下设定: 进入菜单和对话框选项-显示录音选项-编码-WMA, 设定:采样率(16000Hz)、通道(单声道)、比特率(16Kbps)5、训练步骤下面逐步从零开始进行训练5.1软件环境的安装将本文档所在的文件夹解压或拷贝到d:\,即本文档路径是d:\sphinxtrain\Sphinx中文训练教程.txt1)点击安装ActivePerl-5.16.3.1603-MSWin32-x86-296746.msi和ActivePython-2.7.2.5-win32-x86.msi;
2)解压Sphinx中除sphinx4-1.0beta6-bin.zip外的压缩文件到d:\sphinxtrain下
2023/8/14 6:38:31 53.17MB sphinx 中文 语音 训练
1
DIC(主程序)计算图像序列的位移,应变和应力MATLAB实现
2023/7/9 16:42:05 6.01MB DIC MATLAB
1
百度百科全部词条,包含最新的百度百科全部词条,dic格式,解压后用notepad打开即可
2023/6/11 20:54:27 38.89MB 百度百科 词条
1
基于c#winfromDicom图像解析,包括dic,dcm.pk文件,内附dcm文件举行测试,dcm文件在文件夹dcm中
2023/3/7 18:19:36 110.47MB 666
1
文本挖掘tmSVM开源项目集成libSVM和liblinear包含Python和Java两种版本带PDF源码参考文档简介文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。
而文本分类是文本挖掘中一个非常重要的手段与技术。
现有的分类技术都已经非常成熟,SVM、KNN、DecisionTree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。
但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡、小样本的训练、Unlabeled样本的有效利用、如何选择最佳的训练样本等。
这些问题都将导致curveofdimension、过拟合等问题。
这个开源系统的目的是集众人智慧,将文本挖掘、文本分类前沿领域效果非常好的算法实现并有效组织,形成一条完整系统将文本挖掘尤其是文本分类的过程自动化。
该系统提供了Python和Java两种版本。
主要特征该系统在封装libsvm、liblinear的基础上,又增加了特征选择、LSA特征抽取、SVM模型参数选择、libsvm格式转化模块以及一些实用的工具。
其主要特征如下:封装并完全兼容*libsvm、liblinear。
基于Chi*的featureselection见feature_selection基于LatentSemanticAnalysis的featureextraction见feature_extraction支持Binary,Tf,log(tf),Tf*Idf,tf*rf,tf*chi等多种特征权重见feature_weight文本特征向量的归一化见Normalization利用交叉验证对SVM模型参数自动选择。
见SVM_model_selection支持macro-average、micro-average、F-measure、Recall、Precision、Accuracy等多种评价指标见evaluation_measure支持多个SVM模型同时进行模型预测采用python的csc_matrix支持存储大稀疏矩阵。
引入第三方分词工具自动进行分词将文本直接转化为libsvm、liblinear所支持的格式。
使用该系统可以做什么对文本自动做SVM模型的训练。
包括Libsvm、Liblinear包的选择,分词,词典生成,特征选择,SVM参数的选优,SVM模型的训练等都可以一步完成。
利用生成的模型对未知文本做预测。
并返回预测的标签以及该类的隶属度分数。
可自动识别libsvm和liblinear的模型。
自动分析预测结果,评判模型效果。
计算预测结果的F值、召回率、准确率、Macro,Micro等指标,并会计算特定阈值、以及指定区间所有阈值下的相应指标。
分词。
对文本利用mmseg算法对文本进行分词。
特征选择。
对文本进行特征选择,选择最具代表性的词。
SVM参数的选择。
利用交叉验证方法对SVM模型的参数进行识别,可以指定搜索范围,大于大数据,会自动选择子集做粗粒度的搜索,然后再用全量数据做细粒度的搜索,直到找到最优的参数。
对libsvm会选择c,g(gamma),对与liblinear会选择c。
对文本直接生成libsvm、liblinear的输入格式。
libsvm、liblinear以及其他诸如weka等数据挖掘软件都要求数据是具有向量格式,使用该系统可以生成这种格式:labelindex:valueSVM模型训练。
利用libsvm、liblinear对模型进行训练。
利用LSA对进行FeatureExtraction*,从而提高分类效果。
开始使用QuickStart里面提供了方便的使用指导如何使用该系统可以在命令行(Linux或cmd中)中直接使用,也可以在程序通过直接调用源程序使用。
在程序中使用。
#将TMSVM系统的路径加入到Python搜索路径中importsyssys.path.insert(0,yourPath+"\tmsvm\src")importtms#对data文件夹下的binary_seged.train文件进行训练。
tms.tms_train(“../data/binary_seged.train”)#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测tms.tms_predict(“../data/binary_seged.test”,”../model/tms.config”)#对预测的结果进行分析,评判模型的效果tms.tms_analysis(“../tms.result”)在命令行中调用#对data文件夹下的binary_seged.train文件进行训练。
$pythonauto_train.py[options]../data/binary_seged.train#利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测pythonpredict.py../data/binary_seged.train../model/tms.config#对预测的结果进行分析,评判模型的效果$pythonresult_anlaysis.py../tms.result上面的调用方式都是使用系统中默认的参数,更具体、灵活的参数见程序调用接口输入格式labelvalue1[value2]其中label是定义的类标签,如果是binaryclassification,建议positive样本为1,negative样本为-1。
如果为multi-classification。
label可以是任意的整数。
其中value为文本内容。
label和value以及value1和value2之间需要用特殊字符进行分割,如”\t”模型输出模型结果会放在指定保存路径下的“model”文件夹中,里面有3个文件,默认情况下为dic.key、tms.model和tms.config。
其中dic.key为特征选择后的词典;
tms.model为训练好的SVM分类模型;tms.config为模型的配置文件,里面记录了模型训练时使用的参数。
临时文件会放在“temp”文件夹中。
里面有两个文件:tms.param和tms.train。
其中tms.param为SVM模型参数选择时所实验的参数。
tms.train是供libsvm和liblinear训练器所使用的输入格式。
源程序说明src:即该系统的源代码,提供了5个可以在Linux下可以直接调用的程序:auto_train.py、train.py、predict.py为在Linux下通过命令行调用的接口。
tms.py为在程序中调用的主文件,直接通过importtms即可调用系统的所有函数。
其他文件为程序中实现各个功能的文件。
lsa_src:LSA模型的源程序。
dependence:系统所依赖的一些包。
包括libsvm、liblinear、Pymmseg在Linux32位和64位以及windows下的支持包(dll,so文件)。
tools:提供的一些有用的工具,包括result_analysis.py等。
java:java版本的模型预测程序,项目重要更新日志2012/09/21针对linux下的bug进行修正。
重新生成win和linux版本的。
2012/03/08增加stem模块,并修正了几个Bug。
2011/11/22tmsvm正式发布。
联系方式邮箱:zhzhl202@163.comThanks本系统引用了libsvm、liblinear的包,非常感谢Chih-JenLin写出这么优秀的软件。
本系统还引用了Pymmseg,非常感谢pluskid能为mmseg写出Python下可以直接使用的程序从最初的想法萌生到第一版上线,中间试验了很多算法,最终因为效果不好删掉了很多代码,在这期间得到了许多人的帮助,非常感谢杨铮、江洋、敏知、施平等人的悉心指导。
特别感谢丽红一直以来的默默支持。
2023/2/8 18:37:14 3.39MB 文本挖掘 tmSVM libSVM 支持向量机
1
ubuntu下安装stardict(星际译王):sudoaptinstallstardictsudoaptinstallstardict-gtk然后下载解压本zip包,再将其中各个bz2文件解压放置到适当共享路径上:tar-jxfstardict-xxx.tar.bz2sudomvstartdict-xxxx/usr/share/stardict/dic/......(每个词典都依样做一遍)注意真人语音库存放的位置与上面词典位置不一样:tar-jxfxxxRealPeopleTTS.tar.bz2sudomvxxxRealPeopleTTS/usr/share/最后,进行一下语音关联操作:sudoaptinstallsoxOK,到这就成了。
启动器查找运行starDict,右键点图标将其添加到珍藏夹。
再点开程序窗口右下角设置选项,词典栏目下有音效选项,勾选打开音效,播放wave的命令可以填入paplay(不填写好像也行)。
确认关闭设置,程序搜索栏键入“stardict”试一下词典反应。
再点一下三个小齿轮图标,是不是有真人朗读出声了。
祝贺你成功了!更多其他语种离线词典,也可去下载。
我看了一下,日语/法语/俄语/越语都有。
安装bz2方式是一样的。
2017/9/8 3:04:17 142.79MB StarDict 星际译 ubuntu 单词朗读
1
共 12 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡