文本处理是现代化计算机应用的重要领域。
文本由字符组成,字符以某种编码形式存储在计算机中。
每个字符的编码可以是相等长度的,也可以是不等长度的。
我们熟知的ASCII编码是等长编码。
为了提高存储和处理文本的效率,在一些计算机应用场合,如数据通信,常采用不等长的编码,对常用的字符用较少的码位编码,不常出现的字符用较多的码位编码,从而减少文本的存储长度。
哈夫曼编码就是用于此目的的不等长编码方法。
当然,编码的对面就有译码。
本课题中,首先是构造哈夫曼树。
给定一组权值,以此作为叶结点的权值,可以构造多棵扩充二叉树,它们通常具有不同的加权路径长度。
其中具有最小加权路径长度的扩充二叉树,用于构造高效的不等长编码。
哈夫曼给出了构造具有最小加权路径长度的扩充二叉树的算法,称位哈夫曼算法。
用哈夫曼算法构造的扩充二叉树称为哈夫曼编码树或哈夫曼树。
当然,还有编码和译码部分。
本系统的前端开发工具是VisualC++6.0。
具有输入字符集大小及权值大小,构造哈夫曼树,并对用户输入的字符串进行编码以及译码还有退出四种功能。
本程序经过测试后,功能均能实现,运行稳定。
2023/11/3 6:12:14 2.52MB 哈夫曼树,编码,译码,权值
1
处理好的人民日报语料,用于命名实体识别,两个文件分别为字符集和词语级
2023/10/24 9:19:41 4.53MB 自然语言处理 命名实体识别
1
带中文字库的128X64是一种具有4位/8位并行、2线或3线串行多种接口方式,内部含有国标一级、二级简体中文字库的点阵图形液晶显示模块;
其显示分辨率为128×64,内置8192个16*16点汉字,和128个16*8点ASCII字符集.利用该模块灵活的接口方式和简单、方便的操作指令,可构成全中文人机交互图形界面。
2023/10/18 3:25:49 38KB 12864LCD
1
自己写的一个贪吃蛇小游戏,可以单人或双人,蛇的颜色也会根据长度而升级,可玩性高,且简单易学,不用下各种插件或者配置环境,适合C++新手。
(项目属性里面高级设置字符集用多字节字符集)
2023/10/16 0:24:39 11KB C++ 小游戏 新手基础 简单可行
1
用DEVC++编译实现。
一个完整的系统应具有以下功能: (1)I:初始化(Initialization)。
从终端读入字符集大小n,以及n个字符和n个权值,建立哈夫曼树,并将它存于文件hfmTree中。
(2)E:编码(Encoding)。
利用已建好的哈夫曼树(如不在内存,则从文件htmTree中读入),对文件ToBeTran中的正文进行编码,然后将结果存入文件CodeFile中。
(3)D:译码(Decoding)。
利用已建好的哈夫曼树将文件CodeFile中的代码进行译码,结果存入文件TextFile中。
(4)P:印代码文件(Print)。
将文件CodeFile以紧凑格式显示在终端上,每行50个代码。
同时将此字符形式的编码写入文件CodePrint中。
(5)T:印哈夫曼树(TreePrinting)。
将已在内存中的哈夫曼树以直观的方式(树或凹入表形式)显示在终端上,同时将此字符形式的哈夫曼树写入文件TreePrint中。
2023/9/1 6:41:07 8KB 哈夫曼树
1
1、支持多音字,支持所有中国汉字(共20902个),包括难字、生僻字、广东白话字、繁体字等所有计算机能显示的全部汉字。
例如:镕、啱、揾、叻、嘅、咁、門、長、發財、車、冇乜嘢。
2、同时支持Unicode和ANSI字符集。
3、支持Delphi6至DelphiXE6所有Delphi版本
2023/8/17 15:51:25 143KB DELPHI汉字 拼音
1
1.设字符集为字符和数字的集合,字符的顺序为A,B,C,…,Z,0,1,2,…,9,请将下列字符串按字典顺序排列、存储:PAB,5C,PABC,CXY,CRSI,7,B899,B9,并分析可以采取的存储方案
2023/8/5 12:29:11 1KB 作业
1
最近用FileZillaServer搭建ftp服务器,安装、权限分配等很顺利。
但刚开始用就各种问题百出,正常的文件上传就提示200227550等等错误;
文件上传成功了,一刷新文件就没有了;
文件里有“规则”、“版本”等字样,就会上传出错。
翻看filezilla服务器日志发现,所有无法上传的文件名都显示乱码,能正常上传的文件名则显示正常的中文,思索可能是字符编码的问题FileZillaServer的配置文件中无法设置。
上网查资料,终于找到症结,FileZillaServer从0.9.14版本以后用的字符集编码只支持UTF-8了,使用filezlliaPV这个补丁可以解决问题,又是一番折腾,发现,这个补丁支持到2012年3月5日的FileZillaServer0.9.41版本之前的版本,而在网上能找到的FileZillaServer是0.9.46。
于是,确定了主攻方向,费了九牛二虎之力终于找到了此FileZillaServer0.9.14a这个国宝级版本,该版本适用于windows中文系统的ftp服务端不会出现乱码。
问题解决,强烈推荐!!!
2023/8/5 6:53:47 2.27MB filezilla ftp FileZilla Server
1
GB2312-80字符集,一共6763个字符。
2023/7/31 21:39:49 20KB GB2312 字符集
1
中文维基百科语料库,将其转换为文本文件后,进行繁体字转换为简体字,字符集转换,分词,然后训练得到模型以及向量。
由于文件上传的大小限制是60MB,而训练后的所有文件大小有1G以上,所以这里只提供了下载链接,地址在网盘中。
使用python中的gensim包进行训练得到的,运行时间较长,纯粹的维基百科中文语料训练后的结果,拿去可以直接使用。
2023/7/28 17:38:49 234B wiki中文
1
共 75 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡