(1)打开豆瓣一部电影评论区,根据html结构捕获三个信息:一,每账号的评分等级为5星、4星、3星、2星、1星;
二,每个账号的评论留言;
三,跳转到下个评论页面的http链接(2)获取所有的信息后对信息进行处理:一,计算出每个星级的总数和一共多少账户进行了评级二、将所有的评论内容放在一起,处理评论中的空格和其他不规范形式(3)用matplotlib绘制评分等级占比的饼图,用jieba进行分词处理,用wordcloud生成词云图同个修改url=https://movie.douban.com/subject/26430636/comments?start=0&limit=20&sort=new_score&status=P&percent;_type=之中“26430636”为电影的代表,将其换做其他的编号就可以读取和生成其他电影的matplotlib和wordcloud制作评分图和词云图
2024/9/3 5:47:41 14KB python爬虫
1
基于mongodb存储的军事领域知识图谱问答项目,8大类,100余小类,共计5800项的知识库,该项目不使用图数据库进行存储,通过jieba进行问句解析,问句实体项识别,基于查询模板完成多类问题的查询,主要是提供一种工业界的问答思想demo。
2024/8/23 7:48:42 3.75MB 知识图谱
1
python淘宝网指定关键词爬取商品信息和评论,并用jieba库进行形容词的提取
2024/3/31 15:36:53 1.03MB python
1
包括4款分词工具的最新词库:1、IK分词:27万词2、jieba分词:40万词3、mmseg分词:15万词4、word分词:64万词
2024/1/13 21:47:06 4.77MB 分词 中文 中文分词 word
1
Python分词系统jieba代码(有注释,无报错)!!!!!!!!!!!!!!!!!!!
2023/10/23 10:13:24 2KB jieba phthon 分词系统 分词
1
个人整理的区块链常用词汇字典,大概有300多个词汇,可以用jieba直接导入作为分词数据来源,jieba.load_userdict()
2023/10/16 8:56:15 5KB 区块链 去中心化 分词 NLP
1
完整版淘宝单类商品全品类数据挖掘及数据分析代码,设计库:requests,pandas,matplotlib,xlwt,神器jieba,wordcloud等等代码里因为爬虫部分执行需要几秒时间,所以注释掉了,使用的话放开即可。
2023/9/22 19:14:06 4.06MB python 3.6 ubuntu 16
1
内含词云演示文档,包括词云、字典、停词、背景图等,希望对各位有用。
2023/8/22 3:08:14 1.62MB 词云 jieba wordcloud 文档
1
本报告包括详尽完整的文本分类处理过程,包括语料库的处理、jieba分词、停用词无关词处理、词袋模型的构建(CHI值检验用于特征筛选、tfidf作为特征向量值)。
并用自编朴素贝叶斯以及sklearn包中的SVM进行了文本效果的检测,通过混淆矩阵和roc曲线展现了实现效果。
实验报告写的很详细,不懂的地方可以看报告以及看博客中的部分细节讲解。
2023/7/15 21:32:55 4.05MB 数据挖掘 文本分类
1
金融方面的常见词汇构成的词典/语料库,jieba.load_userdict()即可使用
2023/3/18 1:31:53 15KB NLP 语料库 jieba 分词词典
1
共 22 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡