Python练习项目目标编写Python微博爬虫数据来源微博列表请求分析应答报文分析获取微博正文微博正文文本提取获取多页微博反爬虫机制应对处理爬虫完整代码词云图生成成果展示目标用爬虫程序抓取目标用户人民日报的微博文本,通过分析词频,生成直观的词云图。
编写Python微博爬虫注意:微博的接口可能会发生变化,所以请不要盲目照抄,建议按照下述流程独立分析。
数据来源微博移动版网页(点此跳转)内容简洁,便于分析,因此选用移动版网页作为爬取对象。
微博列表请求分析打开目标用户的移动版微博主页:人民日报注意:此处需要退出微博登录来保证请求内容的普适性。
F12打开开发者工具,这里使用的是谷
2024/7/16 20:52:29 218KB python python爬虫 爬虫
1
人民日报1998年1月份的语料库,加入了词性标注,北京大学开发,中文分词统计的好资料
2024/3/11 1:22:30 2.12MB 语料库 人民日报 中文分词 语义
1
人民日报语料库,适合机器学习训练使用,分词等。
2024/2/28 18:23:12 17.65MB 语料
1
网上流传的人民日报1998年1月份的语料库,北京大学开发;
处理成了crf分词训练语料的格式;
2023/12/12 10:08:19 2.32MB 语料库 中文分词 人民日报 crf
1
用于HMM中文分词训练,代码可以参见:https://blog.csdn.net/qq_38593211/article/details/81637029
2023/11/17 22:16:09 16.62MB NLP NER
1
处理好的人民日报语料,用于命名实体识别,两个文件分别为字符集和词语级
2023/10/24 9:19:41 4.53MB 自然语言处理 命名实体识别
1
微博id 微博注释 原始图片url 发布位置 发布时间 发布工具 点赞数 转发数 评论数
2016/2/22 11:30:53 9.01MB 数据 微博 爬虫 人民日报
1
人民日报标注语料库(版本1.0,下面简称PFR语料库)是在得到人民日报社旧事信息中心许可的条件下,以1998年人民日报语料为对象,由北京大学计算语言学研究所和富士通研究开发中心有限公司共同制作的标注语料库。
该语料库对600多万字节的中文文章进行了分词及词性标注,其被作为原始数据应用于大量的研究和论文中。
2015/6/14 16:50:45 10.18MB 中文语料 标注语料 自然语言处理
1
1998年1月-6月人民日报语料库,已做词性标记,适用于自然言语处理序列标注等任务,如命名实体识别等,里面包含6个月份
2021/6/25 21:26:05 11.5MB 文本分类语料
1
1998年1月-6月人民日报语料库,已做词性标记,适用于自然言语处理序列标注等任务,如命名实体识别等,里面包含6个月份
2016/11/14 22:52:26 11.5MB 文本分类语料
1
共 12 条记录 首页 上一页 下一页 尾页
在日常工作中,钉钉打卡成了我生活中不可或缺的一部分。然而,有时候这个看似简单的任务却给我带来了不少烦恼。 每天早晚,我总是得牢记打开钉钉应用,点击"工作台",再找到"考勤打卡"进行签到。有时候因为工作忙碌,会忘记打卡,导致考勤异常,影响当月的工作评价。而且,由于我使用的是苹果手机,有时候系统更新后,钉钉的某些功能会出现异常,使得打卡变得更加麻烦。 另外,我的家人使用的是安卓手机,他们也经常抱怨钉钉打卡的繁琐。尤其是对于那些不太熟悉手机操作的长辈来说,每次打卡都是一次挑战。他们总是担心自己会操作失误,导致打卡失败。 为了解决这些烦恼,我开始思考是否可以通过编写一个全自动化脚本来实现钉钉打卡。经过一段时间的摸索和学习,我终于成功编写出了一个适用于苹果和安卓系统的钉钉打卡脚本。
2024-04-09 15:03 15KB 钉钉 钉钉打卡