上传者: u014622686
|
上传时间:2025/2/19 16:35:52
|
文件大小:727KB
|
文件类型:doc
基于python的网络爬虫设计
以世纪佳缘网为例,思考自己所需要的数据资源,并以此为基础设计自己的爬虫程序。
应用python伪装成浏览器自动登陆世纪佳缘网,加入变量打开多个网页。
通过python的urllib2函数进行世纪佳缘网源代码的获取。
用正则表达式分析源代码,找到所需信息导入excel。
连接数据库,将爬下的数据存储在数据库中。
本软件ID:8123987