本系统主要是对在淘宝网、京东网和亚马逊网三大购物网站中的相同产品的信息进行抽取。
本系统的重点是实现使用HTML页面爬取功能获取产品数据,对获取到的网页数据进行抽取分析,最后以Web页面方式呈现出来。
本系统的难点是使用HTML页面爬取功能获取产品数据,对获取到的网页数据进行抽取分析,结构化抽取的数据和信息。
使用到的技术:JSP技术,网络爬虫技术,HTML解析技术Jsoup等。
本系统是使用JAVA编写的B/S模式系统,没有用到数据库,开发工具用的是IntelliJIDEA13,你也可以使用其它工具(像MyEclipse等),但需要手动将类复制到你创建的项目中。
内部包含源码和系统文档。
其中代码量适中,逻辑也不算太复杂。
基本功能已经实现,更复杂的功能需要你自己突破吧,嘿嘿!
1