国外院校开发爬虫

我们现在需要若干程序员来开发爬虫,爬取国外院校的课程信息,包括院系、教授、时间、教室、学期起止时间。我们现在已经针对典型网页开发出脚本,所以之后的开发基本上只是微调。我们会发给你脚本。需要开发的爬虫数目有上千个。我们每个支付20元人民币。每个爬虫的开发时间其实非常短,我们现在人手不够如何爬取网校内部资料,所以外包一部分。如果感兴趣的话,请加我QQ联系,。 #
一、部署说明 #
1、创建数据库。执行.sql文件,创建数据库。 #
2、配置数据库连接。修改jdbc.文件如何爬取网校内部资料,配置数据库连接。
#
爬虫系统将爬虫任务,爬取的数据存存数据库中。目前两部分的数据存在不同的数据库中。后续可以将数据存入同一数据库。
#
3、配置路径,工作路径。修改.,配置相关参数。 #
其中CMD指向本地.bat(为绿色软件,可放置在系统任意目录)
WKDIR是工作路径,包含多个文件夹。每个文件夹代表一个学校,以学校ID命名,包括脚本,及爬取后的数据。 #
4、在数据库中,往表中,插入任务数据,只需要指定学校ID。 #
5、执行 com.omar.entry.Main ,开始爬虫任务。 #
6、需要在系统环境变量path中,配置目录
#
例如:E:\\\\n1k0--\ #
二、代码说明 #
系统由以下几部分组成:
#
1、容器,负责管理数据库连接、线程池、配置参数等资源管理。 #
2、,控制页面。负责容器生成,对外提供静态的数据处理、爬虫任务管理等方法。 #
3、,爬虫管理。负责爬虫任务生成(根据学期及院系生成独立的子任务)。并通过线程池,对任务进行调度。
4、Exec,爬虫执行者。负责调用,执行具体的爬虫任务,并反馈结果。
5、爬虫脚本: 需要爬取的学期;class.js class爬取脚本;.js 院系爬取脚本;term.js 学期爬取脚本。 #
包说明: #
1、 包含配置文件,及相关的配置文件。 #
2、entry 包含程序入口。
3、jpa 包含jpa代码,负责数据库操作。 #
4、model 包含数据库映射 #
5、work 包含爬虫任务管理,爬虫执行代码。
6、工作目录下的学校子目录。包含爬虫脚本,爬取后的数据。 #