国外院校开发爬虫

2022-09-16 来源：网络作者：佚名

我们现在需要若干程序员来开发爬虫，爬取国外院校的课程信息，包括院系、教授、时间、教室、学期起止时间。我们现在已经针对典型网页开发出脚本，所以之后的开发基本上只是微调。我们会发给你脚本。需要开发的爬虫数目有上千个。我们每个支付20元人民币。每个爬虫的开发时间其实非常短，我们现在人手不够如何爬取网校内部资料，所以外包一部分。如果感兴趣的话，请加我QQ联系，。 #

一、部署说明 #

1、创建数据库。执行.sql文件，创建数据库。 #

2、配置数据库连接。修改jdbc.文件如何爬取网校内部资料，配置数据库连接。

爬虫系统将爬虫任务，爬取的数据存存数据库中。目前两部分的数据存在不同的数据库中。后续可以将数据存入同一数据库。

3、配置路径，工作路径。修改.,配置相关参数。 #

其中CMD指向本地.bat(为绿色软件，可放置在系统任意目录)

WKDIR是工作路径，包含多个文件夹。每个文件夹代表一个学校，以学校ID命名，包括脚本，及爬取后的数据。 #

4、在数据库中，往表中，插入任务数据，只需要指定学校ID。 #

5、执行 com.omar.entry.Main ，开始爬虫任务。 #

6、需要在系统环境变量path中，配置目录

例如：E:\\\\n1k0--\ #

二、代码说明 #

系统由以下几部分组成：

1、容器，负责管理数据库连接、线程池、配置参数等资源管理。 #

2、，控制页面。负责容器生成，对外提供静态的数据处理、爬虫任务管理等方法。 #

3、,爬虫管理。负责爬虫任务生成（根据学期及院系生成独立的子任务）。并通过线程池，对任务进行调度。

4、Exec，爬虫执行者。负责调用,执行具体的爬虫任务，并反馈结果。

5、爬虫脚本：需要爬取的学期；class.js class爬取脚本；.js 院系爬取脚本；term.js 学期爬取脚本。 #

包说明： #

1、包含配置文件，及相关的配置文件。 #

2、entry 包含程序入口。

3、jpa 包含jpa代码，负责数据库操作。 #

4、model 包含数据库映射 #

5、work 包含爬虫任务管理，爬虫执行代码。

6、工作目录下的学校子目录。包含爬虫脚本，爬取后的数据。 #

责编：admin 返回顶部打印