ScrapydWeb下载-爬虫管理平台 v1.4.0 官方版

　　ScrapydWeb提供web抓取项目管理功能，可以在软件上添加多个地址执行抓取，可以在软件运行蜘蛛对网络信息采集，采集服务全部在软件上显示，您可以添加新的Scrapyd server项目到软件上分析，实现集群管理模式，方便对多个web项目抓取，抓取信息全部在软件显示，可以查看列表项目，可以查看日志内容，可以通过可视化的界面查看日志数据，可以结合统计表分析采集数据，可以建立分布式方案执行抓取任务，可以在Heroku上Scrapyd设置集群，可以在web界面管理你的任务，结合定时功能可以在任意时间段运行蜘蛛执行抓取任务，如果你需要这款软件就可以下载使用！

软件功能

　　一、Scrapyd集群管理

　　支持所有Scrapyd JSON API

　　分组，过滤和选择任意数量的节点

　　只需单击几下即可在多节点上执行命令

　　二、Scrapy日志分析

　　统计资料收集

　　进度可视化

　　日志分类

　　三、增强功能

　　自动打包项目

　　与整合 LogParser

　　计时器任务

　　监控和警报

　　行动使用者介面

　　Web UI的基本身份验证

软件特色

　　支持定时任务计划定期运行蜘蛛程序

　　在数据库中坚持工作信息

　　适应于LogParser v0.8.1，如果可用，请在“统计信息”页面中显示Crawler.stats和Crawler.engine。

　　支持备份stats json文件，以防Scrapyd删除原始日志文件

　　支持分别设置EMAIL_USERNAME （问题28）

　　为“作业，日志和项目”页面引入新的UI

　　在“部署项目并运行Spider”页面中添加“从服务器同步”页面复选框

　　将“概述”重命名为“服务器”，将“仪表板”重命名为“作业”

官方教程

　　如何简单高效地部署和监控分布式爬虫项目

　　安装与设定

　　1、确保已在所有主机上安装并启动了Scrapyd。请注意，如果要远程访问Scrapyd服务器，则必须手动将bind_address设置为，bind_address = 0.0.0.0然后重新启动Scrapyd，以使其在外部可见。

　　2、通过命令在您的主机之一上安装ScrapydWebpip install scrapydweb。

　　3、通过命令启动ScrapydWebscrapydweb。（将在第一次启动时生成一个配置文件以自定义设置。）

　　4、启用HTTP基本身份验证（可选）。

　　5、添加您的Scrapyd服务器，支持字符串和元组格式，您可以附加用于访问Scrapyd服务器的基本身份验证，以及用于分组或标记的字符串。

　　6、通过命令重新启动ScrapydWebscrapydweb。

　　访问网页界面

　　访问http://127.0.0.1:5000，然后使用上面的USERNAME / PASSWORD登录。

　　服务器页面将自动显示所有Scrapyd服务器的工作状态。

　　您可以通过分组和过滤来选择任意数量的Scrapyd服务器，然后只需单击几下即可在群集上调用Scrapyd的HTTP JSON API。

　　与LogParser集成后，“作业”页面可以自动显示您的抓取作业的页面和项目信息。

　　默认情况下，ScrapydWeb会定期创建您的抓取作业的快照并将其保存在数据库中，以避免在重新启动Scrapyd服务器时丢失作业信息。（第12期）

　　部署项目

　　在将SCRAPY_PROJECTS_DIR选项设置为包含Scrapy项目的路径之后，ScrapydWeb将列出该目录中的所有项目，并选择最新修改的项目。只需选择一个项目并按按钮即可提交，然后在后台自动打包。

　　如果ScrapydWeb在远程服务器上运行时正在本地开发Scrapy项目怎么办？除了上传egg文件，您还可以使用存档软件或通过tar命令将项目文件夹压缩为存档文件tar -czvf projectname.tar.gz /home/username/myprojects/projectname，然后上传。

　　您可以选择任意数量的Scrapyd服务器来部署项目。

　　运行蜘蛛

　　依次从下拉框中选择一个项目，一个版本和一个Spider。

　　可以随意传递任何Scrapy设置或Spider参数。

　　支持基于APScheduler创建计时器任务。（如果要同时启动多个蜘蛛，请不要忘记调整Scrapyd的max-proc选项）

　　您可以选择任意数量的Scrapyd服务器来运行蜘蛛。

　　日志分析和可视化

　　如果在同一台计算机上运行Scrapyd和ScrapydWeb，建议设置SCRAPYD_LOGS_DIR和ENABLE_LOGPARSER选项，以便LogParser与ScrapydWeb一起自动启动。该LOGPARSER的子进程将在分析和定期增量指定目录Scrapy日志文件，从而加快统计信息页的加载不消耗内存和带宽因请求原始日志文件。