安下载(俺下载):打造放心的绿色安全下载站! 安下载首页|软件分类|最近更新

所在位置: 首页  >  电脑软件  >  网络软件  >  网页辅助 > ScrapydWeb(爬虫管理平台) v1.4.0 官方版
ScrapydWeb(爬虫管理平台)

ScrapydWeb(爬虫管理平台)

 v1.4.0 官方版
  • 软件大小:1.60 MB
  • 更新日期:2021-04-28 10:33
  • 软件语言:英文
  • 软件类别:网页辅助
  • 软件授权:免费版
  • 软件官网:
  • 适用平台:WinXP, Win7, Win8, Win10, WinAll
  • 软件厂商:

6
软件评分

本地下载文件大小:1.60 MB

软件介绍 人气软件 下载地址

为您推荐: 网络软件

  ScrapydWeb提供web抓取项目管理功能,可以在软件上添加多个地址执行抓取,可以在软件运行蜘蛛对网络信息采集,采集服务全部在软件上显示,您可以添加新的Scrapyd server项目到软件上分析,实现集群管理模式,方便对多个web项目抓取,抓取信息全部在软件显示,可以查看列表项目,可以查看日志内容,可以通过可视化的界面查看日志数据,可以结合统计表分析采集数据,可以建立分布式方案执行抓取任务,可以在Heroku上Scrapyd设置集群,可以在web界面管理你的任务,结合定时功能可以在任意时间段运行蜘蛛执行抓取任务,如果你需要这款软件就可以下载使用!

ScrapydWeb(爬虫管理平台)

软件功能

  一、Scrapyd集群管理

  支持所有Scrapyd JSON API

  分组,过滤和选择任意数量的节点

  只需单击几下即可在多节点上执行命令

  二、Scrapy日志分析

  统计资料收集

  进度可视化

  日志分类

  三、增强功能

  自动打包项目

  与整合 LogParser

  计时器任务

  监控和警报

  行动使用者介面

  Web UI的基本身份验证

软件特色

  支持定时任务计划定期运行蜘蛛程序

  在数据库中坚持工作信息

  适应于LogParser v0.8.1,如果可用,请在“统计信息”页面中显示Crawler.stats和Crawler.engine。

  支持备份stats json文件,以防Scrapyd删除原始日志文件

  支持分别设置EMAIL_USERNAME (问题28)

  为“作业,日志和项目”页面引入新的UI

  在“部署项目并运行Spider”页面中添加“从服务器同步”页面复选框

  将“概述”重命名为“服务器”,将“仪表板”重命名为“作业”

官方教程

  如何简单高效地部署和监控分布式爬虫项目

ScrapydWeb(爬虫管理平台)

  安装与设定

  1、确保已在所有主机上安装并启动了Scrapyd。请注意,如果要远程访问Scrapyd服务器,则必须手动将bind_address设置为,bind_address = 0.0.0.0然后重新启动Scrapyd,以使其在外部可见。

  2、通过命令在您的主机之一上安装ScrapydWebpip install scrapydweb。

  3、通过命令启动ScrapydWebscrapydweb。(将在第一次启动时生成一个配置文件以自定义设置。)

  4、启用HTTP基本身份验证(可选)。

ScrapydWeb(爬虫管理平台)

  5、添加您的Scrapyd服务器,支持字符串和元组格式,您可以附加用于访问Scrapyd服务器的基本身份验证,以及用于分组或标记的字符串。

ScrapydWeb(爬虫管理平台)

  6、通过命令重新启动ScrapydWebscrapydweb。

  访问网页界面

  访问http://127.0.0.1:5000,然后使用上面的USERNAME / PASSWORD登录。

  服务器页面将自动显示所有Scrapyd服务器的工作状态。

  您可以通过分组和过滤来选择任意数量的Scrapyd服务器,然后只需单击几下即可在群集上调用Scrapyd的HTTP JSON API。

ScrapydWeb(爬虫管理平台)

  与LogParser集成后,“作业”页面可以自动显示您的抓取作业的页面和项目信息。

  默认情况下,ScrapydWeb会定期创建您的抓取作业的快照并将其保存在数据库中,以避免在重新启动Scrapyd服务器时丢失作业信息。(第12期)

ScrapydWeb(爬虫管理平台)

  部署项目

  在将SCRAPY_PROJECTS_DIR选项设置为包含Scrapy项目的路径之后,ScrapydWeb将列出该目录中的所有项目,并选择最新修改的项目。只需选择一个项目并按按钮即可提交,然后在后台自动打包。

ScrapydWeb(爬虫管理平台)

  如果ScrapydWeb在远程服务器上运行时正在本地开发Scrapy项目怎么办?除了上传egg文件,您还可以使用存档软件或通过tar命令将项目文件夹压缩为存档文件tar -czvf projectname.tar.gz /home/username/myprojects/projectname,然后上传。

  您可以选择任意数量的Scrapyd服务器来部署项目。

ScrapydWeb(爬虫管理平台)

  运行蜘蛛

  依次从下拉框中选择一个项目,一个版本和一个Spider。

  可以随意传递任何Scrapy设置或Spider参数。

  支持基于APScheduler创建计时器任务。(如果要同时启动多个蜘蛛,请不要忘记调整Scrapyd的max-proc选项)

  您可以选择任意数量的Scrapyd服务器来运行蜘蛛。

ScrapydWeb(爬虫管理平台)

  日志分析和可视化

  如果在同一台计算机上运行Scrapyd和ScrapydWeb,建议设置SCRAPYD_LOGS_DIR和ENABLE_LOGPARSER选项,以便LogParser与ScrapydWeb一起自动启动。该LOGPARSER的子进程将在分析和定期增量指定目录Scrapy日志文件,从而加快统计信息页的加载不消耗内存和带宽因请求原始日志文件。

ScrapydWeb(爬虫管理平台)

  同样,在其余主机上安装并运行LogParser。

  如果您使用的是Scrapy 1.5.1和更早版本,则LogParser可以通过Scrapy的内置telnet控制台收集Crawler.stats和Crawler.engine 。

ScrapydWeb(爬虫管理平台)

  计时器任务

  检查任务的参数及其执行结果。

  可以自由地暂停,继续,触发,停止,编辑和删除任务。

ScrapydWeb(爬虫管理平台)

  电邮通知

  通过在轮询子过程中定期访问“统计信息”页面,ScrapydWeb可以在满足特定条件时通知您,并发送包含当前作业统计信息的电子邮件。

  1、设置您的电子邮件帐户:

ScrapydWeb(爬虫管理平台)

  2、设置电子邮件工作时间和基本触发条件:

  上面的设置意味着当当前时间满足工作日的9点,12点和17点时,将每小时发送一次电子邮件。这也适用于工作完成的情况。

ScrapydWeb(爬虫管理平台)

  3、除了上面的基本触发器之外,ScrapydWeb 还提供了多种触发器来处理特定类型的日志,包括'CRITICAL','ERROR','WARNING','REDIRECT','RETRY'和'IGNORE'。

ScrapydWeb(爬虫管理平台)

  上面的设置意味着,如果在Scrapy日志中找到三个或更多关键日志,ScrapydWeb将自动停止当前的抓取作业。如果满足电子邮件工作时间的条件,则会发送一封电子邮件。

  移动UI界面

ScrapydWeb(爬虫管理平台)

更新日志

  1.4.0(2019-08-16)

  新的功能

  添加用于通过Slack,Telegram或Email发送文本或警报的API

  改进之处

  侧边栏和多节点按钮上的UI改进

  其他

  将配置文件更新为scrapydweb_settings_v10.py

  1.3.0(2019-08-04)

  新的功能

  添加新页面用于汇总作业统计信息的节点报告和集群报告(问题#72)

  改进之处

  适应于 LogParser v0.8.2

  添加DATA_PATH选项以自定义保存程序数据的路径(issue#40)

  添加DATABASE_URL选项以支持MySQL或PostgreSQL后端(问题#42)

  支持人员在“运行蜘蛛”页面中指定最新版本的Scrapy项目(问题4)

  支持在“运行蜘蛛”页面中指定设置和参数的默认值(问题#55)

  其他

  将配置文件更新为scrapydweb_settings_v9.py

  支持CircleCI上的持续集成(CI)