标签归档:crawler

Photon-专为OSINT设计的超快爬行器


Photon Wiki·How To Use·Compatibility·Photon Library·Contribution·Roadmap

主要功能

数据抽取

Photon可以在爬行时提取以下数据:

  • URL(范围内和范围外)
  • 带参数的URL(example.com/gallery.php?id=2)
  • 英特尔(电子邮件、社交媒体帐户、亚马逊存储桶等)
  • 文件(pdf、png、xml等)
  • 密钥(身份验证/API密钥和散列)
  • JavaScript文件和其中存在的端点
  • 与自定义正则表达式模式匹配的字符串
  • 子域和DNS相关数据

提取的信息以有组织的方式保存,或者可以exported as json

灵活性

控制超时、延迟、添加种子、排除匹配正则表达式模式的URL以及其他很酷的功能。范围广泛的options由Photon提供,可以让您完全按照您想要的方式爬行网络

天才

Photon的智能线程管理和精炼逻辑为您提供一流的性能

尽管如此,爬行可能是资源密集型的,但Photon还有一些诀窍。您可以通过以下方式获取存档的URLarchive.org被用作种子,通过使用--wayback选项

插件

码头工人

可以使用轻量级Python-Alpine(103 MB)Docker映像启动光子

$ git clone https://github.com/s0md3v/Photon.git
$ cd Photon
$ docker build -t photon .
$ docker run -it --name photon photon:latest -u google.com

要查看结果,您可以直接访问本地扩展坞卷,您可以通过运行以下命令找到该卷docker inspect photon或通过挂载目标loot文件夹:

$ docker run -it --name photon -v "$PWD:/Photon/google.com" photon:latest -u google.com

频繁且无缝更新

光子正在进行大量的开发和更新,以修复错误。优化性能&定期推出新功能

如果您想查看正在处理的功能和问题,可以在Development项目董事会

可以使用安装和检查更新--update选项。Photon具有无缝更新功能,这意味着您可以在不丢失任何已保存数据的情况下更新Photon

贡献和许可

您可以通过以下方式进行贡献:

  • 报告错误
  • 开发插件
  • 增加更多忍者模式的“API”
  • 给出建议,让它变得更好
  • 修复问题并提交拉式请求

请阅读guidelines在提交拉式请求或问题之前

你想私下谈谈吗?把我打到我的twitter,收件箱已打开:)

光子是根据以下条款获得许可的GPL v3.0 license

Pyspider 一个功能强大的Python爬虫(Web Crawler)系统

一个功能强大的Python蜘蛛(Web Crawler)系统

  • 用Python编写脚本
  • 功能强大的WebUI,具有脚本编辑器、任务监视器、项目管理器和结果查看器
  • MySQLMongoDBRedisSQLiteElasticsearchPostgreSQL使用SQLAlchemy作为数据库后端
  • RabbitMQRedisKombu作为消息队列
  • 任务优先级、重试、定期、按时间重新爬网等
  • 分布式架构、爬行Javascript页面、Python2.{6,7}、3.{3,4,5,6}支持等

教程:http://docs.pyspider.org/en/latest/tutorial/
文档:http://docs.pyspider.org/
发行说明:https://github.com/binux/pyspider/releases

示例代码

from pyspider.libs.base_handler import *


class Handler(BaseHandler):
    crawl_config = {
    }

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('http://scrapy.org/', callback=self.index_page)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):
        for each in response.doc('a[href^="http"]').items():
            self.crawl(each.attr.href, callback=self.detail_page)

    def detail_page(self, response):
        return {
            "url": response.url,
            "title": response.doc('title').text(),
        }

安装

警告:默认情况下,WebUI对公众开放,它可以用来执行任何可能损害您的系统的命令。请在内部网络中使用,或者enable need-auth for webui

快速入门:http://docs.pyspider.org/en/latest/Quickstart/

贡献力量

待办事项

v0.4.0

  • 可视化的抓取界面,如portia

许可证

根据Apache许可证2.0版进行许可

Scrapy-SCRAPPY,一种用于Python的快速高级Web抓取框架

概述

SCRAPPY是一个快速的高级Web爬行和Web抓取框架,用于爬行网站并从其页面中提取结构化数据。它可以用于广泛的目的,从数据挖掘到监控和自动化测试

Scrrapy由Zyte(前身为ScrapingHub)和many other
contributors

请查看Scrapy主页,网址为https://scrapy.org有关详细信息,包括功能列表

要求

  • Python 3.6+
  • 可在Linux、Windows、MacOS、BSD上运行

安装

快捷方式:

pip install scrapy

请参阅文档中的安装部分,网址为https://docs.scrapy.org/en/latest/intro/install.html有关更多详细信息,请参阅

文档

文档在线提供,网址为https://docs.scrapy.org/而在docs目录

发布版本

你可以查一下https://docs.scrapy.org/en/latest/news.html有关发行说明,请参阅

社区(博客、Twitter、邮件列表、IRC)

看见https://scrapy.org/community/有关详细信息,请参阅

贡献

看见https://docs.scrapy.org/en/master/contributing.html有关详细信息,请参阅

行为规范

请注意,此项目随贡献者行为准则一起发布(请参阅https://github.com/scrapy/scrapy/blob/master/CODE_OF_CONDUCT.md)

通过参与此项目,您同意遵守其条款。请将不可接受的行为报告给opensource@zyte.com

使用Scrapy的公司

看见https://scrapy.org/companies/查看列表

商业支持

看见https://scrapy.org/support/有关详细信息,请参阅