标签归档:spider

Photon-专为OSINT设计的超快爬行器


Photon Wiki·How To Use·Compatibility·Photon Library·Contribution·Roadmap

主要功能

数据抽取

Photon可以在爬行时提取以下数据:

  • URL(范围内和范围外)
  • 带参数的URL(example.com/gallery.php?id=2)
  • 英特尔(电子邮件、社交媒体帐户、亚马逊存储桶等)
  • 文件(pdf、png、xml等)
  • 密钥(身份验证/API密钥和散列)
  • JavaScript文件和其中存在的端点
  • 与自定义正则表达式模式匹配的字符串
  • 子域和DNS相关数据

提取的信息以有组织的方式保存,或者可以exported as json

灵活性

控制超时、延迟、添加种子、排除匹配正则表达式模式的URL以及其他很酷的功能。范围广泛的options由Photon提供,可以让您完全按照您想要的方式爬行网络

天才

Photon的智能线程管理和精炼逻辑为您提供一流的性能

尽管如此,爬行可能是资源密集型的,但Photon还有一些诀窍。您可以通过以下方式获取存档的URLarchive.org被用作种子,通过使用--wayback选项

插件

码头工人

可以使用轻量级Python-Alpine(103 MB)Docker映像启动光子

$ git clone https://github.com/s0md3v/Photon.git
$ cd Photon
$ docker build -t photon .
$ docker run -it --name photon photon:latest -u google.com

要查看结果,您可以直接访问本地扩展坞卷,您可以通过运行以下命令找到该卷docker inspect photon或通过挂载目标loot文件夹:

$ docker run -it --name photon -v "$PWD:/Photon/google.com" photon:latest -u google.com

频繁且无缝更新

光子正在进行大量的开发和更新,以修复错误。优化性能&定期推出新功能

如果您想查看正在处理的功能和问题,可以在Development项目董事会

可以使用安装和检查更新--update选项。Photon具有无缝更新功能,这意味着您可以在不丢失任何已保存数据的情况下更新Photon

贡献和许可

您可以通过以下方式进行贡献:

  • 报告错误
  • 开发插件
  • 增加更多忍者模式的“API”
  • 给出建议,让它变得更好
  • 修复问题并提交拉式请求

请阅读guidelines在提交拉式请求或问题之前

你想私下谈谈吗?把我打到我的twitter,收件箱已打开:)

光子是根据以下条款获得许可的GPL v3.0 license

Anti-Anti-Spider 对各类网站进行反-反爬虫

基于美国有线电视新闻网的验证码图片识别

简介

本项目采用alexnet模型和letnet模型,可根据实际需要选择(在train_model.py中的train函数修改即可)95.5%

作者有话说

不知不觉这个git库伴随我从16到到20年,带给我自己最棒的一段人生旅程,
整理了这份文档,希望任何想学习图片识别,玩玩卷积神经网络的同学可以最便捷的上手体验。
请谨慎使用技术,仅支持学习,不支持任何黑灰产相关
可参看:https://www.urlteam.cn/?p=1893 https://www.urlteam.cn/?p=1406
原先的Anti-Anti-Spider 全部内容移动到 原Anti-Anti-Spider 目录下
有何疑问可邮件 543429245@qq.com 咨询
模型文件下载 如果出现无法解压,可以使用:
https://www.urlteam.cn/%E5%8F%AF%E7%94%A8%E8%AE%AD%E7%BB%83%E9%9B%86%E4%B8%8E%E8%AE%AD%E5%A5%BD%E7%9A%84%E6%A8%A1%E5%9E%8B.zip

Alexnet模型结构

根据验证码的复杂度不同,训练的时间也会有较大的不同

使用方法

1.开始训练样本前,修改conf/config.json
2.将预处理过的数据集分成验证集和训练集,放到sample目录下
3.运行train_model.py开始训练,训练完成的模型保存至model_result中
4.将训练好的模型放置model_result,运行cnn_models/recognition.py,选定验证码,即可看到模型效果

环境配置

TensorFlow CPU版本安装:pip install tensorflow==1.9.0TensorFlow图形处理器版本安装:pip install tensorflow-gpu==1.9.0GUP版本的安装比较麻烦,需要安装cuda和cuDNN才能使TensorFlow调动GPU下图为TensorFlow,Python,CUDA与cuDNN之间的版本对应关系:CUDA与CuDNN安装过程主要有两步:

  1. 到官网下载CUDA并安装
  2. 将cuDNN解压,复制到cuda安装目录下这里提供两个文件的链接:CUDA:https://developer.nvidia.com/cuda-toolkit-archiveCuDNN:https://developer.nvidia.com/rdp/cudnn-archive更具体的安装过程度娘可帮你轻松解决(linux、windows这两步的操作方法各不相同)

项目结构

├─cnn_models
│  ├─cnn_model.py		# CNN网络类
│  └─recognition.py		# 验证训练结果
├─conf
│  └─config.json		# 配置文件
├─logs			# 模型训练日志
├─model_result	# 模型保存地址
│  └─1040		# 一套训练完成的验证码训练集及对应模型
├─sample
│  ├─test		# 训练集(训练集与验证集一般是对总数据集9:1分割)
│  └─train		# 验证集
├─src			# 配置环境所需的工具,可根据自身情况到网上下载
├─train_model.py		# 训练程序
└─verify_sample.py		# 制作数据集(打标签加图片预处理)

图片预处理

  • 为验证码图片打上标签,如:命名为1040_2019-10-13_10_1092.jpg,1092为标签,其余为附加信息,可根据自己需要更改,用_分割即可
  • 由于模型输入要求输入必须为227*227,所有需要调整图片形状,Verify_sample.py中提供有工具函数

注意事项

alexnet输入必须为227*227的图片,所有图片预处理时可通过PIL中的函数线性转换图片形状,或者缩放后粘贴到227*227的背景中。

Awesome-spider-爬虫集合

收集各种爬虫(默认爬虫语言为python),欢迎大家提PR或Issue,收集脚本见此项目github-search

警告:爬虫有时效性,如没法直接运行,请适当更改逻辑。

一个

B类

C

D

E

G

H

J

K

n

O

P

问:

R

%s

T

V

W

X

是的

Z

#

其他

欢迎大家关注公众号