全球最大成人网站 PornHub 爬虫 :pornhubbot

全球最大成人网站 PornHub 爬虫 (Scrapy、MongoDB) 一天 500w 的数据 https://github.com/xiyouMc/PornHubBot

简介

  • 项目主要是爬取全球最大成人网站 PornHub 的视频标题、时长、mp4 链接、封面 URL 和具体的 PornHub 链接
  • 项目爬的是 PornHub.com,结构简单,速度飞快
  • 爬取 PornHub 视频的速度可以达到 500 万 / 天以上。具体视个人网络情况, 因为我是家庭网络,所以相对慢一点。
  • 10 个线程同时请求,可达到如上速度。若个人网络环境更好,可启动更多线程来请求,具体配置方法见 [启动前配置]

环境、架构

开发语言: Python2.7

开发环境: MacOS 系统、4G 内存

数据库: MongoDB

  • 主要使用 scrapy 爬虫框架
  • 从 Cookie 池和 UA 池中随机抽取一个加入到 Spider
  • start_requests 根据 PorbHub 的分类,启动了 5 个 Request,同时对五个分类进行爬取。
  • 并支持分页爬取数据,并加入到待爬队列。

使用说明

启动前配置

  • 安装 MongoDB, 并启动,不需要配置
  • 安装 Scrapy
  • 安装 Python 的依赖模块:pymongo、json、requests
  • 根据自己需要修改 Scrapy 中关于 间隔时间、启动 Requests 线程数等得配置

启动

  • python PornHub/quickstart.py

运行截图

数据库说明

数据库中保存数据的表是 PhRes。以下是字段说明:

PhRes 表:

发表评论

电子邮件地址不会被公开。 必填项已用*标注