• 1.摘要
  • 2.基本信息
  • 3.基本功能
  • 4.如何开始
  • 4.1.选择网站
  • 4.2.定义数据
  • 4.3.撰写蜘蛛
  • 4.4.运行蜘蛛
  • 4.5.Review数据
  • 4.6.更多

scrapy

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。

Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。其吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等。

基本信息

  • 中文名

    抓取

  • 外文名

    scrapy

  • 基本功能

    数据挖掘

  • 运行蜘蛛

    抓取

基本功能

小刮刮是一个为遍历爬行网站、分解获取数据而设计的应用程序框架,它可以应用在广泛领域:数据挖掘、信息处理和或者历史片(历史记录)打包等等

Even though Scrapy was originally designed for screen scraping (more precisely, web scraping), it can also be used to extract data using APIs (such as Amazon Associates Web Services) or as a general purpose web crawler.

尽管小刮刮原本是设计用来屏幕抓取(更精确的说,是网络抓取)的目的,但它也可以用来访问API来提取数据,比如Amazon的AWS或者用来当作通常目的应用的网络蜘蛛

The purpose of this document is to introduce you to the concepts behind Scrapy so you can get an idea of how it works and decide if Scrapy is what you need.

本文档的目的是介绍一下小刮刮背后的概念,这样你会了解它是如何工作的,以决定它是不是你需要的

如何开始

当你准备启动一个项目时,可以从这个教程开始

选择网站

选择一个网站

如果你需要从某个网站提取一些信息,但是网站不提供API或者其他可编程的访问机制,那么小刮刮可以帮助你(提取信息)

让我们看下Mininova网站,需要提取的网址,名称,描述和torrent文件的大小、添加日期

下面这个列表是所有今天新增的torrents文件的页面:参考扩展阅读1

备注:torrent是洪流的意思,这里指bit torrent,比特洪流,就是我们常说的BT文件

定义数据

定义你要抓取的数据

第一件事情就是定义你要抓取的数据,在小刮刮这个是通过定义Scrapy Items来实现的(本例是BT文件)

这就是要定义的Item

撰写蜘蛛