from scrapy.spiders import Rule
from scrapy.spiders import CrawlSpider
from scrapy import Request
import re
import urllib2
class AutoCrawl_Base(CrawlSpider):
name = "xitek_base"
allowed_domains=['photo.xitek.com']
start_urls=['http://photo.xitek.com/style/0/p/1']
rules = [Rule(LinkExtractor(allow=['/style/0/p/\d+']),'parse_link')]
1 个回复
低调的哥哥 - 不想默默无闻
赞同来自:
可以在类中 重写一个 __init__(self) 函数来执行一些初始化的操作。
代码中为了获取色影无忌网页中到底有多少个子页。 然后传送到爬虫parse函数进行使用。 不然在parse中定义这样的函数会大大降低执行的效率。