返回首页 Scrapy 中文指南

DjangoItem

DjangoItem 是一个 item 的类,其从 Django 模型中获取字段(field)定义。 您可以简单地创建一个 DjangoItem 并指定其关联的 Django 模型。

除了获得您 item 中定义的字段外, DjangoItem 提供了创建并获得一个具有 item 数据的 Django 模型实例(Django model instance)的方法。

使用 DjangoItem

DjangoItem 使用方法与 Django 中的 ModelForms 类似。您创建一个子类,并定义其 django_model 属性。这样,您就可以得到一个字段与 Django 模型字段(model field)一一对应的 item 了。

另外,您可以定义模型中没有的字段,甚至是覆盖模型中已经定义的字段。

让我们来看个例子:

创造一个 Django 模型:

from django.db import models

class Person(models.Model):
    name = models.CharField(max_length=255)
    age = models.IntegerField()

定义一个基本的 DjangoItem

from scrapy.contrib.djangoitem import DjangoItem

class PersonItem(DjangoItem):
    django_model = Person

DjangoItem 的使用方法和 Item 类似:

>>> p = PersonItem()
>>> p['name'] = 'John'
>>> p['age'] = '22'

要从 item 中获取 Django 模型,调用 DjangoItem 中额外的方法 save()

>>> person = p.save()
>>> person.name
'John'
>>> person.age
'22'
>>> person.id
1

当我们调用 save()时,模型已经保存了。我们可以在调用时带上 commit=False 来避免保存, 并获取到一个未保存的模型:

>>> person = p.save(commit=False)
>>> person.name
'John'
>>> person.age
'22'
>>> person.id
None

正如之前所说的,我们可以在 item 中加入字段:

import scrapy
from scrapy.contrib.djangoitem import DjangoItem

class PersonItem(DjangoItem):
    django_model = Person
    sex = scrapy.Field()
>>> p = PersonItem()
>>> p['name'] = 'John'
>>> p['age'] = '22'
>>> p['sex'] = 'M'

注解

当执行 save()时添加到 item 的字段不会有作用(taken into account)。

并且我们可以覆盖模型中的字段:

class PersonItem(DjangoItem):
    django_model = Person
    name = scrapy.Field(default='No Name')

这在提供字段属性时十分有用,例如您项目中使用的默认或者其他属性一样。

DjangoItem 注意事项

DjangoItem 提供了在 Scrapy 项目中集成 DjangoItem 的简便方法,不过需要注意的是,如果在 Scrapy 中爬取大量(百万级)的 item 时,Django ORM 扩展得并不是很好(not scale well)。这是因为关系型后端对于一个密集型(intensive)应用(例如 web 爬虫)并不是一个很好的选择,尤其是具有大量的索引的数据库。

配置 Django 的设置

在 Django 应用之外使用 Django 模型(model),您需要设置 DJANGO_SETTINGS_MODULE 环境变量以及 –大多数情况下– 修改 PYTHONPATH 环境变量来导入设置模块。

完成这个配置有很多方法,具体选择取决您的情况及偏好。 下面详细给出了完成这个配置的最简单方法。

假设您项目的名称为 mysite,位于/home/projects/mysite 且用 Person 模型创建了一个应用 myapp。 这意味着您的目录结构类似于:

/home/projects/mysite
├── manage.py
├── myapp
│   ├── __init__.py
│   ├── models.py
│   ├── tests.py
│   └── views.py
└── mysite
    ├── __init__.py
    ├── settings.py
    ├── urls.py
    └── wsgi.py

接着您需要将/home/projects/mysite 加入到 PYTHONPATH 环境变量中并将 mysite.settings 设置为 DJANGO_SETTINGS_MODULE 环境变量。 这可以在 Scrapy 设置文件中添加下列代码:

import sys
sys.path.append('/home/projects/mysite')

import os
os.environ['DJANGO_SETTINGS_MODULE'] = 'mysite.settings'

注意,由于我们在 python 运行环境中,所以我们修改 sys.path 变量而不是 PYTHONPATH 环境变量。 如果所有设置正确,您应该可以运行 scrapy shell 命令并且导入 Person 模型(例如 from myapp.models import Person)。

上一篇: Jobs:暂停,恢复... 下一篇: 架构概览