README.md

视觉设计

软件工程

3D图形学

C语言

C++语言基础

C语言基础

LinuxC编程

Windows编程

Go语言

GORM框架

Gin框架

Go语言基础

Go语言标准库

Go语言网络编程

开发工具链

Java

JavaEE

JavaFX

JavaSE

Java企业级应用框架

Activiti

Hibernate

MyBatis

Netty

Quartz

ShardingSphere

Shiro

Spring

SpringBoot

SpringCloud

SpringCloudAlibaba

SpringData

SpringFramework

SpringSecurity

SpringSession

Struts2

Java构建和开发工具链

Java虚拟机

Java语言基础

BigDecimal

CLASSPATH详解

Java8新特性

Java并发程序设计

Java网络和IO程序设计

Linux下Java环境搭建

反射机制

异常机制详解

弱引用

模块化

类初始化块的执行顺序

迭代器

第三方库

JUnit5-单元测试框架

Jasypt-配置文件加密

Lettuce-Redis客户端

Logback-日志模块

Lombok-简化冗余代码

Lucene-全文检索引擎

OpenFeign-声明式HTTP客户端

POI-读写Excel文档

RxJava响应式编程

SpringDoc-接口文档管理

commons-beanutils-对象属性处理

commons-codec-编解码库

commons-collections4-集合操作

commons-compress-压缩文件处理

commons-io-输入输出处理

commons-lang3-基础工具类

groovy-整合脚本引擎

httpclient5-通用HTTP客户端

jackson-json解析库

jodconverter-文档转换

redisson-分布式内存数据网格

velocity-模板引擎

Linux

BashShell

Linux操作系统基础

RaspberryPi

命令行工具

服务配置管理

系统配置管理

NodeJS

PHP

Laravel

PHP网络应用开发

PHP语言基础

开发工具

扩展库

Python

Django

FastAPI

LangChain

Python语言基础

Scrapy爬虫框架

01-Scrapy简介和环境搭建

02-命令行工具详解

03-Spider

04-Items数据实体类

04-Items数据实体类.md

05-ItemPipeline

06-settings配置文件

内置库

开发相关工具

第三方库

Web前端

Web客户端编程

EcmaScript6

Electron

HTML5

JQuery

JavaScript客户端编程

JavaScript语言精粹

NextJS

React

TypeScript

UmiJS

Vue

WebExtension

常用功能实现

常用库

开发工具链

Web网页设计

Bootstrap4

CSS

Less

TailwindCSS

常用库

常见问题

Windows

dotNet

Csharp语言基础

Winform编程

dotNet运行时库

开发工具链

信息安全

应用架构和中间件

Docker

Istio

Kafka

Kubernetes

Nginx

OpenResty

Prometheus

RabbitMQ

Tomcat

ZooKeeper

gRPC

操作系统

数据库系统

ElasticSearch

Kettle开源ETL工具

MongoDB

MySQL

Oracle

Redis

关系型数据库基础理论

数据结构和算法

游戏引擎

LibGDX

Unity

2D游戏开发

GUI系统

Unity编辑器

Unity脚本编程

实例

移动端应用开发

Android开发基础

Cordova

Flutter开发框架

常见问题总结

开发工具

微信小程序开发

高级控件

编译原理

计算机网络

软件工程学

软件开发相关工具

Eclipse-集成开发环境

Firefox-浏览器

Git-版本控制

GitLab-开源代码仓库管理工具

Jenkins-持续集成

Nexus-私有包管理仓库

SVN-版本控制

VSCode-代码编辑器

其他工具软件

知识管理

软件测试

软件开发相关知识

Items数据实体类

面向对象是软件工程中的最佳实践之一，我们的爬虫爬取的数据，通常需要封装成一个实体类。例如：爬取一个论坛的帖子，那么我们可以设计一个实体类，包含帖子标题，帖子内容，帖子发布时间。使用类对数据进行封装，程序结构就比较清晰，可扩展性和可维护性都比较好。

Spider类可以直接返回Item类，scrapy会自动对其进行处理。

定义Item类

import scrapy

class Product(scrapy.Item):
    name = scrapy.Field()
    price = scrapy.Field()
    stock = scrapy.Field()
    last_updated = scrapy.Field(serializer=str)

注意：我们继承了scrapy.Item类，定义了我们自己的Item类。除此之外，我们定义了类属性（注意类属性的定义，可参考Python/Python面向对象编程章节），Field()实际上是Field类的构造方法，Field对象可以接受任意类型的数据。

使用Item对象

下面我们直接看几个例子，学习一下Item相关的API，我们的Item就使用上面定义的Product类。

创建items

>>> product = Product(name='Desktop PC', price=1000)
>>> print product
Product(name='Desktop PC', price=1000)

获取Field值

>>> product['name']
Desktop PC
>>> product.get('name')
Desktop PC

>>> product['price']
1000

>>> product['last_updated']
Traceback (most recent call last):
    ...
KeyError: 'last_updated'

>>> product.get('last_updated', 'not set')
not set

>>> product['lala'] # getting unknown field
Traceback (most recent call last):
    ...
KeyError: 'lala'

>>> product.get('lala', 'unknown field')
'unknown field'

>>> 'name' in product  # is name field populated?
True

>>> 'last_updated' in product  # is last_updated populated?
False

>>> 'last_updated' in product.fields  # is last_updated a declared field?
True

>>> 'lala' in product.fields  # is lala a declared field?
False

设置Field值

>>> product['last_updated'] = 'today'
>>> product['last_updated']
today

>>> product['lala'] = 'test' # setting unknown field
Traceback (most recent call last):
    ...
KeyError: 'Product does not support field: lala'

获取键或值集合

>>> product.keys()
['price', 'name']

>>> product.items()
[('price', 1000), ('name', 'Desktop PC')]

其他常见用法

复制Item

>>> product2 = Product(product)
>>> print product2
Product(name='Desktop PC', price=1000)

>>> product3 = product2.copy()
>>> print product3
Product(name='Desktop PC', price=1000)

将Item转换为字典

>>> dict(product) # create a dict from all populated values
{'price': 1000, 'name': 'Desktop PC'}

从字典创建Item

>>> Product({'name': 'Laptop PC', 'price': 1500})
Product(price=1500, name='Laptop PC')

>>> Product({'name': 'Laptop PC', 'lala': 1500}) # warning: unknown field in dict
Traceback (most recent call last):
    ...
KeyError: 'Product does not support field: lala'

关于嵌套Item

如果两个Item实体有关联关系，我们可能会试图创建嵌套的Item，比如CategoryItem和BookItem，两者就是一对多包含关系。

但据我经验来说，不要这么做！

以目录和书籍为例，数据抓取时，我们并不知道一个目录有几本书，那么这个嵌套对象持久化的时机就是不确定的，内存中未处理完成的对象可能变得过于巨大，一个子对象的异常也可能导致整组数据都处理失败。

另一方面，关联关系其实可以细分成一对一、一对多、多对多，其中又有单双向之分（单向一对多其实是一对多和多对一两种），Scrapy的Item系统并不是一个ORM框架，这个持久化时手动处理起来就很烦了。

比较好的做法还是不要引入实体类的嵌套，就用一个字段来表达这种关联关系即可，也不要强求去约束它。这样采集到一组结果数据后，先存进像MongoDB，或是MySQL的JSON字段这种地方，再另写一个程序，进行后续的数据清洗、转换、处理、入库步骤。

作者：Gacfox

Build with NextJS | Sitemap