README.md

视觉设计

软件工程

3D图形学

C语言

C++语言基础

C语言基础

LinuxC编程

Windows编程

Go语言

GORM框架

Gin框架

Go语言基础

Go语言标准库

Go语言网络编程

开发工具链

Java

JavaEE

BeanValidation

CDI

EJB

JAXB

JAXP

JMS

JNDI

JPA

JSF

JSP

JavaMail

Servlet

WebService

WebSocket

JavaFX

JavaSE

Java企业级应用框架

Activiti

Hibernate

MyBatis

Netty

Quartz

ShardingSphere

Shiro

Spring

SpringBoot

SpringCloud

SpringCloudAlibaba

SpringData

SpringFramework

SpringRetry

SpringSecurity

SpringSession

Struts2

Java构建和开发工具链

Java虚拟机

Java语言基础

BigDecimal

CLASSPATH详解

Java8新特性

Java并发程序设计

Java网络和IO程序设计

Linux下Java环境搭建

反射机制

异常机制详解

弱引用

模块化

类初始化块的执行顺序

迭代器

第三方库

JUnit5-单元测试框架

Jasypt-配置文件加密

Lettuce-Redis客户端

Logback-日志模块

Lombok-简化冗余代码

Lucene-全文检索引擎

OpenFeign-声明式HTTP客户端

POI-读写Excel文档

RxJava响应式编程

SpringDoc-接口文档管理

commons-beanutils-对象属性处理

commons-codec-编解码库

commons-collections4-集合操作

commons-compress-压缩文件处理

commons-io-输入输出处理

commons-lang3-基础工具类

groovy-整合脚本引擎

httpclient5-通用HTTP客户端

jackson-json解析库

jodconverter-文档转换

reactor-core-响应式编程

redisson-分布式内存数据网格

velocity-模板引擎

Linux

BashShell

Linux操作系统基础

RaspberryPi

命令行工具

服务配置管理

系统配置管理

NodeJS

PHP

Laravel

PHP网络应用开发

PHP语言基础

开发工具

扩展库

Python

Django

FastAPI

LangChain

Python语言基础

SQLAlchemy

Scrapy爬虫框架

01-Scrapy简介和环境搭建

02-Spider详解

03-数据和处理管线

04-Middleware中间件

05-爬虫启动与调度

06-settings常用配置

06-settings常用配置.md

07-scrapy命令行工具

内置库

开发相关工具

第三方库

Qt

Web前端

Web客户端编程

EcmaScript6

Electron

HTML5

JQuery

JavaScript客户端编程

JavaScript语言精粹

NextJS

React

TypeScript

UmiJS

Vue

WebExtension

常用功能实现

常用库

开发工具链

Web网页设计

Bootstrap4

CSS

Less

TailwindCSS

常用库

常见问题

Windows

dotNet

ASPdotNETCore

Csharp语言基础

Dapper

EFCore

Winform编程

dotNet运行时库

开发工具链

信息安全

应用架构和中间件

Docker

Istio

Kafka

Kubernetes

MinIO

Nginx

OpenResty

Prometheus

RabbitMQ

Tomcat

ZooKeeper

gRPC

操作系统

数据库系统

ElasticSearch

H2

Kettle开源ETL工具

Milvus

MongoDB

MySQL

Oracle

Redis

关系型数据库基础理论

数据结构和算法

游戏引擎

LibGDX

Unity

2D游戏开发

GUI系统

Unity编辑器

Unity脚本编程

实例

移动端应用开发

Android开发基础

Cordova

Flutter开发框架

常见问题总结

开发工具

微信小程序开发

高级控件

编译原理

计算机网络

软件工程学

软件开发相关工具

Eclipse-集成开发环境

Firefox-浏览器

Git-版本控制

GitLab-开源代码仓库管理工具

Jenkins-持续集成

Nexus-私有包管理仓库

SVN-版本控制

VSCode-代码编辑器

其他工具软件

知识管理

软件测试

软件开发相关知识

settings常用配置

Scrapy工程中有一个配置文件settings.py，其中包含了许多Scrapy框架的配置参数，包括爬虫名、并发设置、开启的中间件、开启的处理管线等。除了框架本身需要的参数，之前的章节我们也介绍过Scrapy框架中开启了许多内置的Middleware（中间件），这些中间件共同构成了Scrapy爬虫处理流程的各种功能，它们也有许多配置项可以通过配置settings.py调整其行为。这篇笔记我们简单介绍一些实际开发中可能用到的一些配置项。

项目基础配置

BOT_NAME = 'tutorial'                              # 项目名称
USER_AGENT = 'Scrapy/1.8.0 (+https://scrapy.org)'  # 默认使用的User-Agent
ROBOTSTXT_OBEY = True                              # 是否遵守robots.txt（默认True）
REQUEST_FINGERPRINTER_IMPLEMENTATION = '2.7'       # 默认的指纹生成版本号

启用中间件和管线配置

# 启用的Downloader Middleware配置
DOWNLOADER_MIDDLEWARES = { }
# 启用的Spider Middleware配置
SPIDER_MIDDLEWARES = { }
# 启用的管线配置
ITEM_PIPELINES = { }

并发与延迟

CONCURRENT_REQUESTS = 16                 # 全局并发请求数
DOWNLOAD_DELAY = 0                       # 请求间延迟（秒）
CONCURRENT_REQUESTS_PER_DOMAIN = 8       # 单域名并发数
CONCURRENT_REQUESTS_PER_IP = 0           # 单IP并发数（非0时覆盖域名设置）

超时与重试

DOWNLOAD_TIMEOUT = 180                   # 请求超时时间（秒）
RETRY_ENABLED = True                     # 启用重试
RETRY_TIMES = 2                          # 重试次数
RETRY_HTTP_CODES = [500, 502, 503, 504]  # 重试的HTTP状态码

缓存与去重

HTTPCACHE_ENABLED = False                              # HTTP缓存（默认关闭）
DUPEFILTER_CLASS = 'scrapy.dupefilters.RFPDupeFilter'  # 去重过滤器

日志与调试

LOG_LEVEL = 'DEBUG'                      # 日志级别（DEBUG/INFO/WARNING/ERROR）
LOG_FILE = 'scrapy.log'                  # 日志文件路径
TELNETCONSOLE_ENABLED = True             # 启用Telnet控制台

作者：Gacfox

版权声明：本网站为非盈利性质，文章如非特殊说明均为原创，版权遵循知识共享协议CC BY-NC-ND 4.0进行授权，转载必须署名，禁止用于商业目的或演绎修改后转载。