scrapy框架--

Scrapy是一个用于爬取数据的Python框架。下面是Scrapy框架的基本操作步骤：

安装Scrapy：首先，确保你已经安装好了Python和pip。然后，在命令行中运行以下命令安装Scrapy：pip install scrapy
创建Scrapy项目：使用Scrapy提供的命令行工具创建一个新的Scrapy项目。在命令行中切换到你想要创建项目的目录，并执行以下命令：scrapy startproject project_name。其中，project_name是你自己定义的项目名称。
定义爬虫：进入项目目录，并在命令行中执行以下命令创建一个新的爬虫：scrapy genspider spider_name website.com。其中，spider_name是你自己定义的爬虫名称，website.com是你要爬取数据的目标网站的域名。
编写爬虫代码：在项目目录下的spiders文件夹中找到你创建的爬虫文件（以.py结尾），使用文本编辑器打开该文件。在爬虫代码中，你可以定义如何发送请求、处理响应和提取数据等操作。你可以参考Scrapy官方文档来了解更多关于编写爬虫代码的详细信息。
配置爬虫：如果需要，你可以在项目目录下的settings.py文件中配置爬虫的相关设置，例如设置请求头、设置User-Agent等。
启动爬虫：在命令行中进入项目目录，并执行以下命令启动爬虫：scrapy crawl spider_name。其中，spider_name是你之前定义的爬虫名称。
处理爬虫数据：爬虫运行后，它会自动访问目标网站，并根据你定义的规则提取数据。你可以在爬虫代码中定义如何处理这些数据，例如保存到文件、存储到数据库

import scrapy


class ItcastSpider(scrapy.Spider):
    name = "itcast"
    allowed_domains = ["itcast.cn"]
    # 修改起始url
    start_urls = ["https://www.itcast.cn/channel/teacher.shtml#ajavaee"]
    # 在这个方法中实现爬取逻辑
    def parse(self, response):
        # 定义对于网站的相关操作
        # with open('itcast.html','wb') as f:
        #     f.write(response.body)
#/html/body/div[1]/div[6]/div/div[2]/div[6]/div/div[2]/div[1]/ul/li/div
# /html/body/div[1]/div[6]/div/div[2]/div[6]/div/div[2]/div[2]/ul/li[1]/div

        # 获取所有教师节点
        node_list=response.xpath('/html/body/div[1]/div[6]/div/div[2]/div[6]/div/div[2]/div/ul/li/div')
        print(len(node_list))

        # 遍历
        for node in node_list:
            temp={}
            #

            # xpath 方法之后返回是选择器对象列表,,,extract()从选择器中提取数据
            temp['name']=node.xpath('./h3/text()').extract_first()
            temp['title'] = node.xpath('./h4/text()')[0].extract()
            temp['desc'] = node.xpath('./p/text()')[0].extract()
            # print(temp)
            # {'name': [<Selector query='./h3/text()' data='杨老师'>], 'title': [<Selector query='./h4/text()' data='高级讲师'>], 'desc': [<Selector query='./h3/text()' data='杨老师'>]}
            yield temp

response的用法

获取响应内容：可以使用response.body属性获取响应的原始内容，通常以字节形式表示。如果需要获取解码后的文本内容，可以使用response.text属性。
获取响应头：可以使用response.headers属性获取响应头信息。它返回一个Headers对象，你可以通过调用其方法或属性来获取特定的头信息，例如response.headers.get('Content-Type')获取Content-Type头的值。
获取状态码：可以使用response.status属性获取响应的状态码。
提取数据：可以使用XPath表达式或CSS选择器从响应中提取感兴趣的数据。Scrapy提供了response.xpath()和response.css()方法，你可以传入相应的表达式或选择器来提取数据。例如，response.xpath('//title/text()').get()可以获取网页中的标题文本。
提取链接：可以使用response.follow()方法跟踪和提取链接。你可以将一个链接作为参数传递给该方法，Scrapy将会发送一个新的请求并返回一个新的response对象。

scrapy框架--

response的用法

更多推荐

单片机C语言实例：32、实用密码锁

【2023】数据挖掘课程设计：基于TF-IDF的文本分类

【LeetCode-中等题】347. 前 K 个高频元素

华为云云耀云服务器L实例评测｜华为云云耀云服务器L实例开展性能评测

利用亚马逊云服务器 EC2 和S3免费套餐搭建私人网盘

线性代数的本质(七)——特征值和特征向量

Unity 场景淡入淡出效果

干洗店洗鞋店线上下单小程序方便快捷

蓝牙技术｜多快好省的苹果Find My查找定位方案商：北京自在科技

yamot：一款功能强大的基于Web的服务器安全监控工具

leetcode21合并两个有序链表

热文推荐

Zabbix

Minitab Express for Mac(数据分析软件)附破解补丁 v1.5.0 支持M1

Xilinx FPGA未使用管脚上下拉状态配置（ISE和Vivado环境）

排序算法-插入排序

redis的基础底层篇 zset的详解

Layui快速入门之第十节表单

理清SpringBoot CURD处理逻辑、顺序

keepalived高可用学习 keepalived+nginx高可用负载均衡配置

Spring整合RabbitMQ