代码之家 › 专栏 › 技术社区 › Exam Orph

Scrapy-删除重复项并将数据作为单个列表输出?

scrapy-spider scrapy python

Exam Orph · 技术社区 · 7 年前

import scrapy

class testSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['http://www.website.com']

    def parse(self, response):
        urls = response.css('div.subject_wrapper > a::attr(href)').extract()
        for url in urls:
            url = response.urljoin(url)
            yield scrapy.Request(url=url, callback=self.getData)

    def getData(self, response):
        data = {'data': response.css('strong.data::text').extract()}
        yield data

它工作正常,但当它返回每个链接的数据列表时,当我输出到CSV时,它看起来如下所示:

"dalegribel,Chad,Ninoovcov,dalegribel,Gotenks,sillydog22"

"kaylachic,jmargerum,kaylachic"

"Kempodancer,doctordbrew,Gotenks,dalegribel"

"Gotenks,dalegribel,jmargerum"

...

dalegribel
Chad
Ninoovcov
Gotenks
...

1 回复 | 直到 7 年前

pythad 7 年前

不确定是否可以使用Scrapy内置方法以某种方式完成,但python的方法是创建一组唯一的元素,检查重复项,并且只生成唯一的元素:

class testSpider(scrapy.Spider):
    name = "quotes"
    start_urls = ['http://www.website.com']
    unique_data = set()

    def parse(self, response):
        urls = response.css('div.subject_wrapper > a::attr(href)').extract()
        for url in urls:
            url = response.urljoin(url)
            yield scrapy.Request(url=url, callback=self.getData)

    def getData(self, response):
        data_list = response.css('strong.data::text').extract()
        for elem in data_list:
            if elem and (elem not in self.unique_data):
                self.unique_data.add(elem)
                yield {'data': elem}

推荐文章

gongarek · Scrapy中附加页的下一页

6 年前

fg42 · 正确安排两个for循环的结果

6 年前

Mrowkacala · 特定网页的刮壳

6 年前

Vacanito · scrapy with::在选择器之前

6 年前

TJ1 · Python Scrapy:在“href”中查找文本

6 年前

nevster · xpath有一个空值,该值会弄乱列表

6 年前

Luis Ramon Ramirez Rodriguez · 使用scrapy代理的ssl握手失败

6 年前

Deba · 无法刮取横幅图像

6 年前

Andre Rumapea · 零碎的工作环境意味着什么?

6 年前

CLPatterson · 在同一Ec2实例上运行Splash server和Scrapy Spider

6 年前