代码之家  ›  专栏  ›  技术社区  ›  Onorio Catenacci

机器人伦理.txt[关闭]

  •  30
  • Onorio Catenacci  · 技术社区  · 6 年前

    我有一个严肃的问题。忽略网站上robots.txt文件是否合乎道德?以下是我考虑的一些因素:

    1. 如果有人打开一个网站,他们会期待一些访问。诚然,网络爬虫使用带宽而不点击可能支持该网站的广告,但网站所有者将他们的网站放到了网络上,对吧,那么他们期望自己永远不会被机器人访问有多合理呢?

    2. 一些网站显然使用robots.txt来防止他们的网站被google或其他一些实用程序抓取,从而使人们能够轻松地进行价格比较。他们在网站上有私人搜索引擎,所以他们显然希望人们能够搜索网站;显然,他们只是不希望人们能够轻松地将他们的信息与其他供应商进行比较。

    正如我所说,我不是在试图争论;我只是想知道是否有人提出过这样一个案例:在道德上允许忽略robots.txt文件的存在?我想不出一个可以忽略robots.txt的例子,主要是因为人们(或企业)正在花钱建立自己的网站,所以他们应该能够告诉谷歌(Google)/雅虎(Yahoos)/世界上其他一些人,他们不想出现在自己的指数上。

    为了把这个讨论放在上下文中,我想创建一个价格比较网站,其中一个主要的供应商有robots.txt,它基本上阻止任何人获取他们的价格。我希望能够得到他们的信息,但正如我所说,我不能简单地无视网站所有者的意愿。

    我在这里看到了一些非常尖锐的讨论,这就是为什么我希望听到遵循堆栈溢出的开发人员的意见。

    顺便说一句,有一些关于 Hacker News question 但他们似乎主要关注这方面的法律问题。

    10 回复  |  直到 6 年前
        1
  •  43
  •   Ashwin Nanjappa    10 年前

    争论:

    1. robots.txt文件是一个隐含的许可证,特别是因为您知道它。因此,继续搜刮他们的网站可能被视为未经授权的访问(即黑客攻击)。很糟糕,但最近在其他法律案件中也有类似的论据(与robots.txt没有直接关系,但与其他“被动控制”有关)。
    2. 获取价格不违反版权法,包括DMCA,因为版权不包括事实信息,只有创造性。
    3. 从伦理上讲,你不应该抓住价格,因为供应商应该有能力改变价格,而不必担心来自你的网站的人被指控为诱饵/开关。
    4. 你有没有走上大路,向他们解释网站,并说你愿意把他们包括在你的供应商名单中?也许他们会喜欢这个想法,并且实际地以一种您容易消费、对他们产生的资源不太密集的方式公开数据。
    5. 没有关于robots.txt的直接法律,因为通常遵循网络礼仪。不要成为“坏人”之一。
    6. 有些人过滤机器人是因为他们使用URL链接来执行“操作”,比如向购物车中添加东西,而机器人在他们的数据库中留下了大量废弃的购物车。
    7. 有些人过滤机器人,因为他们有独家价格,他们不能根据与供应商的协议公开广告。你可能在你的网站上公布这些价格,从而使他们处于不利地位。
    8. 在目前的经济形势下,如果一家公司不想尽一切可能做广告,你不把他们包括进来是他们自己的错。
        2
  •  27
  •   Greg Hewgill    15 年前

    其他用途 robots.txt 是为了保护网络蜘蛛不受它们的伤害。对于一个网络蜘蛛来说,陷入无限深的链接森林中是相对容易的,而且一个适当的构造 机器人战斗机 文件会告诉蜘蛛“你不需要去这里”。

        3
  •  4
  •   Frank Farmer    15 年前

    许多人试图通过建立“价格比较”引擎来建立业务,这些引擎会刮伤主要网站。

    一旦你开始获得任何类型的流量/收入,你 接收一个 cease and desist . 它发生在几十个项目上,如果不是几百个项目的话。我甚至做过一个小项目,从Craigslist获得了C&D。

    你知道他们怎么说“请求宽恕比得到许可更容易”?它不适用于刮页。得到他们的许可,否则你会从他们的律师那里听到。

    如果你幸运的话,它会很早,当你没有什么可失去的时候。如果晚了,你可能会因为一封信而一夜之间失去生意和工作。

    获得许可并不难。除非你做了什么鬼鬼祟祟的事,否则你很可能会开车送他们去。 额外的 交通。见鬼,一旦你的产品上市,网站可能会乞求你,甚至付钱给你添加他们的数据。

        4
  •  2
  •   John Saunders    15 年前

    “否”是指“否”。

        5
  •  1
  •   ilya n.    15 年前

    为了回答这个狭隘的问题,对于价格比较网站,你最好是实时获取价格,而不是提前废弃数据库。很难想象这是个问题。

        6
  •  1
  •   Neil Foley    15 年前

    我们允许机器人毫无怨言地在网上挖掘的一个原因是,如果我们愿意,我们有办法阻止它们。保护两侧。

    还记得当Cuil的机器人被指控越界时的骚动吗?在某些情况下,它显然像DoS攻击,并且耗尽了一些小站点的带宽限额。

    如果有太多人违反robots.txt,我们可能会遇到更糟的情况。

        7
  •  0
  •   ilya n.    15 年前

    一个有趣的IRL版本的故事涉及哈佛合作伙伴: Coop Calls Cops On ISBN Copiers .

        8
  •  0
  •   Jay    15 年前

    简短回答:不。

    关于狭隘的问题:如果一个卖家说他们的价格是秘密的,我想你必须尊重这一点。我会联系他们,问他们是否真的不希望像你这样的价格比较引擎包括他们,或者如果“禁止侵入”标志是出于技术原因。如果是后者,也许他们会为您提供另一种选择。如果是前者,那么我会说太糟糕了,他们没有被包括在内,他们失去了一些生意,这是他们的问题。

    小题大做:就我个人而言,我对那些公司非常恼火,这些公司让我跳过去了解他们产品的价格,让我打电话给销售员,让他给我一个硬性推销,或者更糟的是,让我给他们我的电话号码,让他们的销售员打电话骚扰我。我想如果他们不敢告诉我价格,那可能意味着价格太高了。

    一般来说:robots.txt文件就像一个“禁止侵入”标志。业主有权说谁被允许进入他们的财产。如果你认为他们的理由是愚蠢的,你可以礼貌地建议他们取下签名。但你无权无视他们的意愿。如果有人在他的院子里贴了一个禁止擅入的标志,我说,“嘿,我只是想抄近路,有什么大不了的?”--也许我踩上了他珍贵的保加利亚紫罗兰灯泡,毁掉了一笔宝贵的投资。也许我正在穿越他的人民神圣的墓地,侵犯他们的宗教情感。或者他只是个脾气暴躁的混蛋。但这仍然是他的财产和权利。哦,如果我忽视了“禁止擅入”标志后掉进了危险的灰岩坑,那谁来负责呢?(在美国,尽管他警告过我,我还是可以为他所有的价值起诉他,但这是对的吗?)

        9
  •  -2
  •   Techgration    15 年前

    我在这里表现出一些无知,但我一直认为机器人只是由搜索引擎发出的。像谷歌或雅虎。

    因此,如果你写了一个在互联网上搜索内容的应用程序,我不会认为搜索引擎机器人,据我所知,它就是robots.txt试图阻止的。

    但这可能只是选择性的无知,因为我可能会这样做,直到该网站的站长联系我并要求我停止:)

        10
  •  -4
  •   Andrei Krotkov    15 年前

    如果人们允许公众使用它,他们不应该试图限制它。在你的网站上添加robots.txt文件相当于在你的草坪上贴一个写着“请不要看我”的标志。