今天聊聊网络爬虫公司被谷歌起诉的事。被起诉的是SerpApi,这家公司其实就是专门帮别人抓取网络内容的,说白了就是网络爬虫公司。The Verge报道说,SerpApi上周提交了一份驳回动议,反咬一口,说谷歌才是“全球最大的网络爬虫”。谷歌起诉SerpApi的原因是他们以惊人的规模抓取搜索结果,还用了一些欺骗手段。谷歌说这违反了版权法,还指控SerpApi发现了绕过其反抓取功能SearchGuard的方法,给他们造成了损失。SerpApi的回应挺有意思的,他们说自己就是在做谷歌对其他所有人做的事情,只是规模小得多。而且他们认为谷歌并没有对其搜索结果主张所有权,公共网站抓取的公开信息也不受版权保护。他们还指出绕过SearchGuard的行为并不违反版权法,因为这个功能只保护谷歌的业务,而不是版权内容。 大家都知道搜索引擎为什么能帮你搜到内容吧?靠的就是网络爬虫。搜索引擎的网络爬虫会遍历各个开放网站,抓取所有信息并记录下来。为了确保数据更新,它们还会定时回访已抓取过的网站。这些都是正常的行为,但也有恶意行为,比如有些爬虫无视访问频率限制,用高频率抓取数据导致服务器崩溃;还有些爬虫不遵守君子协议,抓取范围外的隐私数据侵害用户利益。 这次诉讼中,SerpApi的态度挺坚决的:大家都是靠爬虫起家的,你谷歌能爬得我为什么不能?这就是贼喊捉贼嘛!同行最了解同行了,谷歌别想着高人一等了。所以说这场官司就是一场闹剧啊。