# 爬虫实战之Robots协议

# 1. 爬虫以及Robots协议介绍

  • 爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。
    • 比如百度的那些数据,他需要定期的使用爬虫进行爬取,爬取之后放到数据库里,再做各种索引等。
  • 搜索引擎里面有个很重要的东西,叫做robots协议,这是整个网络大家都认可的协议。
    • robots.txt是一个文本文件,robots.txt是一个协议,不是一个命令,robots.txt是爬虫要查看的第一个文件。
    • robots.txt文件告诉爬虫在服务器上什么文件是可以被查看的,搜索机器人就会按照该文件中的内容来确定访问的范围。
      • 比如百度 => https://www.baidu.com/robots.txt
    • 如果别人不允许爬取数据,而你爬取了,就违反了robots协议,涉及到一些相关的用户隐私等。
      • 3B大战就因为robots协议产生了一场官司 => 3B大战为奇虎公司(360)新推出的搜索引擎和百度相互争夺搜索引擎市场的一场网络资源战争。战争始于2012年8月21日,当天,360将360浏览器默认搜索引擎由谷歌正式替换为360自主搜索引擎,战争就此爆发。