以下关于网络爬虫的描述中,错误的一项是()。
A.在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置
B.爬虫程序会抓取所有网页,以保证搜索正确性
C.根据某种抓取策略爬行新发现的URL,如此重复下去
D.对于商业搜索引擎来说,分布式爬虫是必须采用的技术
A.在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置
B.爬虫程序会抓取所有网页,以保证搜索正确性
C.根据某种抓取策略爬行新发现的URL,如此重复下去
D.对于商业搜索引擎来说,分布式爬虫是必须采用的技术
第1题
A、在爬虫开始的时候,需要给爬虫输送一个URL列表,作为爬虫的起始位置
B、根据某种抓取策略爬行新发现的URL,如此重复下去
C、爬虫程序会抓取所有网页,以保证搜索正确性
D、对于商业搜索引擎来说,分布式爬虫是必须采用的技术
第2题
A.网络爬虫由控制节点、爬虫节点和资源库构成
B.网络爬虫中可以有多个控制节点,每个控制节点下可以有多个爬虫节点
C.控制节点之间可以互相通信,控制节点和其下的各爬虫节点之间也可以进行互相通信
D.属于同一个控制节点下的各爬虫节点间不可以互相通信
第3题
A.搜索引擎蜘蛛又称为网络爬虫
B.通用网络爬虫爬行范围和数量大,但对爬行速度和存储空间要求较低
C.聚焦网络爬虫又称为主题网络爬虫
D.增量式网络爬虫可以有效减少数据下载量,减少时间和空间的耗费
第4题
A.搜索引擘蜘蛛又称为网络爬虫
B.通用网络爬虫爬行范围和数量巨大,但对爬行速度和存储空间要求较低
C.聚焦网络爬虫又称为主题网络爬虫
D.增量式网络爬虫可以有效地减少数据下载量,减少时间和空间的耗费
第5题
A、网络爬虫还可以对网页建立索引
B、有些网络爬虫能够从网站抓取内容聚合起来
C、有些网络爬虫甚至能发动DDos攻击、发送垃圾邮件等
D、隐藏在表单后的信息无法被网络爬虫发现
第6题
关于网络爬虫协议文件robots.txt,说法错误的是:
A一个网站可以放多个不同robots文件
Brobots文件不可以用xml格式命名
Cdisallow用来描述不希望被访问到的一个URL
Drobots文件可以放在任何位置
第8题
B.为搜索引擎从万维网上下载网页,是搜索引擎的重要组成部分
C.爬虫从一个或若干个初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件
D.网络爬虫的行为和人们访问网站的行为是完全不同的
第9题
A.通用网络爬虫
B.聚焦网络爬虫
C.增量式网络爬虫
D.以上都是
为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!