


爬虫可以合法地爬取任何网站的数据,无需考虑网站的使用条款或版权问题。()

第1题
B.使用 requests 库可以下载网页源代码、文本、图片和音频
C.我们可以自由爬取网站的所有数据,无需受到制约
D.爬虫的速度无需设限
第4题
A、因为数据爬取依赖于爬虫技术,而技术本身是中立的,因此数据爬取合法
B、利用爬虫技术爬取的数据归属于其他主体,因此绝对不能爬取
C、数据爬取并不必然违法,只要符合一定规则,是可以爬来为我所用的
D、公司如有数据爬取的需求,均须提交产品部门统一安排,不得擅自爬取
第7题
A.Robots规定了搜索引擎可以收录哪些url和文件,哪些被禁止收录。而Sitemap描述了网站的结构,结合使用效果更佳
B.Sitemap是给搜索引擎使用的,自己写的爬虫不能根据sitemap爬取网站数据
C.最简单的 Sitemap 形式,就是XML 文件,在其中列出网站中的网址以及关于每个网址的其他元数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度为何等),以便搜索引擎可以更加智能地抓取网站
D.Sitemap的xml文件中priority标签是用来指定此链接相对于其他链接的优先权比值
第8题
A.Robots 协议,即网络爬虫排除标准,告知网络爬虫可爬取数据的范围
B.当我们使用爬虫获取网站信息时,要使用第三方库 requests ,该库可发起各种 HTTP 请求
C.可以使用爬虫任意爬取一切你想要知道的信息
D.向服务器发起请求后,查看的状态码为 403,表示请求成功
第9题
A.未经平台及用户授权,通过技术手段爬取其他平台的用户信息
B.绕开技术措施爬取竞争对手数据
C.爬取网站数据前,审阅、分析被爬取网站的Robots协议,并且在爬取数据时不违反Robots协议
D.爬取网站上视频、音乐、文字等可能构成作品的数据
为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!