


爬虫可以使用正则表达式来匹配和提取网页中的特定信息。()

第1题
A.可以测试输入字符串进行数据验证
B.可以识别文档中的特定文本
C.通过匹配可以从字符串中提取子字符串
D.正则表达式只能在java中使用
第2题
A.爬虫就是按照一定规则,自动地提取并保存网页中信息的程序。
B.requests是Python实现的一个简单易用的HTTP库,该方法返回的是一个response对象。
C.利用Beautiful Soup模块来处理HTML和XML,解析页面格式,提取有用的信息。
D.Beautiful Soup解析页面时只能调用Python内置的标准库解析器。
第4题
A.采用网页采集机器人如蜘蛛、爬虫等,循着超链接不停采集访问到的页面
B.网页采集机器人可以采集到互联网上所有的页面
C.自动提取网页中的关键词等建立索引
D.按照信息的相关性排序后进行显示
第5题
A.MySQL中的正则表达式匹配不区分大小写
B.mysql可以完美支持正则表达式的使用
C.mysql中使用REGEXP关键字来匹配正则
D.正则表达式作用是匹配方本,将一个模式(正则表达式)与一个文本串进行比较。
第6题
第7题
A.小程序的请求极其简单,基本上没有验证信息
B.用Python来请求小程序的后台接口从而获取数据,比请求异步加载网页的后台接口要复杂很多
C.如果目标网站有微信小程序,那么一定要优先调查能否通过小程序的接口来抓取数据
D.小程序的反爬虫能力比网页版的低很多。使用小程序的接口来爬数据,能极大提高爬虫的开发效率
第10题
A.cookielib库提供可存储cookie的对象,以便于与urllirequest库配合使用来进行访问
B.过于频繁的爬虫不会带给网站额外的压力
C.使用split()可以进行字符串的拆分
D.正则表达式可以实现对爬取信息的快速过滤
为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!