题目内容 (请给出正确答案)
[主观题]

下面是一段文档的向量化的程序,且未经停用词过滤 from...

下面是一段文档的向量化的程序,且未经停用词过滤 from sklearn.feature_extraction.text import CountVectorizer corpus = [ 'Jobs was the chairman of Apple Inc., and he was very famous', 'I like to use apple computer', 'And I also like to eat apple' ] vectorizer =CountVectorizer() print(vectorizer.vocabulary_) print(vectorizer.fit_transform(corpus).todense()) #转化为完整特征矩阵 已知print(vectorizer.vocabulary_)的输出结果为: {u'and': 1, u'jobs': 9, u'apple': 2, u'very': 15, u'famous': 6, u'computer': 4, u'eat': 5, u'he': 7, u'use': 14, u'like': 10, u'to': 13, u'of': 11, u'also': 0, u'chairman': 3, u'the': 12, u'inc': 8, u'was': 16}. 则最后一条print语句中文档D1,即'Jobs was the chairman of Apple Inc., and he was very famous'的向量为

A、[0 1 1 1 0 0 1 1 1 1 0 1 1 0 0 1 2]

B、[0 0 1 0 1 0 0 0 0 0 1 0 0 1 1 0 0]

C、[1 1 1 0 0 1 0 0 0 0 1 0 0 1 0 0 0]

D、其它答案都不对

暂无答案
如搜索结果不匹配,请 联系老师 获取答案
您可能会需要:
您的账号:,可能会需要:
您的账号:
发送账号密码至手机
发送
更多“下面是一段文档的向量化的程序,且未经停用词过滤 from..…”相关的问题

第1题

关于文档的向量表示模型,采用深度学习中的词向量表示模型和传统的单纯基于词频向量表示方法的区别的描述错误的是

A、传统文档的表示一般采用词袋BOW模型,表示为高维向量

B、深度学习中的词向量表示模型通常是一种低维度向量

C、深度学习中的词向量表示模型存在的一个突出问题就是“词汇鸿沟”现象

D、传统方法中词向量表示模型存在一个突出问题就是“词汇鸿沟”现象

点击查看答案

第2题

关于停用词(Stop words),下列说法错误的是

A、停用词是指在信息检索中,为节省存储空间和提高处理效率,在处理自然语言文本之前或之后需要被过滤掉的某些字或词

B、停用词通常是非常常见的词,几乎可能出现在所有场合,因而对于信息检索、文本分类等应用区分度不大

C、在某些特殊应用如短语搜索 phrase search中,停用词可能是重要的构成部分,过滤掉会引起副作用,因此要避免进行停用词过滤

D、停用词是指比较古老的词汇,在当代已经几乎无人使用了

点击查看答案

第3题

下面关于程序文档的说法,错误的是:

A、向用户提供程序说明书是为了方便用户使用程序

B、程序员可以通过阅读程序文档学习和修改别人开发的程序

C、程序说明书不是程序的一部分,没有什么意义

D、注释是一种特殊的程序文档,标注在程序代码间,不影响程序的执行

点击查看答案

第4题

在电脑桌面新建一个记事本文档,保存为“办公自动化.txt",在文档中输入下面这段文字,记下你的用时()技术是20世纪70年代中期在发达国家中迅速兴起的一门综合性技术。其基本内涵是:利用现代化的办公设备、计算机技术和通信技术等来替代办公人员的部分手工业务活动,优质高效地处理办公事务。 随着信息技术的不断发展,特别是计算机网络技术的不断发展,办公自动化也在不断发展新的思想、概念、方法和手段。OA的发展已历经三代:从20世纪80年代中期起步,以个人电脑、办公套件为主要标志的第一代办公系统;20世纪90年代中期开始,随着工作流群件技术的面世,产生了以网络技术和协同工作技术为主要特征的第二代办公自动化系统、21世纪以知识管理核心的办公自动化系统;第三代OA是集信息处理、业务流程和知识管理于一体的应用系统。”

点击查看答案

第5题

RFC文档是下面哪一个标准化组织的工作文件()

A.ISO

B.IETF

C.ITU

点击查看答案

第6题

多文档界面是一个应用程序中包含多个窗体。()

点击查看答案

第7题

下面不属于计算机软件构成要素的是()。

A.开发方法

B.数据

C.文档

D.程序

点击查看答案

第8题

基于HTML的万维网文档是结构化的。()

点击查看答案

第9题

下面所列举的应用程序中,不是多文档应用程序的是()

A. Word

B. Excel

C. PowerPoint

D. 记事本

点击查看答案

第10题

在Excel中,下面说法不正确的是( )。

A.Excel应用程序可同时打开多个工作簿文档

B.在同一工作簿文档窗口中可以建立多张工作表

C.在同一工作表中可以为多个数据区域命名

D.Excel新建工作簿的缺省名为“文档1”

点击查看答案
热门考试 全部 >
相关试卷 全部 >
账号:
你好,尊敬的上学吧用户
发送账号至手机
密码将被重置
获取验证码
发送
温馨提示
该问题答案仅针对搜题卡用户开放,请点击购买搜题卡。
马上购买搜题卡
我已购买搜题卡, 登录账号 继续查看答案
重置密码
确认修改
谢谢您的反馈

您认为本题答案有误,我们将认真、仔细核查,
如果您知道正确答案,欢迎您来纠错

警告:系统检测到您的账号存在安全风险

为了保护您的账号安全,请在“上学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!

微信搜一搜
上学吧
点击打开微信
警告:系统检测到您的账号存在安全风险
抱歉,您的账号因涉嫌违反上学吧购买须知被冻结。您可在“上学吧”微信公众号中的“官网服务”-“账号解封申请”申请解封,或联系客服
微信搜一搜
上学吧
点击打开微信