您的浏览器过于古老 & 陈旧。为了更好的访问体验, 请 升级你的浏览器
j0785 发布于2023年11月03日 11:15 最近更新于 2023年11月10日 10:24

原创 大数据概论:试题与答案

2267 次浏览 读完需要≈ 62 分钟 试题

内容目录

关于聚类挖掘,表述错误的是:

选择一项:

a. 聚类结果的好坏取决于相似性的度量方法以及具体实现 

b. 聚类结果的好坏与能否发现隐含模式无关

c. 好聚类的方法的标准是要产生高质量的聚类结果

d. 好的聚类结果应该有高类内相似性和低类间相似性这样的特征

正确答案是:聚类结果的好坏与能否发现隐含模式无关

 

什么是存储在计算机内有结构的数据的集合?

选择一项:

a. 数据库管理系统

b. 数据库 

c. 数据库系统

d. 数据库结构

正确答案是:数据库

 

哪个不属于知识发现的步骤

选择一项:

a. 数据清理 

b. 数据选择

c. 数据集成

d. 数据开发

正确答案是:数据开发

 

不属于社交网络特点的是

选择一项:

a. 海量用户

b. 数据单一 

c. 完整数据

d. 实时数据

正确答案是:数据单一

 

单舆情的系统架构正确的是

选择一项:

a. 规划-存储-分析-采集-报告-管控

b. 规划-存储-采集-分析-报告-管控

c. 规划-采集-存储-分析-报告-管控

d. 规划-采集-分析-存储-报告-管控 

正确答案是:规划-采集-存储-分析-报告-管控

 

以下不属于网络舆情的主要来源的是

选择一项:

a. 书信 

b. 论坛与BBS

c. 微信

d. QQ

正确答案是:书信

 

大数据可能带来(),但未必能够带来()

选择一项:

a. 准确度;精确度

b. 精确度;多样性

c. 多样性;准确度 

d. 精确度;准确度

正确答案是:精确度;准确度

 

数据清洗的方法不包括( )。

选择一项:

a. 缺失值处理

b. 噪声数据清除

c. 重复数据记录处理

d. 一致性检查 

正确答案是:重复数据记录处理

 

计量单位从低到高,下面的说法正确的是( )

选择一项:

a. EB< KB< MB< TB

b. KB< MB< GB< TB 

c. GB< KB< MB< TB

d. EB< MB< GB< TB

正确答案是:KB< MB< GB< TB

 

智能健康手环的应用开发,体现了( )的数据采集技术的应用

选择一项:

a. 传感器 

b. 统计报表

c. API接口

d. 网络爬虫

正确答案是:传感器

 

属于高质量聚类分析的要求:①可扩展性 ②处理相同类型数据的能力 ③发现任意形状的能力 ④领域知识参数输入的最大化 ⑤处理噪声数据的能力 ⑥数据输入顺序敏感

选择一项:

a. ①②③④⑤⑥ 

b. ②④⑥

c. ①③⑥

d. ①③⑤

正确答案是:①③⑤

 

社群结构聚合探测算法的步骤中,()条件满足时,算法会停止并输出探测结果。

选择一项:

a. 0

b. maxφpq≥0

c. maxφpq

d. maxφpq≤0 

e. maxφpq<0

正确答案是:maxφpq≤0

 

以下说法错误的是

选择一项:

a. FP-树频集算法虽然克服了Apriori算法复杂度的问题,但是获得的结果却是不靠谱的 

b. 关联规则在使用时的两个指标是支持度和置信度

c. APRIORI算法最大的缺点是复杂度太高

d. FP-树频集算法是针对Apriori算法缺点进行改进后的算法

正确答案是:a.FP-树频集算法虽然克服了Apriori算法复杂度的问题,但是获得的结果却是不靠谱的

 

关联规则的基本概念中错误的是

选择一项:

a. 项集频率指的是项集所有交易中出现的次数

b. 置信度是项集出现次数除以总的交易次数 

c. 相对支持度指的是项集出现次数除以总的交易次数

d. K项集指的是K个项的集合

正确答案是:置信度是项集出现次数除以总的交易次数

 

K均值算法的缺点():①经常终止于局部最优解②需要先验的领域知识③对噪声和离群点比较敏感④不能发现任意类型的类⑤不能处理分类变量

选择一项:

a. ②④

b. ①②③④⑤ 

c. ①③⑤

d. ①③

正确答案是:①②③④⑤

 

什么是大数据使用的最可靠方法?

选择一项:

a. 大数据与样本数据结合 

b. 大数据源

c. 样本数据源

d. 规模大

正确答案是:大数据与样本数据结合

 

下列关于数据重组的说法中,错误的是( )。

选择一项:

a. 数据重组是数据的重新生产和重新采集

b. 数据重组实现的关键在于多源数据融合和数据集成

c. 数据重组有利于实现新颖的数据模式创新 

d. 数据重组能够使数据焕发新的光芒

正确答案是:数据重组是数据的重新生产和重新采集

 

大数据的最显著特征是( )。

选择一项:

a. 数据价值密度高

b. 数据类型多样

c. 数据规模大 

d. 数据处理速度快

正确答案是:数据规模大

 

美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的( )。

选择一项:

a. 在分析方法上更注重相关分析而不是因果分析

b. 在数据规模上强调相对数据而不是绝对数据

c. 在数据基础上倾向于全体数据而不是抽样数据

d. 在分析效果上更追究效率而不是绝对精确 

正确答案是:在分析方法上更注重相关分析而不是因果分析

 

下列关于舍恩伯格对大数据特点的说法中,错误的是( )。

选择一项:

a. 数据类型多样

b. 数据规模大

c. 数据价值密度高

d. 数据处理速度快 

正确答案是:数据价值密度高

 

单选 Hive的数据计算使用

选择一项:

a. MapReduce

b. HDFS 

c. HBASE

d. PIG

正确答案是:MapReduce

 

单选 Hadoop生态系统中,最核心的设计是()

选择一项:

a. HBASE和STORM

b. TEZ和PIG

c. HDFS和MAPREDUCE

d. HIVE和HDFS 

正确答案是:HDFS和MAPREDUCE

 

单选 Web挖掘中内容挖掘的基本技术是()

选择一项:

a. 图片挖掘

b. 文本挖掘

c. 数据挖掘 

d. 技术挖掘

正确答案是:文本挖掘

 

布尔权重是指如果某个词条在一篇文本中出现,则将其权值定义为(),否则定义为()

选择一项:

a. 2,0

b. 1,0 

c. 0,2

d. 0,1

正确答案是:1,0

 

以下哪个不是推荐系统的评测指标

选择一项:

a. 统一性

b. 新颖性

c. 惊喜度 

d. 覆盖率

正确答案是:统一性

 

分类变量使用( )建立预测模型。

选择一项:

a. 分类树

b. 决策树

c. 离散树 

d. 回归树

正确答案是:分类树

 

对线下零售而言,做好大数据分析应用的前提是( )

选择一项:

a. 扩大营业面积

b. 增加数据来源

c. 增加统计种类

d. 开展优惠促销 

正确答案是:增加数据来源

 

万维网的实施国家是( )

选择一项:

a. 英国 

b. 印度

c. 德国

d. 美国

正确答案是:美国

 

一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的( )

选择一项:

a. 因果思维

b. 定量思维

c. 实验思维

d. 相关思维 

正确答案是:相关思维

 

下列关于网络用户行为的说法中,错误的是( )。

选择一项:

a. 网络公司能够捕捉到用户在其网站上的所有行为

b. 用户的隐私安全很难得以规范保护

c. 用户离散的交互痕迹能够为企业提升服务质量提供参考

d. 数字轨迹用完即自动删除 

正确答案是:数字轨迹用完即自动删除

 

以下说法正确的是

选择一项:

a. Spark只能基于HDFS这样分布式文件存储系统

b. Spark可以基于HDFS这样分布式文件存储系统也可以基于Tachyon这样基于内存分布式文件存储系统 

c. Spark只能基于Tachyon这样基于内存分布式文件存储系统

d. Spark既无法基于HDFS这样分布式文件存储系统也无法基于Tachyon这样基于内存分布式文件存储系统

正确答案是:Spark可以基于HDFS这样分布式文件存储系统也可以基于Tachyon这样基于内存分布式文件存储系统

 

能同时进行交互式计算,批处理,流式计算的计算框架为

选择一项:

a. Spark 

b. Shark

c. Impala

d. Storm

正确答案是:Spark

 

Storm属于()计算

选择一项:

a. 云

b. 交互式

c. 流式 

d. 批处理

正确答案是:交互式

 

Spark生态图中,()提供了图存储结构和常见的图算法

选择一项:

a. SparkStreaming

b. Tachyon

c. GraphxGraphParallel

d. SharkSQL 

正确答案是:GraphxGraphParallel

 

中国互联网购物者占互联网使用者的比例为:

选择一项:

a. 0.5

b. 0.55

c. 0.57 

d. 0.56

正确答案是:0.56

 

RDD中进行map,filter,groupBy等操作属于()

选择一项:

a. Change

b. Active

c. Transformation

d. Acter 

正确答案是:Transformation

 

大数据时代,数据使用的关键是( )。

选择一项:

a. 数据再利用

b. 数据分析

c. 数据收集 

d. 数据存储

正确答案是:数据再利用

 

下列关于数据交易市场的说法中,错误的是( )。

选择一项:

a. 数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助

b. 数据交易市场是大数据资源化的必然产物 

c. 数据交易市场是大数据产业发展到一定程度的产物

d. 商业化的数据交易活动催生了多方参与的第三方数据交易市场

正确答案是:数据交易市场通过生产数据、研发和分析数据,为数据交易提供帮助

 

数据仓库的最终目的是( )。

选择一项:

a. 建立数据仓库逻辑模型

b. 为用户和业务部门提供决策支持 

c. 收集业务需求

d. 开发数据仓库的应用分析

正确答案是:为用户和业务部门提供决策支持

 

大数据的最显著特征是( )。

选择一项:

a. 数据价值密度高

b. 数据处理速度快

c. 数据规模大 

d. 数据类型多样

正确答案是:数据规模大

 

K均值算法的缺点()①经常终止于局部最优解②需要先验的领域知识③对噪声和离群点比较敏感④不能发现任意类型的类⑤不能处理分类变量

选择一项:

a. ①②③④⑤ 

b. ①③⑤

c. ②④

d. ①③

正确答案是:①②③④⑤

 

关于内容深度理解建立索引说法正确的是

选择一项:

a. 客观索引与文档内容有关

b. 索引分为客观索引和主观索引

c. 内容索引又可以分为单索引和双索引 

d. 内容索引与客观因素有很大关系

正确答案是:索引分为客观索引和主观索引

 

中国的网络消费者比线下消费者更( )。

选择一项:

a. 年轻和富裕 

b. 年轻和贫困

c. 年老和富裕

d. 年老和贫困

正确答案是:年轻和富裕

 

大数据获取的个人信息比传统调研获得的个人信息真实性( )。

选择一项:

a. 更高

b. 相同

c. 更低

d. 不确定 

正确答案是:更高

 

DMP分为( )和( )。

选择一项:

a. 单一式DMP;封闭式DMP

b. 开放式DMP;封闭式DMP 

c. 开放式DMP;私有式DMP

d. 单一式DMP;多元式DMP

正确答案是:开放式DMP;私有式DMP

 

阿里巴巴旗下的数据管理平台,被称为:

选择一项:

a. 蚂蚁花呗

b. 达摩盘 

c. 支付宝

d. 招财宝

正确答案是:达摩盘

 

万维网之父是( )。

选择一项:

a. 斯科特•布朗

b. 蒂姆•伯纳斯-李

c. 彼得•德鲁克

d. 舍恩伯格 

正确答案是:蒂姆•伯纳斯-李

 

Mac OS系统的开发者是()。

选择一项:

a. 微软公司

b. 苹果公司 

c. 惠普公司

d. IBM公司

正确答案是:苹果公司

 

下列论据中,能够支撑"大数据无所不能”的观点的是( )。

选择一项:

a. 大数据存在泡沫

b. 互联网金融打破了传统的观念和行为

c. 大数据具有非常高的成本

d. 个人隐私泄露与信息安全担忧 

正确答案是:互联网金融打破了传统的观念和行为

 

Spark生态图中,()提供了一个机器学习的算法库

选择一项:

a. GraphxGraphParallel

b. MLBaseMachineLearning

c. Tachyon

d. SharkSQL 

正确答案是:MLBaseMachineLearning

 

()充分利用了MapReduce和HDFS的扩展性和容错性,是基于MapReduce开发的数据挖掘,机器学习库

选择一项:

a. MaHout

b. STORM 

c. MAPREDUCE

d. YARN

正确答案是:MaHout

 

特征抽取常用算法的互信息,互信息值()表示词条和类别的共现程度()

选择一项:

a. 越大,越小

b. 越小,越小

c. 越大,越大 

d. 越小,越大

正确答案是:越大,越大

 

RDD中进行count,collect,save等操作属于()

选择一项:

a. Active

b. Transformation

c. Change

d. Acter 

正确答案是:Active

 

根据PageRank算法的基本思想,以下哪种情况说明了页面的重要性

选择一项:

a. 被非重要的页面引用的页面

b. 页面的重要性无法传递

c. 被多次引用的页面 

d. 没有被多次引用的页面

正确答案是:被多次引用的页面

 

Web应用挖掘中最有效而且简单的分析方法是

选择一项:

a. 点击流分析 

b. 数据挖掘

c. 内容分析

d. 结构分析

正确答案是:点击流分析

 

Hadoop生态系统中,集群的资源管理系统是()

选择一项:

a. MAPREDUCE

b. YARN

c. STORM

d. HDFS 

正确答案是:YARN

 

Hadoop提供的MapReduce的编程方式中,()是最原始的方式

选择一项:

a. HadoopPipes

b. PHP

c. HadoopStreaming 

d. Java

正确答案是:Java

 

大数据的起源是( )

选择一项:

a. 电信

b. 互联网 

c. 金融

d. 公共管理

正确答案是:互联网

 

智慧城市的智慧之源是( )

选择一项:

a. 物联网 

b. 大数据

c. 数字城市

d. 云计算

正确答案是:大数据

 

假设一种基因同时导致两件事情,一是使人喜欢抽烟,二是使这个人和肺癌就是( )关系,而吸烟和肺癌则是()关系

选择一项:

a. 并列相关

b. 因果并列

c. 相关因果 

d. 因果相关

正确答案是:因果相关

 

传统大数据质量清洗的特点有:

选择一项或多项:

a. 非确定性

b. 强类型性 

c. 协调式的 

d. 确定性 

正确答案是:确定性, 强类型性, 协调式的

 

以下选项中属于数据的作用的是( )。

选择一项或多项:

a. 沟通 

b. 验证假设 

c. 欣赏 

d. 建立信心 

正确答案是:沟通, 验证假设, 建立信心

 

慈铭体检机构的 O2O健康管理产品,由( )组成。

选择一项或多项:

a. 手机APP 

b. 保健品

c. 健康管理云平台 

d. 智能运动手腕

正确答案是:智能运动手腕, 手机APP, 健康管理云平台

 

当前大数据技术的基础包括( )

选择一项或多项:

a. 关系型数据库 

b. 分布式文件系统 

c. 分布式并行计算

d. 分布式数据库 

正确答案是:分布式文件系统, 分布式并行计算, 分布式数据库

 

可视化高维展示技术在展示数据之间的关系以及数据分析结果方面作( )

选择一项或多项:

a. 能够直观反映多维数据之间的空间关系 

b. 提供高性能并行计算技术的强力支撑 

c. 能够动态演化事物的变化及变化的规律 

d. 能够直观反映成对数据之间的空间关系 

e. 能够静态演化事物的变化及变化的规律 

正确答案是:能够直观反映多维数据之间的空间关系, 能够动态演化事物的变化及变化的规律

 

下列关于计算机存储容量单位换算关系的公式中,正确的是( )

选择一项或多项:

a. 1GB=1012KB

b. 1KB=1024Byte 

c. 1GB=1024KB

d. 1GB=1024MB 

e. 1KB=1012Byte

正确答案是:1KB=1024Byte, 1GB=1024MB

 

避免"数据孤岛”的方法包括:

选择一项或多项:

a. 关键匹配变量 

b. 数据输入 

c. 利用样本框

d. 数据融合 

正确答案是:关键匹配变量, 数据融合, 利用样本框

 

以下属于机器学习的是:

选择一项或多项:

a. 监督式学习 

b. 强化学习 

c. 非监督式学习

d. 半监督式学习

正确答案是:监督式学习, 非监督式学习, 半监督式学习, 强化学习

 

机器学习的四大类分析技术的主要算法包括()

选择一项或多项:

a. 描述性统计 

b. 关联分析 

c. 分类与预测 

d. 聚类分析 

正确答案是:描述性统计, 聚类分析, 关联分析, 分类与预测

 

大数据作为一种数据集合,当我们使用这个概念的时候,实际包含有哪几层含义?

选择一项或多项:

a. 数据很大 

b. 蕴含大价值 

c. 变化很快 

d. 构成复杂 

正确答案是:数据很大, 构成复杂, 变化很快, 蕴含大价值

 

用户建模模块的功能是

选择一项或多项:

a. 存储或者修改用户的兴趣偏好 

b. 帮助用户找到需要的东西 

c. 对用户进行识别和分类 

d. 获取、表示用户的兴趣偏好 

正确答案是:获取、表示用户的兴趣偏好, 对用户进行识别和分类, 帮助用户找到需要的东西, 存储或者修改用户的兴趣偏好

 

下列关于脏数据的说法中,正确的是( )。

选择一项或多项:

a. 与实际业务关系不大 

b. 格式不规范 

c. 编码不统一 

d. 意义不明确 

e. 数据不完整 

正确答案是:格式不规范, 编码不统一, 意义不明确, 与实际业务关系不大, 数据不完整

 

2012年"中央1号文件”提出,要全面推进农业农村信息化,着力提高()的信息服务水平。

选择一项或多项:

a. 农业生产经营 

b. 文化交流 

c. 市场流通 

d. 质量安全控制 

正确答案是:农业生产经营, 质量安全控制, 市场流通

 

传统数据密集型行业积极探索和布局大数据应用的表现是( )。

选择一项或多项:

a. 自行开发数据产品

b. 提高分析挖掘能力 

c. 实现科学决策与运营 

d. 打通多源跨域数据 

e. 投资入股互联网电商行业

正确答案是:打通多源跨域数据, 提高分析挖掘能力, 实现科学决策与运营

 

中国电信把自己的大数据开发分为:

选择一项或多项:

a. 广告类应用 

b. 服务类应用 

c. 商品类应用 

d. 媒体类应用 

正确答案是:商品类应用, 媒体类应用

 

根据麦肯锡的预测,随着大数据的普及,全球零售业和医疗行业的利润将会减少。

选择一项:

错 

正确答案是“错”。

 

宁家骏委员指出,发展大数据的应用,有助于促进医疗改革?

选择一项:

对 

正确答案是“对”。

 

大数据的数据类型包括网络日志、音频、视频、图片、地理位置信息等等?

选择一项:

对 

正确答案是“对”。

 

大数据的起始计量单位至少是 MB?

选择一项:

错 

正确答案是“错”。

 

在没有大数据的条件下,人才的发现与选拔都很难做到"全信息”,大数据能够帮助人们解决这个问题?

选择一项:

对 

正确答案是“对”。

 

大数据的应用之一是,促进健康管理的个性化和多元化?

选择一项:

对 

正确答案是“对”。

 

由于历史的原因,我国医院的信息化建设层次不齐、水平不一。

选择一项:

对 

正确答案是“对”。

 

网球比赛,与其他体育项目一样,涉及大量数据。

选择一项:

对 

正确答案是“对”。

 

谷歌流感趋势充分体现了数据重组和扩展对数据价值的重要意义。

选择一项:

对 

正确答案是“错”。

 

对于企业来说,给用户进行各种促销或者实施运营策略的时机也比较重要,而且对不同兴趣偏好的用户最好集中处理。

选择一项:

对 

正确答案是“错”。

  • CodePlayer技术交流群1
  • CodePlayer技术交流群2

0 条评论

撰写评论