大数据复试面试问题总结(一)

前沿技术的相关知识——–加油!!!搏一搏

大数据的特征?

IBM 提出大数据具有 5V 特点,分别为:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性),下面具体说明此 5V 特点。

Volume巨大的数据量采集、存储和计算的量都非常大。大数据的起始计量单位至少是 PB(1000TB)、EB(100万TB)或ZB(10亿TB)。

Velocity:因为要保证数据的时效性,数据增长速度和处理速度必须要迅速。比如搜索引擎要求几分钟前的新闻都能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

Variety种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等,多类型的数据对数据的处理能力提出了更高的要求。

Value数据价值密度相对较低。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低。那么如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。

Veracity:数据的准确性和可信赖度,即为数据的质量

大数据有哪些应用?

医疗大数据。金融大数据交通大数据教育大数据商业大数据基于大数据应用的行业实例数不胜数,并且都为各个行业带来了可观的效益,甚至改善了人们的生活水平。随着大数据的应用越来越广泛,应用的行业也越来越多,我们每日都可以看到大数据的一些新颖的应用,从而帮助人们从中获取到真正有用的价值。

云计算与大数据是什么关系?

云计算为大数据提供了有力的工具和途径, 大数据为云计算提供了有价值的用武之地。

云计算大数据分析与处理的一种重要方法,云计算强调的是计算,而大数据则是计算的对象。

如果数据是财富,那么大数据就是宝藏,云计算就是挖掘和利用宝藏的利器。

云计算以数据为中心,以虚拟化技术为手段来整合服务器、存储、网络、应用等在内的各种资源,形成资源池并实现对物理设备集中管理动态调配按需使用

借助云计算,可以实现对大数据的统一管理高效流通和实时分析,挖掘大数据的价值,发挥大数据的意义。

云计算环境成为大数据处理平台

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。

大数据和人工智能有什么关系?

大数据让人工智能变得更加智能, 人工智能让大数据变得更有价值

大数据是人工智能的基础,而使大数据转变为知识或生产力,离不开机器学习(Machine Learning),可以说机器学习是人工智能的核心,是使机器具有类似人的智能的根本途径。

机器学习的任务,就是要在基于大数据量的基础上,发掘其中蕴含并且有用的信息。其处理的数据越多,机器学习就越能体现出优势,以前很多用机器学习解决不了或处理不好的问题,通过提供大数据得到很好解决或性能的大幅提升,如语言识别、图像设别、天气预测等等。

机器学习本质上是利用统计学,概率论等数学手段来挖掘庞大数据里面的价值数据=>知识 ,从而实现预测正在发生或者未来发生的事物这样的能力。统计学从字面上就能理解了,你一两个数据能统计分析的准确吗?所以非得是极其庞大的数据量不可,一般来说,数据量越大,统计分析的越准确,当然,前提是这些数据都是高质量的

数据挖掘机器学习之间最核心的区别其实就是一个是基于历史数据来挖掘,一个是基于历史数据来预测。

大数据分析的常用方法有哪些?

数据挖掘分析领域最重要的能力是:能够将数据转化为非专业人士也能够清楚理解的有意义的见解,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析

一、描述型分析:发生了什么?

  这是最常见的分析方法。在业务中,这种方法向大数据分析师提供了重要指标和业务的衡量方法。例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据。了解客户的地理信息,就是“描述型分析”方法之一。利用可视化工具,能够有效的增强描述型分析所提供的信息。

二、诊断型分析:为什么会发生?

描述性数据分析的下一步就是诊断型数据分析。通过评估描述型数据,诊断分析工具能够让数据分析师深入地分析数据,钻取到数据的核心。良好设计的BI dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的分析数据。

三、预测型分析:可能发生什么?

  预测型分析主要用于进行预测。事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点,这些都可以通过预测模型来完成。预测模型通常会使用各种可变数据来实现预测。数据成员的多样化与预测结果密切相关。在充满不确定性的环境下,预测能够帮助做出更好的决定。预测模型也是很多领域正在使用的重要方法。

四、指令型分析:需要做什么?

  数据价值和复杂度分析的下一步就是指令型分析。指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。例如,交通规划分析考量了每条路线的距离、每条线路的行驶速度、以及目前的交通管制等方面因素,来帮助选择最好的回家路线。

大数据、数据分析和数据挖掘的区别

数据分析是一个大的概念,理论上任何对数据进行计算、处理从而得出一些有意义的结论的过程,都叫数据分析。从数据本身的复杂程度、以及对数据进行处理的复杂度和深度来看,可以把数据分析分为以下4个层次:数据统计,OLAP,数据挖掘,大数据。

数据统计是最基本、最传统的数据分析,自古有之。是指通过统计学方法对数据进行排序、筛选、运算、统计等处理,从而得出一些有意义的结论。 

联机分析处理(On-Line Analytical Processing,OLAP)是指基于数据仓库在线多维统计分析。它允许用户在线地从多个维度观察某个度量值,从而为决策提供支持。OLAP更进一步告诉你下一步会怎么样(What next),如果我采取这样的措施又会怎么样(What if)

数据挖掘是指从海量数据中找到人们未知的、可能有用的、隐藏的规则,可以通过关联分析、聚类分析、时序分析等各种算法发现一些无法通过观察图表得出的深层次原因。

例:

1在电商平台上购物,系统会给你推荐某些的商品,依据就是用户数据分析。

2今日头条之类的应用,推送的内容就是利用大数据和人工智能技术实现。

3.某些平台使用的智能客服机器人,就是利用大数据,借助深度学习训练出来的。

4.网易云音乐之类的产品,通过大数据分析给用户推荐歌曲、歌单。

常见的在线数据库有哪些?

在线数据库就是指提供 专业 的数据库支持的网站。 在线数据库将数据库放在 服务器 上,可供用户24小时不间断访问。

?????暂时没有找到答案

谈谈你对Hadoop的了解。

Hadoop是一个能够对量数据进行分布式处理软件框架

1、 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问文件系统中的数据。

2、Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则 MapReduce为海量的数据提供了计算。

把HDFS理解为一个分布式的,有冗余备份的,可以动态扩展的用来存储大规模数据的大硬盘。

把MapReduce理解成为一个计算引擎,按照MapReduce的规则编写Map计算/Reduce计算的程序,可以完成计算任务。

3、它主要有以下几个优点

高可靠性Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

高容错性Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

低成本与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

谈谈你对spark的了解。

Spark是一种快速、通用、可扩展的大数据分析引擎,是UC Berkeley AMP lab (加州大学伯克利分校AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,专门用于大规模数据的迭代式计算,是为了跟 Hadoop 配合而开发出来的,不是为了取代 Hadoop。2009年诞生,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。项目是用Scala进行编写

Spark 的 最 主 要 的 核 心 技 术 是 Resilient Distributed Datasets(RDD)即弹性分布式数据集,此外还包括 Spark有向无环图 DAGSpark部署模式以及Spark架构

Apache Spark是一个开源的、强大的分布式查询和处理引擎。它提供MapReduce的灵活性和可扩展性,但速度明显更高:当数据存储在内存中时,它比Apache Hadoop快100倍,访问磁盘时高达10倍。

Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。

spark比MapReduce快的原因:spark是基于内存进行数据处理的,MapReduce是基于磁盘进行数据处理的

Java和大数据到底是什么关系?

java可以用来做大数据工作,大数据开发或者应用不必要用java,可以Python,Scala,go语言等。

目前最火的大数据开发平台是Hadoop,而Hadoop则是采用java语言编写。一方面由于hadoop的历史原因,Hadoop的项目诞生于一个java高手;另一方面,也有Java跨平台方面的优势;基于这两个方面的原因,所以Hadoop采用了Java语言。但是也因为Hadoop使用了java所以就出现了市场上很多外行所说的“Java大数据”。

什么是神经网络?

神经网络,它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。

神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为“神经网络”或类神经网络。

用过哪些搜索引擎,他们的区别是什么

谷歌的优点:信息量广和百度比较能更有效的找到准确的信息而且广告少

缺点:链接不能及时更新中文网站检索查找效率不高网站快照漏洞大。

百度的优点:百度的使用者标准低能广泛适用于任何人操作难度低

缺点:信息准确率低广告多商业的信息多目标信息不准确

搜狗的优点:独立网站查找方便分类化查询

缺点:内容更新慢信息量少

什么是数据挖掘

数据挖掘是人工智能和数据库领域研究的热点问题,数据挖掘是指从数据库的大量数据中揭示出隐含的先前未知的并有潜在价值信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,作出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,作出正确的决策。

什么是深度学习?

深度学习(DL)是机器学习领域中一个新的研究方向。深度学习是学习样本数据内在规律表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。 深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。

深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。

大数据发展的瓶颈?


没有成熟的方法采集和处理大数据。
数据涉及到隐私,法律法规还没有完善。
大量不同类别的数据不知道怎么存储。
数据的独占性:有价值的数据别人不一定会分享

计算机视觉是什么?

计算机视觉是深度学习领域最热门的研究领域之一。计算机视觉:使用计算机模拟人的大脑视觉机理获取和处理信息的能力,例如进行图像目标的检测、识别、跟踪等任务。计算机视觉也是跨领域交叉学科,包括了统计学、计算机科学、数学,工程学,生物学等学科,最终的目标就是实现计算机对三维现实世界的理解,实现人类视觉系统的功能。更抽象的,计算机视觉可以是看作在图像等高维数据中的感知问题,包含了,模式识别,图像处理和图像理解等。

计算机视觉有实际的应用,例如:

人脸识别,如手机的人脸解锁,支付软件的人脸识别支付

图像检索:Google 使用基于内容的查询来搜索相关图片,算法分析查询图像中的内容并根据最佳匹配内容返回结果。

监测:各大公共场所中使用监视摄像头监测可疑行为。

生物识别技术:指纹、虹膜和人脸匹配

计算机视觉五大技术

图像分类,对象检测,目标跟踪,语义分割,实例分割

这5 种主要的计算机视觉技术可以协助计算机从单个或一系列图像中提取、分析和理解有用的信息

参考链接:

大数据和云计算有什么关系?_Shockang的博客-CSDN博客_云计算和大数据的关系

Hadoop是什么,能干什么,怎么使用

hadoop到底是什么_温润如风的博客-CSDN博客_hadoop是什么

Hadoop和Spark简单概述

初识 Hadoop

前沿技术

文章出处登录后可见!

已经登录?立即刷新

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
xiaoxingxing的头像xiaoxingxing管理团队
上一篇 2023年3月24日
下一篇 2023年3月24日

相关推荐