人工智能与大数据技术导论-13011知识点记录

2024年开始，因自考改革，新增了《人工智能与大数据技术导论》科目（豆瓣链接：https://book.douban.com/subject/30765078/）

下面是我依据考纲整理的知识点：

第1章“人工智能概述”

需要掌握：AI概念和历史发展；AI技术的成熟度；AI与云计算和大数据的关系。
1.1、AI概念：
人工智能是一门利用计算机模拟人类智能行为科学的统称，它涵盖了训练计算机使其能够完成自主学习、判断、决策等人类行为的范畴。
AI就是能够让机器做一些只有”人“才能做得好的事情。
1.2、AI历史发展
经历了三个阶段：
（1）1956-1976年，注重逻辑推理；
（2）1976-2006年，以专家系统为主；
（3）2006年-至今，重视数据、自主学习和认知智能时代；
1.3、AI技术的成熟度
主要集中在这几个领域：视觉识别（看）、自然语言理解（听）、机器人（动）、机器学习（自我学习能力）
在技术层面，AI分为感知、认知、执行三个层次。感知技术包括机器视觉、语音识别等各类应用人工智能技术获取外部信息的技术，认知技术包括机器学习技术，执行技术包括人工智能与机器人结合的硬件数据以及智能芯片的计算技术。
1.4、AI与云计算和大数据的关系
大数据和人工智能相辅相成，在人工智能的加持下，海量的大数据对算法模型不断训练，又在结果输出上进行优化，从而使人工智能向更为智能化的方向进步，大数据与人工智能的结合将在更多领域中击败人类所能够做到的极限。
大数据与云计算的关系如下：
（1）数据是资产，云为数据资产提供存储、访问和计算。
（2）当前云计算更偏重海量存储和计算，以及提供的云服务，运行云应用。但是缺乏盘活数据资产的能力，挖掘价值性信息和预测性分析，为国家、企业、个人提供决策方案和服务，是大数据的核心议题，也是云计算的最终方向。

第2章“AI产业”

需要掌握：基础层；技术层；应用层；产业发展趋势分析。
2.1、基础层
基础层包括芯片、传感器、大数据、云计算等领域，为AI提供数据或计算能力支撑。
芯片：包括GPU、FPGA等加速硬件与神经网络芯片，为深度学习提供计算硬件，是重点底层硬件。
云计算：主要为人工智能开发提供云端计算资源和服务，以分布式网络为基础，提高计算效率。
传感器：主要对环境、动作、图像等内容进行智能感知，这也包括指纹、人脸、虹膜、静脉等人体生物特征识别硬件及软件服务，是人工智能的重要数据输入和人机交互硬件，
大数据：来源于各个行业的海量数据为人工智能提供丰富的数据资源；大数据管理和大数据分析软件或工具为人工智能产业提供数据的收集、整合、存储、处理、分析、挖掘等数据服务。
2.2、技术层
在基础层之上，结合软硬件能力所实现的针对不同细分应用开发的技术。主要包括机器学习、计算机视觉、语音及自然语言处理三个方面；
机器学习：主要以深度学习、增强学习等算法研究为主，赋予机器自主学习并提高性能的能力。
计算机视觉：包括静动态图像识别与处理等，对目标进行识别、测量及计算。
语音及自然语言处理：包括语音识别和自然语言处理，研究语言的收集、识别理解、处理等内容，涉及计算机、语言学、逻辑学等学科。
2.3、应用层
应用层更新直接面对用户，具有更多的用户数据。对于人工智能的应用来说，技术平台、产业应用环境、市场、用户等因素都对人工智能产业化应用市场有很大的影响。如何实现人工智能产业自身的创新并应用到具体场景中将会是各行业发展的关键点。
当前主要应用场景：安防、制造业、服务业、金融、教育、传媒、法律、医疗、家居、农业、汽车
2.4、产业发展趋势分析
（1）平台崛起，技术、硬件、内容多方面资源进一步整合。
（2）人工智能技术继续向垂直行业下沉；
（3）产学研相结合，人才仍是抢夺的重点；
（4）厂商进入卡位战，不断发掘新的商业模式；
（5）中国仍需加大在算力、算法、大数据领域的发展，弥补技术弱势；
（6）伦理之争不止，AI终将取代部分人工；

第3章“数据”

需要掌握：大数据的概念；国内大数据现状；大数据计算模式；大数据技术；数据平台。
3.1、大数据的概念
（1）概念：一般意义上，大数据是指利用现有理论、方法、技术和工具难以在可接受的时间内完成分析计算、整体呈现高价值的海量复杂数据集合。
（2）特征：（4v ）
– volume 数据体量大
– variety 数据多样性
– value 价值密度低
– velocity 速度快
3.2、国内大数据现状
（1）政策持续完善；
（2）技术和应用逐步落地；
（3）数据产生价值难；
（4）问题与机遇并存；（打破数据孤岛、加强数据管理、深化领域应用）
3.3、大数据计算模式
计算模式分为批量计算和流式计算；
3.3.1 批量计算（Batch Computing):
概念：先进行数据的存储，然后对存储的静态数据进行集中计算。
使用场景：先存储后计算，实时性要求不高，准确性、全面性更重要；
典型系统：Hadoop
3.3.2 流式计算（Stream Computing):
概念：无法确定数据到来的时刻和顺序，也无法将全部数据都存储起来，当流动的数据到来后，在内存中直接进行数据的实时计算。
使用场景：无需先存储，可以直接进行数据计算，实时性要求严格，数据的精确度稍微宽松。
典型系统：Storm
3.3.3 流式大数据特征：实时、易失、突发、无序、无限
3.4、大数据技术
3.4.1 大数据分析算法：
（1）可视化分析；（2）数据挖掘算法；（3）预测性分析能力；（4）语义引擎；（5）数据质量和数据管理；
3.4.2 大数据技术分为大数据平台技术和大数据应用技术；
大数据平台技术：数据的采集、存储、流转、加工所需要的底层技术。
大数据应用技术：对数据进行加工，把数据转化成商业价值的技术，如算法，以及由算法衍生出来的模型、引擎、接口、产品等。
3.5、数据平台
3.5.1 作用：一个数据平台的出现不仅可以承担数据分析的压力，还可以对业务数据进行整合，从而从不同程度上提供数据处理的性能，基于数据平台实现更丰富的功能需求。
3.5.2 设计原则： p89
（1）数据集中和共享；
（2）数据标准统一；
（3）数据管理策略统一；
（4）减少数据复制；
（5）长期和短期相结合；
3.5.3 数据存储和计算
（1）常规数据仓库
（2）MPP(大规模并行处理）架构
（3）Hadoop分布式系统架构
3.5.4 数据建模：数据模型至少应包含：
（1）数据元（属性）定义；（2）数据类（对象）定义; （3）主数据管理；
3.5.5 数据目录：
（1）数据连接和发现的能力
（2）元数管理能力：
（3）检索筛选和用户自组织能力
（4）安全和共享能力
3.5.6 数据安全管控
（1）应用安全；（2）数据安全；（3）主机安全；（4) 网络安全; （5）物理安全；
3.5.7 数据准备-ETL
（1）数据清洗（Extract)：数据补缺、数据替换、格式规范化、主外键约束；
（2）数据转换（Transform): 数据合并、拆分、行列互换、数据验证
（3）数据加载（Load): 时间戳、日志表、全表对比、全表删除插入方式
3.5.8 数据平台总结
大数据平台实现数据的分层与水平解耦，沉淀公共的数据能力。分为三层：数据模型（技术）、数据服务和数据开发，通过数据建模实现跨域数据的整合和知识沉淀，通过数据服务实现对于数据的封装和开发，快速、灵活地满足上层应用的要求，通过数据开发工具满足个性化数据和应用的需要。

第4章“机器学习”

需要掌握：机器学习基本概念；数据预处理。
4.1、机器学习基本概念
1.1 概念：让机器从大量样本数据中自动学习其规则，并根据学习到的规则预测未知数据的过程。
1.2 本质：输入到输出的映射。类似人脑思考，机器经过大量样本的训练，获得了一定的经验（模型），从而产生了能够推测（推断或推理）新的事物的能力。
1.3 几个重要的术语：
（1）数据集 – dataSet ：样本数据，包含训练集、验证集、测试集
训练集：用于训练模型，确定模型中的参数；
验证集：用于模型的选择和优化；
测试集：用于对已经训练好的模型进行评估，评价其表现；
（2）目标/标签 -target :因变量，关注的结果
（3）特征 feature：自变量，用来解释和预测结果的其他变量；数据类型包括：数值型、分类型、文本、日期
1.4 机器学习的任务流程：
数据导入-》探索性分析-》数据清洗-》特征工程-》算法选择和优化-》模型训练和评估
4.2、数据预处理
包含探索性分析、数据清洗、特征工程
4.2.1 探索性分析
概念：通过图表等可视化工具对原始数据进行大致了解和初步分析的过程。
作用：（1）了解数据集的基本信息；（2）给数据清洗提供方向；（3）为特征工程提供方向；
4.2.2 数据清洗
脏数据的情况：
（1）存在重复记录的数据；
（2）存在不相关记录
（3）无用的特征信息；
（4）文字拼写错误
（5）信息格式不统一
（6）明显错误的离群值
（7）缺失数据
4.2.3 特征工程
从原始数据中找到合适的特征集的过程

第5章“模型”

需要掌握：模型概念；模型的训练；梯度下降法；模型的拟合效果；模型的评估与改进。

5.1、模型概念
模型刻画了因变量y和自变量x之间的客观关系，即y与x之间存在一种形象的客观规律在约束。模型是对处理变量关系的某种假设。
5.2、模型的训练
5.2.1 概念：训练一个模型就是从训练数据中确定所有权重和偏差的最佳值，参数的求解
训练的目标是找到让误差最小的权重和偏差。
5.2.2 均方误差 MSE: 是回归模型中的一个重要概念，描绘了整个考察的样本集中预测值和实际值的平均偏离程度。
5.2.3 误差函数是为了评估模型拟合的好坏，通常用误差函数来度量拟合的程度。误差函数极小化意味着拟合程度最好，对应的模型参数即为最优参数。
5.3、梯度下降法
5.3.1 类似贪心算法，每次梯度下降都选取局部最优解。如果误差函数是凸函数，梯度下降法得到的解一定是全局最优解（梯度为0）。
5.3.2 误差函数的最小值就是误差函数收敛的位置。
5.3.3 步长：在梯度下降迭代的过程中，每一步沿梯度负方向前进的长度。
5.3.4 常见梯度下降方法：
（1）批量梯度下降法；（2）随机梯度下降法；（3）小批量随机梯度下降法；
5.4、模型的拟合效果
5.4.1 欠拟合：模型过于简单，对于部分数据刻画较差，训练的时间不够；（实际应用中，出现较少）
5.4.2 过度拟合：参数过多，对训练集的匹配度太高、太准确，以至于在后面的预测过程中可能会导致预测值非常偏离合适的值，预测非常不准确。
5.4.3 过度拟合的处理方法：
（1）使用更多训练数据；
（2）使用正则化，改变误差函数，在误差函数原有的基础上加入惩罚项；
（3）早停法，在迭代过程中提早结束迭代；
（4）使用集成算法
（5）减少特征的数量
5.5、模型的评估和改进
5.5.1 回归模型
评价指标：均方误差-MSE 平均绝对误差-MAE
5.5.2 分类模型
评价指标：准确率、精确率、召回率、ROC曲线、误分率
（1）准确率 = 预测正确的样本数据 / 综样本数
误分率 = 1- 准确率
（2）精确率
预测为正的样本中确实为正值的比率
（3）召回率
所有真实值为正的样本中被我们预测为正值的比率。
5.5.3 模型改进
（1）使用更多人为标注的标签数据；
（2）手动进行误差分析；
（3）进行效果更好的Bias-Variance(偏差-方差）分析

第6章“机器学习算法”

需要掌握：算法概述；支持向量机算法；逻辑回归算法；KNN算法；决策树算法；聚类算法
6.1、算法概述
6.1.1 概念
机器学习算法可以描述为学习一个目标函数f，它能够最好地映射出输入变量x到输出变量y。
6.1.2 算法选择要考虑：
（1）数据的大小、质量和类型；
（2）完成计算所需要的时间
（3）任务的紧迫程度
（4）你需要对数据做什么处理
6.2、支持向量机算法（SVM)
6.2.1 选择一个超平面（一条直线），它能最好地将输入变量空间划分为不同的类（0/1）；超平面和最接近的点的距离看作一个差值，最好地超平面可以把所有数据划分为两个类，并且这个差值最大。
这些点称为支持向量。
6.2.2 对于线性不可分的情况，SVM的解决方案是通过核函数进行空间转换，将低位空间投射到高位空间中去，使经过变换后的样本点实现线性可分。本质上是线性分类器。
6.3、逻辑回归算法
6.3.1 是一种常见的分类模型，标签数据必须是离散型变量；逻辑回归的目的是找出每个输入变量对应的参数值。
6.3.2 合适用于处理二分类问题。、
6.3.3 最近的距离：欧几里得距离；其他距离：曼哈顿距离；切比雪夫距离；
6.4、K最邻近算法（KNN）
6.4.1 一种简单有效的算法，但计算量大，适合用于输入变量和输出预测变量最具有相关性的场景；
6.4.2 对于新数据点的预测：寻找整个训练集中K个最相似的样本（邻居），并对这些样本的输出变量进行总结。
6.5、决策树算法
6.5.1 用二叉树来解释决策树模型，不需要对数据做特殊处理，使用简单；具有极高的可解释性；容易出现过度拟合；
6.5.2 CART决策树模型
6.6、聚类算法
6.6.1 聚类
将数据分类到不同的类或者簇这样的一个过程，同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。非监督式学习；
6.6.2 K均值聚类-K-Means
（1）将n个数据样本划分成k个聚类的算法，使得同一聚类中的样本相似度较高，不同聚类样本的相似度较低。
（2）是一个反复迭代求解的过程，速度快；
6.6.3 均值漂移聚类
一个基于滑动窗口的算法，目标是定位每个组/类的中心点，通过将中心点的候选点更新为滑动窗口内点的均值来完成。
6.6.4 基于密度的聚类方法 DBSCAN
6.6.5 用高斯混合模型的最大期望聚类 GMMs
假设数据点是高斯分布的，用均值和标准差这2个参数来描述簇的形状。
6.6.6 凝聚层次聚类
6.6.7 图团体检测

第7章“深度学习”

需要掌握：深度学习概念；神经网络的训练；神经网络的优化和改进；卷积神经网络。
7.1、深度学习概念
7.1.1 概念：是把大量数据输入一个非常复杂的模型，让模型自己探索有意义的中间表达。
本质：用深度神经网络处理海量数据，属于机器学习的一种模型
优势：让神经网络自己学习如何抓取特征，整合了特征提取的过程，可以自动学习数据集的特征。
7.2、神经网络的训练
7.2.1 神经网络组成：由神经元、网状结构、激活函数构成；
7.2.2 神经网络计算过程：（1）对输入变量施加线性组合；（2）套用激活函数；（3）重复前2步；
7.2.3 深度神经网络：使用了多个隐藏层的神经网络，模型的准确率提高；
7.2.4 代价函数：衡量模型预测值和真实值之间的偏离程度。
7.2.5 正向传播：正常输入计算到数据的过程；
反向传播：为了优化代价函数，修正神经网络中参数的过程。目的是修正参数。
7.3、神经网络的优化和改进
7.3.1 优化的目的
让算法更快收敛，使得速度加快。
7.3.2 常见优化策略
（1）Mini-Batch （2）输入数据标准化；（3）动量方法（Momentum)
7.3.3 正则化方法
目的是防止模型过度拟合。
常见方式： L1/L2正则化； Dropout（随机失活）
7.4、卷积神经网络
7.4.1 卷积运算
将一个矩阵和另一个“矩阵乘子” 通过特定规则计算出一个新的矩阵的过程。
目的：提取输入的不同特征，第一层卷积层可能只能提取到一些低级的特征，如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。
7.4.2 卷积层
对上一层的输入数据进行卷积运算，将得到的结果传递给下一层。

第10章“神经网络”

需要掌握：神经网络概念；训练神经网络；多类别神经网络；嵌入。
10.1、神经网络概念
10.1.1 概念：是一种模仿人脑神经元工作方式的计算和学习系统。它通过将多个神经元按照一定的规则连接起来，形成一个网络，以实现对信息的处理和传递。神经网络通常包括输入层、隐藏层和输出层，其中同一层的神经元之间没有连接，而不同层的神经元之间通过权重相连。神经网络的训练过程包括前向计算和反向传播，通过梯度下降算法来调整网络的权重，以获得最佳的预测或分类结果。
10.1.2 标准组件：
（1）一组节点：类似于神经元，位于层中。
（2）一组权重：表示每个神经网络层于其下方的层之间的关系。下方的层可能是另一个神经网络层，也可能是其他类型的层。
（3）一组偏差，每个节点一个偏差。
（4）一个激活函数，对层中每个节点的输出进行转换。不同的层可能拥有不同的激活函数。
10.2、训练神经网络
10.2.1 训练过程：神经网络的训练包括前向（正向）传播（计算输出）和反向传播（调整权重），通过梯度下降算法来最小化预测输出与实际输出之间的误差。
10.2.2 归一化特征值：标准化，加快训练网络的收敛性，避免空值。
10.2.3 随机失活
可以减少过度拟合，提高准确率。
原理：对于同一组训练数据，利用不同的神经网络训练之后，求其输出的平均值可以减少过度拟合。随机失活每次失活一半的隐藏层神经元，相当于在不同的神经网络上进行训练，这样就减少了神经元之间的依赖性，即每个神经元不能依赖于某几个其他的神经元（是指层与层之间连接的神经元），使神经网络更加能学习到与其他神经元之间的更加健壮的特征。
10.3、多类别神经网络
3.1 模型会训练一些列二元分类器，使每个分类器都能回答单独的分类问题。
3.2 Softmax函数
为每个类别分配一个小数表示的概率，概率和为1。这种附加限制有助于让训练更快收敛。本质是逻辑回归的泛化。4.1
10.4、嵌入
10.4.1 概念
广泛应用于推荐系统中，是一种相对低维的空间，可以将高维向量映射到低维空间里。通过使用嵌入，可以使得在大型输入（比如代表字词的稀疏向量）上进行机器学习变得更加容易。
10.4.2 协同过滤：用来预测用户的兴趣
10.4.3 稀疏数据
10.4.4 获取嵌入
10.5 模型比较
线性模型 LinearClassifier ：没有太多要更新的参数或要反向传播的层，所以训练速度快；
深度神经网络（DNNClassifier)：提供额外模型的复杂性和能力

第11章“知识图谱”

需要掌握：知识图谱概念；知识图谱构建的关键技术。
11.1、知识图谱概念
11.1.1 概念
本质上，知识图谱旨在描述真实世界中存在的各种实体或概念机器关系，其构成一张巨大的语义网络图，节点表示实体或概念，边由属性或关系构成。泛指各种大规模知识库。
11.1.2 架构
包括自身的逻辑架构和构件知识图谱所采用的技术（体系）架构
11.1.3 构件知识图谱组成
（1）知识获取，主要是如何从非结构化、半结构化以及结构化数据中获取知识
（2）数据融合，主要是如何将从不同数据源获取的知识融合，构建数据之间的关联；
（3）知识计算及应用，关注的是基于知识图谱的计算功能以及基于知识图谱的应用。
11.1.4 在行业数据分析中的应用
（1）股票投研情报分析；
（2）公安情报分析；
（3）反欺诈情报分析
11.2、知识图谱构建的关键技术
知识图谱是一系列技术的组合，分成以下4个层次：
（1）知识提取：文本分析和抽取技术；
（2）知识融合：语义计算、数据整合和存储；
（3）知识加工：本体构建，分析推理；
（4）知识呈现：图谱可视化，搜索
11.2.1 知识提取：
（1）面向开放的链接数据：通常典型的输入是自然语言文本或者多媒体内容文档（图像或者视频）等，然后通过自动化或者半自动化的技术抽取出可用的知识单元，知识单元主要包括实体（概念的外延）、
关系以及属性3个要素，并以此为基础，形成一系列高质量的事实表达。
（2）非结构化数据：首先对非结构化数据提取正文，再通过自然语言技术识别文章中的实体，接着识别实体间的关系；
（3）半结构化数据：通过包装器学习半结构化数据的抽取规则，半结构化数据中具有大量的重复性结构，需要对数据进行少量的标注。
11.2.2 实体抽取方法
（1）基于百科或垂直站点抽取
（2）基于规则与词典的实体提取方法；
（3）基于统计机器学习的实体抽取方法；
（4）面向开放域的实体抽取方法；
11.2.3 语义类抽取
指从文本中自动抽取信息来构造语义类并建立实体和语义类的关联，作为实体层面上的规整和抽象。
（1）并列相似度计算；(2) 上下位关系提取（3）语义类生成；
11.2.4 属性和属性值抽取
（1）任务：为每个本体语义类构造属性列表（如城市的属性包括面积、人口、所在国家、地理位置），而属性值抽取则是为一个语义类的实体附加属性值。
（2）常用方法：
– 从百科类站点中提取
– 从垂直网站中进行包装器归纳
– 从网页表格中提取
– 利用手工定义或自动生成的模式从句子和查询日志中提取
11.2.5 知识融合
（1）概念：是高层次的知识组织，是来自不同知识源的知识在同一框架规范下进行异构数据整合、消除歧义、加工、推理验证、更新等步骤，达到数据、信息、方法、经验以及人的思想的融合，形成高质量的知识库。
（2）方法：实体对齐；知识加工；

第12章“数据挖掘”

需要掌握：数据挖掘概念；数据挖掘技术（方法）。
12.1、数据挖掘概念
12.1.1 概念
指有组织、有目的地收集数据、分析数据，并从大量数据中提取出有用的信息，从而寻找出数据中的规律、规则、知识以及模式、关联、变化、异常和有意义的结构。
12.1.2 数据挖掘和数据分析的区别
广义的数据分析包括狭义的数据分析和数据挖掘。
狭义的数据分析：指根据分析目的，用适当的统计分析方法及工具对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用。
数据挖掘是指从大量的数据中，通过统计学、人工智能、机器学习等方法挖掘出未知的、具有价值的信息和知识的过程。重点在于寻找未知的模式与规律。
12.2、数据挖掘技术（方法）
常用的方法有：分类、聚类、回归分析、关联规则、神经网络、特征分析、偏差分析等。
12.2.1 分类
概念：找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类。依靠给定的类别进行划分。监督式学习
主要分类方法：决策树、KNN法、SVM法、VSM法、Bayes法、神经网络等
应用：客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势分析
12.2.2 聚类
概念：指事先不知道任何样本的类别标号，按照对象的相似性和差异性，把一组对象划分成若干类，并且每个类里面对象之间的相似度较高，不同类里面对象之间的相似度较低或差异明显。非监督式学习方法。
应用：客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分
12.2.3 回归分析
概念:是一个统计预测模型，用以描述和评估因变量与一个或多个自变量之间的关系。反映的是事务数据库中属性值在时间上的特征，产生一个将数据项映射到一个实值预测变量的函数，发现变量或属性间的依赖关系。
应用：数据序列的趋势特征、数据序列的预测、数据间的相关关系等
12.2.4 关联规则
概念：隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。
12.2.5 神经网络方法
概念：因其自身自行的处理、分布存储和高度容错等特性，非常适合处理非线性的问题，以及那些以模糊、不完整、不严密的知识或数据为特征的问题。
12.2.6 Web数据挖掘
概念：指从Web文档结构和使用的集合中发现隐含的模式，从输入到输出的映射过程。
应用；用户的分类问题、网站内容时效性问题、用户在页面的停留时间问题、页面的链入与链出数问题
12.2.7 特征分析
概念：从数据库中的一组数据中提取出关于这些数据的特征式，这些特征式表达了该数据集的总体特征。

原文链接：https://blog.csdn.net/weixin_45773527/article/details/136788046