UCAS 2024 大数据分析复习笔记
总结一
大数据概念

数据驱动的自然语言处理
LSTM
RNN的基本概念
RNN的缺点
- 短时记忆
- 梯度消失
Sigmoid门控机制
LSTM的结构、三种门
LSTM的应用方法
文本分类
TextCNN模型的结构
文本大数据分析
文本表达
单词的表达方法

局部性表示和分布式表示的概念区别

- 局部性表示
- 分布式表示
- 横向组合关系模型
- LSI
- 纵向聚合关系模型
- 横向组合关系模型
分布式表示:横向组合关系模型
LSI:隐式语义索引
低秩逼近矩阵
LSI的算法流程(SVD降维)
分布式表示:纵向聚合关系模型
NPLM(神经网络概率语言模型)的概念和架构


C&W排序学习模型(NPLM的改进)

Word2Vector:两个模型、两种任务
GIoVe全局上下文模型
词向量研究-GloVe词向量原理详解-通俗易懂_glove向量-CSDN博客
概念:词-词共现矩阵
句子的表示方法
传统
词袋模型
tf-idf计算公式
基于单词分布式表示组合的表示方法
基于卷积神经网络(CNN)的分布式表示:TextCNN
基于循环神经网络(RNN)的分布式表示
基于递归神经网络(RecNN)的分布式表示
基于DAN(Deep Averaging Networks)的分布式表示

文本匹配
基于隐语义表达的文本匹配
文本->向量,计算相似度
文本匹配的评价方法
Accuracy
P@K
R@K
MAP
MRR
nDCG
知识图谱与知识计算
知识图谱的定义
三元组
实体抽取的标注
BIO
BIOES
关系抽取的方法
隐马尔可夫模型
LSTM-CRF
基于BERT
BERT
BERT的结构
BERT的优点
BERT的训练任务
BERT的应用案例
- 文本分类
- 实体抽取
知识推理(知识计算)
主要是Trans系列
翻译模型(一)(TransE、TransH、TransR) - 胡萝不青菜 - 博客园
翻译模型(二)(TransD、TransA、TranSparse) - 胡萝不青菜 - 博客园
TransE
E=embedding
TransH
TransR
TransA
总结二
map-reduce
主要讲了大数据分布式计算方法
主要讲了map-reduce框架
MapReduce技术原理 | 曹世宏的博客 (cshihong.github.io)
应用:
- 单词的统计问题(Word Count)
- 数据库join
map-reduce的三个阶段
- map
- group by key: sort and shuffle
- reduce
map-reduce的进一步改进方法:combiner,在mapper阶段使用reduce预先聚合
map-reduce的开销计算方法

相关性分析
相关性系数
- 皮尔森
- 斯皮尔曼
- 肯德尔
相似文档检测
Shilling
- Shilling求法,k-gram
- k必须足够大,否则几乎所有文档的shilling相同
- Jaccard similarity的求法,交集除以并集
- Shilling求法,k-gram
Min-Hash
- 深刻理解Min-Hashing的值相等的概率和shilling的Jaccard similarity的等价性证明

- 深刻理解Min-Hashing的值相等的概率和shilling的Jaccard similarity的等价性证明
LSH Local Sensitive Hash
- 关注LSH的算法思想
- 两个参数b brand和r rows
- 计算假阳性(fake positive)、假阴性(fake negative)的计算,注意利用“Min-Hashing的值相等的概率和shilling的Jaccard similarity的等价性”


- 掌握 Probability of sharing a bucket - Similarity t=sim(C1, C2) 的曲线图

CMS
- CMS的矩阵
- CMS的更新和查询方法

SVD分解降维
- 矩阵分解的算法
- SVD分解的公式,每个矩阵的特征
- SVD降维的含义
- 如何理解降维:
- 最小化重建的损失(reconstruction error),这个损失可以用范数定义(误差平方和的二次方根)
- 有一个证明题:$A=USV^T$,SVD降维的矩阵A的行坐标在第一个右特征向量上的投影是US的第一列
- 如何理解降维:
最小均方回归的优化方法
决策树
决策树的节点划分
划分方法:选择最优划分(最大化信息增益)
信息熵

信息增益的计算


随机森林
定义
由分类树或者回归树组成,随机选取样本,随机选取特征,最终结果投票表决或者取平均
优缺点
梯度提升决策树(GBDT)
BDT
GBDT
XGB
GBDT的优缺点
对比随机森林和GBDT的异同点
神经网络
Dropout的概念
神经元以p的概率失活。相当于每个epoch在训练不同的模型
Earlystopping的概念
训练过程中使用验证集,在验证集上loss上升则说明过拟合,可以停止
BatchNorm
主要是归一化隐藏层的数据范围
Momentum
带动量的随机梯度下降,保存前几个的梯度方向
大图算法
Near Linear的启发式算法、Fraudar算法(算是一种改进)
算法伪代码
下届的证明
谱图分析方法:EigenSpoke
分析谱空间的现象:

基于瑞利熵:SpecGreedy
高维密集子图:D-cube算法
流式图中的密集子图EigenPulse算法
PageRank
Pagerank的基本概念
Pagerank的矩阵形式
PageRank里的一个求解方法的正确性证明
出现spider trap和dead end时的解决方法:Google Page Rank
- 注意:这里有两种算法伪代码,需要掌握
SimRank的概念
对抗攻击
分为两类:
- 逃逸攻击
- 对测试集
- 中毒攻击
- 对训练集
逃逸攻击
主要在于生成对抗性样本
梯度符号攻击
梯度符号攻击的原理、公式
主要在于沿着梯度的方向增加图像扰动,使得loss最大化
对抗梯度符号攻击的方法:训练过程中引入对抗目标函数
梯度符号攻击的性质总结
GAN生成对抗样本
中毒攻击
模型鲁棒性准确率的定义
对image分类模型以外的NN模型的攻击
针对graph模型的攻击
attaker集合和target
直接攻击和间接攻击
对抗针对graph模型(GCN graph convolution model)的攻击
Low-Pass Message Passing技术
对抗的攻击模式:改变相邻的节点的连接关系,导致有一个large的值传递到target节点,从而使得target节点的输出预测值错误
原理:加了一个参数调节相邻节点对当前节点的“影响”,如果这个影响过大,则系数为1,即为无影响。


