UCAS 2024 大数据分析复习笔记

总结一

大数据概念

image-20241223001711213

数据驱动的自然语言处理

LSTM

RNN的基本概念

RNN的缺点

  • 短时记忆
  • 梯度消失

Sigmoid门控机制

LSTM的结构、三种门

LSTM的应用方法

文本分类

TextCNN模型的结构

文本大数据分析

文本表达

单词的表达方法

image-20241223112049828

局部性表示和分布式表示的概念区别

image-20241223112212242

  • 局部性表示
  • 分布式表示
    • 横向组合关系模型
      • LSI
    • 纵向聚合关系模型

分布式表示:横向组合关系模型

LSI:隐式语义索引
低秩逼近矩阵
LSI的算法流程(SVD降维)

分布式表示:纵向聚合关系模型

NPLM(神经网络概率语言模型)的概念和架构

image-20241223114152031

image-20241223114204215

C&W排序学习模型(NPLM的改进)

image-20241223114450822

Word2Vector:两个模型、两种任务
GIoVe全局上下文模型

词向量研究-GloVe词向量原理详解-通俗易懂_glove向量-CSDN博客

概念:词-词共现矩阵

句子的表示方法

传统
词袋模型
tf-idf计算公式
基于单词分布式表示组合的表示方法
基于卷积神经网络(CNN)的分布式表示:TextCNN
基于循环神经网络(RNN)的分布式表示
基于递归神经网络(RecNN)的分布式表示
基于DAN(Deep Averaging Networks)的分布式表示

image-20241223134705506

文本匹配

基于隐语义表达的文本匹配

文本->向量,计算相似度

文本匹配的评价方法

Accuracy

P@K

R@K

MAP

MRR

nDCG

知识图谱与知识计算

知识图谱的定义

三元组

实体抽取的标注

BIO

BIOES

关系抽取的方法

隐马尔可夫模型

LSTM-CRF

基于BERT

BERT

BERT的结构

BERT的优点

BERT的训练任务

BERT的应用案例

  • 文本分类
  • 实体抽取

知识推理(知识计算)

主要是Trans系列

翻译模型(一)(TransE、TransH、TransR) - 胡萝不青菜 - 博客园

翻译模型(二)(TransD、TransA、TranSparse) - 胡萝不青菜 - 博客园

TransE

E=embedding

TransH

TransR

TransA

总结二

map-reduce

主要讲了大数据分布式计算方法

主要讲了map-reduce框架

MapReduce技术原理 | 曹世宏的博客 (cshihong.github.io)

  • 应用:

    • 单词的统计问题(Word Count)
    • 数据库join
  • map-reduce的三个阶段

    • map
    • group by key: sort and shuffle
    • reduce
  • map-reduce的进一步改进方法:combiner,在mapper阶段使用reduce预先聚合

  • map-reduce的开销计算方法

image-20241223155426436

相关性分析

相关性系数

  • 皮尔森
  • 斯皮尔曼
  • 肯德尔

相似文档检测

  • Shilling

    • Shilling求法,k-gram
      • k必须足够大,否则几乎所有文档的shilling相同
    • Jaccard similarity的求法,交集除以并集
  • Min-Hash

    • 深刻理解Min-Hashing的值相等的概率和shilling的Jaccard similarity的等价性证明
      image-20241223173449766
  • LSH Local Sensitive Hash

    • 关注LSH的算法思想
    • 两个参数b brand和r rows
    • 计算假阳性(fake positive)、假阴性(fake negative)的计算,注意利用“Min-Hashing的值相等的概率和shilling的Jaccard similarity的等价性”
      image-20241223174557959
      image-20241223174609321
    • 掌握 Probability of sharing a bucket - Similarity t=sim(C1, C2) 的曲线图
      image-20241223175953854

CMS

  • CMS的矩阵
  • CMS的更新和查询方法

image-20241223182357335

SVD分解降维

一步步教你轻松学奇异值分解SVD降维算法 | 白宁超的官网

  • 矩阵分解的算法
  • SVD分解的公式,每个矩阵的特征
  • SVD降维的含义
    • 如何理解降维:
      • 最小化重建的损失(reconstruction error),这个损失可以用范数定义(误差平方和的二次方根)
    • 有一个证明题:$A=USV^T$,SVD降维的矩阵A的行坐标在第一个右特征向量上的投影是US的第一列

最小均方回归的优化方法

决策树

决策树的节点划分

划分方法:选择最优划分(最大化信息增益)

信息熵

image-20241223233031371

信息增益的计算

image-20241223233315807

image-20241223233322709

随机森林

定义

由分类树或者回归树组成,随机选取样本,随机选取特征,最终结果投票表决或者取平均

优缺点

梯度提升决策树(GBDT)

BDT

GBDT

XGB

GBDT的优缺点

对比随机森林和GBDT的异同点

神经网络

Dropout的概念

神经元以p的概率失活。相当于每个epoch在训练不同的模型

Earlystopping的概念

训练过程中使用验证集,在验证集上loss上升则说明过拟合,可以停止

BatchNorm

主要是归一化隐藏层的数据范围

Momentum

带动量的随机梯度下降,保存前几个的梯度方向

大图算法

Near Linear的启发式算法、Fraudar算法(算是一种改进)

算法伪代码

下届的证明

谱图分析方法:EigenSpoke

分析谱空间的现象:

image-20241224001504709

基于瑞利熵:SpecGreedy

高维密集子图:D-cube算法

流式图中的密集子图EigenPulse算法

PageRank

Pagerank的基本概念

Pagerank的矩阵形式

PageRank里的一个求解方法的正确性证明

出现spider trap和dead end时的解决方法:Google Page Rank

  • 注意:这里有两种算法伪代码,需要掌握

SimRank的概念

对抗攻击

分为两类:

  • 逃逸攻击
    • 对测试集
  • 中毒攻击
    • 对训练集

逃逸攻击

主要在于生成对抗性样本

梯度符号攻击

FGSM:从论文到实战 - 先知社区

梯度符号攻击的原理、公式

主要在于沿着梯度的方向增加图像扰动,使得loss最大化

对抗梯度符号攻击的方法:训练过程中引入对抗目标函数
梯度符号攻击的性质总结

GAN生成对抗样本

中毒攻击

模型鲁棒性准确率的定义

对image分类模型以外的NN模型的攻击

针对graph模型的攻击

attaker集合和target

直接攻击和间接攻击

对抗针对graph模型(GCN graph convolution model)的攻击

Low-Pass Message Passing技术

对抗的攻击模式:改变相邻的节点的连接关系,导致有一个large的值传递到target节点,从而使得target节点的输出预测值错误

原理:加了一个参数调节相邻节点对当前节点的“影响”,如果这个影响过大,则系数为1,即为无影响。

image-20241223000224587

image-20241223000231815

image-20241223000240014


UCAS 2024 大数据分析复习笔记
https://blog.lalicghoust.cn/2025/07/20/UCAS-2024-大数据分析复习笔记/
作者
Sainthousand
发布于
2025年7月21日
更新于
2025年7月21日
许可协议