Lec 1
5V's of big data
- Volume
- 总量大
- Velocity
- 产生速度快
- Variety
-
形式多样:structured, semi-structured and unstructured
- 结构化数据
- 示例: 数据库中的客户信息表,包含客户姓名、年龄、地址、电话号码等信息。
- 特点: 数据具有固定的格式和模式,可以很容易地存储和分析。
- 半结构化数据
- 示例: XML文件,例如RSS订阅源或商品目录。
- 特点: 数据具有一定的格式,但可能不完全一致。
- 非结构化数据
- 示例: 文本文件、图像、视频、社交媒体帖子等。
- 特点: 数据没有任何格式,需要进行解析才能提取有效信息。
-
Value
- 个体价值低
- 整体价值高
- Veracity
- 来源多样
- 真实性难以验证
更严格的形式
- 不能集中存储
- 在合理的时间内难以处理
- 个体价值低、整体价值高
大数据的例子
- 物理世界产生的大数据:科研大数据
- 基因工程
- 基因测序量的增长速度远超科研的数据
- 天文数据
- 观测、模拟的数据
- 电子对撞机
- 数据产生量为 1PB/sec
- 我们要从 1PB/sec 减小至 320MB/sec
- 人类活动产生的大数据:人类大数据
- 搜索引擎、门户网站
- 社交媒体
- 比较重要的,如:社交网
- 通信网络
- 金融网络
- 商业关系、现金流等等
TDA
Brief History
TDA 源于 Computational Topology,而后者又由 Computational Geometry。
对于一个(数学概念),我们要知道:
- 具体概念
提出背景/动机
应用领域
PD 计算
总体而言:
- 先用持续同调来算出每个同调群 \(H_k\) 的每个元素(i.e. 拓扑特征)的持续时间。得到 barcode,然后转为二维点阵(x-axis: birth, y-axis: death)
- 然后可以用 (Discrete) Wasserstein Metric 计算出两个点阵之间的 distance
向量化
首先将二位点阵进行线性变换,将纵坐标从死亡时间变成持续时间。
然后将每个点当作高斯核函数的中心,从而计算出一个标量场。
将这个标量场光栅化,称为“持续图”。
最后,一行一行/一列一列地变成向量。
- 可以证明,这样的向量化是稳定的(i.e. 向量的 L^2 距离小于二位点阵的 Wasserstein 距离)
标量场的PD计算
如图,通过下水平集重建的方式如下。