Lec 1¶
5V's of big data¶
- Volume
 - 总量大
 - Velocity
 - 产生速度快
 - Variety
 - 
形式多样:structured, semi-structured and unstructured
- 结构化数据
 - 示例: 数据库中的客户信息表,包含客户姓名、年龄、地址、电话号码等信息。
 - 特点: 数据具有固定的格式和模式,可以很容易地存储和分析。
 - 半结构化数据
 - 示例: XML文件,例如RSS订阅源或商品目录。
 - 特点: 数据具有一定的格式,但可能不完全一致。
 - 非结构化数据
 - 示例: 文本文件、图像、视频、社交媒体帖子等。
 - 特点: 数据没有任何格式,需要进行解析才能提取有效信息。
 
 - 
Value
 - 个体价值低
 - 整体价值高
 - Veracity
 - 来源多样
 - 真实性难以验证
 
更严格的形式¶
- 不能集中存储
 - 在合理的时间内难以处理
 - 个体价值低、整体价值高
 
大数据的例子¶
- 物理世界产生的大数据:科研大数据
 - 基因工程
- 基因测序量的增长速度远超科研的数据
 
 - 天文数据
- 观测、模拟的数据
 
 - 电子对撞机
- 数据产生量为 1PB/sec
 - 我们要从 1PB/sec 减小至 320MB/sec
 
 - 人类活动产生的大数据:人类大数据
 - 搜索引擎、门户网站
 - 社交媒体
- 比较重要的,如:社交网
 
 - 通信网络
 - 金融网络
- 商业关系、现金流等等
 
 
TDA¶
Brief History¶
TDA 源于 Computational Topology,而后者又由 Computational Geometry。
对于一个(数学概念),我们要知道:
- 具体概念
 提出背景/动机
应用领域
PD 计算¶
总体而言:
- 先用持续同调来算出每个同调群 \(H_k\) 的每个元素(i.e. 拓扑特征)的持续时间。得到 barcode,然后转为二维点阵(x-axis: birth, y-axis: death)
 - 然后可以用 (Discrete) Wasserstein Metric 计算出两个点阵之间的 distance
 
向量化¶
首先将二位点阵进行线性变换,将纵坐标从死亡时间变成持续时间。
然后将每个点当作高斯核函数的中心,从而计算出一个标量场。
将这个标量场光栅化,称为“持续图”。
最后,一行一行/一列一列地变成向量。
- 可以证明,这样的向量化是稳定的(i.e. 向量的 L^2 距离小于二位点阵的 Wasserstein 距离)
 
标量场的PD计算¶
如图,通过下水平集重建的方式如下。
