第十二卷:数据处理与数据科学
从数据中提炼真金——全链路数据工程与数据科学,从采集到治理。
📋 前置要求
需要编程基础。了解 SQL、基本统计概念(均值/方差)。先完成 Vol 1。
📌 卷号说明:本卷从原第十四卷调整至此,紧接编译原理(Vol 11),后接 AI/机器学习(Vol 13),因为数据预处理、特征工程是 ML 的必经之路。
本卷内容
数据是新时代的石油——但你得先学会怎么开采和提炼。本卷覆盖数据从采集、清洗、分析到治理的完整生命周期。与数据系统(Vol 5)的分工是:Vol 5 管数据库内核怎么存和查,本卷管数据怎么用、怎么管、怎么保证质量。
📋 章节一览
| # | 章节名称 | 内容概要 | 前置 |
|---|---|---|---|
| 1 | 数据生命周期 | 采集、存储、处理、分析、归档、销毁全链路 | — |
| 2 | 数据清洗 | 缺失值、异常值、重复数据、格式统一、数据质量规则 | — |
| 3 | EDA 与可视化 | 描述性统计、分布分析、相关性、pandas-profiling | Math B |
| 4 | SQL for Analysis | 分析型 SQL、窗口函数、OLAP 立方体 | Vol 5 ch1 |
| 5 | 统计推断 | 假设检验、置信区间、p 值、效应量 | Math B |
| 6 | 线性回归与模型诊断 | OLS、残差分析、多重共线性、正则化回归 | ch5, Math C |
| 7 | 特征工程 | 编码、缩放、分箱、交叉特征、特征选择 | ch4 |
| 8 | 抽样与因果推断 | 随机对照、自然实验、DAG、工具变量 | ch5 |
| 9 | 分布式数据处理 | Pandas 极限、Dask/Spark SQL、数据并行 | ch4 |
| 10 | 数据伦理 | 偏差、公平性、透明性、数据权利 | — |
| 11 | 数据治理基础 | 质量维度、数据目录、监控、SLA | ch1-2 |
| 12 | 数据血缘与元数据 | 血缘追踪、元数据管理、影响分析 | ch11 |
| 13 | Data Mesh 与数据产品 | 领域数据所有权、数据产品、联邦治理 | ch11 |
| 14 | 隐私合规与数据安全 | GDPR、数据脱敏、差分隐私、访问控制 | ch11, Vol 8 |
📌 前置知识:编程基础(Vol 1),数学 Math B(概率/统计),数据库基础(Vol 5 ch1),Python 基础
📌 完成标志:能独立完成从原始数据到分析报告的全流程;能设计数据质量监控体系;理解治理框架
本卷共 14 章,待编写