第十二卷：数据处理与数据科学

从数据中提炼真金——全链路数据工程与数据科学，从采集到治理。

📋 前置要求

需要编程基础。了解 SQL、基本统计概念（均值/方差）。先完成 Vol 1。

📌 卷号说明：本卷从原第十四卷调整至此，紧接编译原理（Vol 11），后接 AI/机器学习（Vol 13），因为数据预处理、特征工程是 ML 的必经之路。

数据是新时代的石油——但你得先学会怎么开采和提炼。本卷覆盖数据从采集、清洗、分析到治理的完整生命周期。与数据系统（Vol 5）的分工是：Vol 5 管数据库内核怎么存和查，本卷管数据怎么用、怎么管、怎么保证质量。

#	章节名称	内容概要	前置
1	数据生命周期	采集、存储、处理、分析、归档、销毁全链路	—
2	数据清洗	缺失值、异常值、重复数据、格式统一、数据质量规则	—
3	EDA 与可视化	描述性统计、分布分析、相关性、pandas-profiling	Math B
4	SQL for Analysis	分析型 SQL、窗口函数、OLAP 立方体	Vol 5 ch1
5	统计推断	假设检验、置信区间、p 值、效应量	Math B
6	线性回归与模型诊断	OLS、残差分析、多重共线性、正则化回归	ch5, Math C
7	特征工程	编码、缩放、分箱、交叉特征、特征选择	ch4
8	抽样与因果推断	随机对照、自然实验、DAG、工具变量	ch5
9	分布式数据处理	Pandas 极限、Dask/Spark SQL、数据并行	ch4
10	数据伦理	偏差、公平性、透明性、数据权利	—
11	数据治理基础	质量维度、数据目录、监控、SLA	ch1-2
12	数据血缘与元数据	血缘追踪、元数据管理、影响分析	ch11
13	Data Mesh 与数据产品	领域数据所有权、数据产品、联邦治理	ch11
14	隐私合规与数据安全	GDPR、数据脱敏、差分隐私、访问控制	ch11, Vol 8

📌 前置知识：编程基础（Vol 1），数学 Math B（概率/统计），数据库基础（Vol 5 ch1），Python 基础
📌 完成标志：能独立完成从原始数据到分析报告的全流程；能设计数据质量监控体系；理解治理框架

本卷共 14 章，待编写