Skip to content

第十二卷:数据处理与数据科学

从数据中提炼真金——全链路数据工程与数据科学,从采集到治理。

📋 前置要求

需要编程基础。了解 SQL、基本统计概念(均值/方差)。先完成 Vol 1。

📌 卷号说明:本卷从原第十四卷调整至此,紧接编译原理(Vol 11),后接 AI/机器学习(Vol 13),因为数据预处理、特征工程是 ML 的必经之路。

本卷内容

数据是新时代的石油——但你得先学会怎么开采和提炼。本卷覆盖数据从采集、清洗、分析到治理的完整生命周期。与数据系统(Vol 5)的分工是:Vol 5 管数据库内核怎么存和查,本卷管数据怎么用、怎么管、怎么保证质量。

📋 章节一览

#章节名称内容概要前置
1数据生命周期采集、存储、处理、分析、归档、销毁全链路
2数据清洗缺失值、异常值、重复数据、格式统一、数据质量规则
3EDA 与可视化描述性统计、分布分析、相关性、pandas-profilingMath B
4SQL for Analysis分析型 SQL、窗口函数、OLAP 立方体Vol 5 ch1
5统计推断假设检验、置信区间、p 值、效应量Math B
6线性回归与模型诊断OLS、残差分析、多重共线性、正则化回归ch5, Math C
7特征工程编码、缩放、分箱、交叉特征、特征选择ch4
8抽样与因果推断随机对照、自然实验、DAG、工具变量ch5
9分布式数据处理Pandas 极限、Dask/Spark SQL、数据并行ch4
10数据伦理偏差、公平性、透明性、数据权利
11数据治理基础质量维度、数据目录、监控、SLAch1-2
12数据血缘与元数据血缘追踪、元数据管理、影响分析ch11
13Data Mesh 与数据产品领域数据所有权、数据产品、联邦治理ch11
14隐私合规与数据安全GDPR、数据脱敏、差分隐私、访问控制ch11, Vol 8

📌 前置知识:编程基础(Vol 1),数学 Math B(概率/统计),数据库基础(Vol 5 ch1),Python 基础

📌 完成标志:能独立完成从原始数据到分析报告的全流程;能设计数据质量监控体系;理解治理框架


本卷共 14 章,待编写

Built with VitePress | Software Systems Atlas