cover art

大数据的关键技术——数据仓库

2020 年 12 月 09 日发布

“数据仓库”是一种数据库系统。我们现在经常说的“大数据”很多时候正是在“数据仓库”这种系统中进行查询和分析。这一集节目,我们来聊一聊数据仓库是什么、它的历史、它的关键技术,以及相关系统。

主播:斯图亚特、Sean Wang、Cat Chen
剪辑:王立冰

时间线

  • 01:34 什么是数据仓库
  • 12:26 数据仓库的技术
  • 36:29 ETL :抽取(Extract)、转置(Transform)、载入(Load)
  • 43:06 数据仓库和机器学习

本期内容

什么是数据仓库

  • 两套数据库系统:运营系统和数据仓库
  • 数据仓库的历史
  • 互联网公司引领的数据仓库潮流

数据仓库的技术

  • 里程碑论文: Mike Stonebraker: "One size fits all": an idea whose time has come and gone (2005)
  • 列存储
  • 和运营系统技术特点的差别
  • MapReduce及其争议。
  • Hive开启的Hadoop生态系统中的SQL
  • 几大云数据仓库系统(Redshift、BigQuery,Azure,Snowflake)

ETL :抽取(Extract)、转置(Transform)、载入(Load)

  • 如何把数据载入数据仓库
  • 数据清洗和数据整合
  • HTAP(Hybrid transactional/analytical processing)

数据仓库和机器学习

播客邮件地址
host@avocadotoast.live

相关链接

封面图片:
Image by Pexels from Pixabay

片头片尾音乐
Exzel Music Publishing (freemusicpublicdomain.com)
Licensed under Creative Commons: By Attribution 3.0
http://creativecommons.org/licenses/by/3.0/
Courante 1st Cello Suite


往期节目