【StartDT Talk】系列直播第十期圆满收官!
来源:24直播网2025-05-11 08:28:40
本期直播聚焦于“站在2025,回顾数据时代过去的50年”这一主题,由奇点云创始人行在、StartDT资深战略咨询专家何夕,从“数据库、数据仓库、大数据平台、数据+AI”4个阶段,带领大家一起回顾数据在50年间发生的变化,并分享各个阶段有趣的故事,探讨数据平台在AI时代发挥的作用,以及数据在未来的应用前景。
文末点击阅读全文or扫描二维码,即可观看完整回放。
下文基于直播内容编辑,略有删减。
一、数据库阶段(1970-1990)
从1970年到1990年间,数据库技术经历了从理论研究到广泛应用的关键发展阶段。1970年,IBM的研究员科德(Edgar Frank Codd)发表论文《大型共享数据库的数据关系模型》(A Relational Model of Data for Large Shared Data Banks),提出关系模型,为数据管理引入了一种新的、更为结构化的方式。1974年,IBM的博伊斯(Ray Boyce)和钱伯林(Don Chamberlin)开发出的SQL语言,成为关系型数据库的重要基石。
随着SQL语言的发展,数据库技术进入了商业化阶段。1980年,Oracle推出了其首个商用关系型数据库Oracle V2,标榜符合SQL标准,迅速在市场上占据了重要位置。
1978年,中国引进了IBM的大型计算机,开始学习和应用数据库技术。1980年代,国内越来越多企业认识到数据库的重要性,开始建立自己的MIS(管理信息系统)。
随着企业内部信息系统的普及,数据孤岛挑战浮出水面。奇点云创始人行在也在职业经历中提到,2002年,他帮助所在公司建立整个集团的数据仓库,将分散在各个系统中的历史数据集中存储起来,这对于长期趋势分析和预测建模尤为重要。
二、 数据仓库阶段(1990-2009)
1990年,数据仓库的鼻祖比尔·恩门(Bill Inmon)提出数据仓库的定义:“面向主题的、集成的、稳定的和随时间变化的数据集合”。展开来讲,数据仓库是围绕人或功能等(面向主题),整合多源数据(集成的),稳定存储以确保分析的可靠性(稳定的),并且记录数据的历史变化以便追踪趋势(随时间变化)的数据集合。1991年,比尔出版《如何构建数据仓库》(Building the Data Warehouse),标志着数据仓库真正开始应用。
在1990年至2009年间,数据仓库技术经历了从萌芽到成熟的关键阶段。初期,为了解决随着业务系统和数据系统专业化、精细化发展所带来的数据孤岛问题,Teradata于1995年推出Active Data Warehouse,提供实时数据分析能力,成为大型企业优化供应链、客户管理等核心工具。
到了2003-2006年,谷歌发表“三驾马车”,奠定了大规模分布式存储系统的理论基础。2006年,道哥(Doug Cutting)基于谷歌的GFS和MapReduce开发的Hadoop,成为大数据处理的开源框架,极大地促进了大数据生态系统的发展,以及全世界大数据技术研究和应用的普及。
国内于1990年引入国外数据仓库技术,并在政府和大型企业中率先应用。2004年,阿里率先建立自己的数据仓库,随后百度、腾讯等也开始着手建立。这一时期,数据仓库不仅帮助企业整合分散的数据资源,还支持了更深入的商业化分析,成为企业决策的重要支撑工具。
三、大数据平台阶段(2009-2015)
2008年,阿里提出“去IOE”,即逐步淘汰IBM小型机、Oracle数据库和EMC存储系统,旨在减少数据存储成本,提升数据使用效率和灵活性。2009年,阿里云计算公司成立,为“去IOE”提供技术支持。2011年,阿里自研“飞天”云计算平台开始对外提供服务。2012至2015年间,阿里逐步在淘宝、支付宝等核心业务中实施“去IOE”,将部分海量数据应用从集中式的Oracle数据库切换到分布式MySQL集群,逐渐用X86服务器替代了小型机,用分布式存储系统替代了EMC存储设备。
与此同时,大数据的概念在全球范围内迅速发展,2011年,麦肯锡发布报告《大数据:下一个创新、竞争和生产率的前沿》(Big data: The next frontier for innovation, competition, and productivity),标志着大数据时代的正式到来。传统的Hadoop数仓架构逐步升级到围绕Flink为核心的云原生技术架构,实现了从离线处理到实时处理的转变。
2012年,依赖于“去IOE”所建立起来的技术基础设施,行在在阿里搭建了TCIF(淘宝消费者信息库),能够整合分散在各BU的数据资源,并形成One Data体系(OneID、OneModel、OneService),提供支持更加精准的广告投放和个性化推荐,极大地提升了营销效果和用户体验。
可以说,“去IOE”是伴随着大数据概念发生的,它不仅是为了降低成本,增加技术可控,更是为了构建一个能够高效处理海量数据、支持复杂分析需求的大数据平台,为阿里及更多企业提供了灵活、可扩展的技术基础,促进了大数据应用的发展,也为未来数据驱动与智能发展打下牢固的基石。
四、 数据中台+AI阶段(2015-至今)
2015年,阿里率先提出了“中台”的概念,通过构建“大中台,小前台”的组织和业务体制,让中台能够同时支撑多个业务,并促进业务之间的信息交互和增强。其核心在于对数据能力进行抽象、共享和复用,从而实现全局管理和统一规范,并形成大数据资产层,为客户提供高效的服务,帮助企业数智化转型。
然而,“数据中台”并非适用于所有规模的企业。其成功实施需要企业具备足够的规模、复杂的组织结构以及多样化的业务需求,同时还需备强有力的领导力与执行力。因此,能够真正从中受益的企业有限。许多中小型企业最终选择了更为简单直接的技术解决方案,如数据仓库或数据平台。
随着技术的发展,AI与数据之间的联系变得更加紧密。AI和大模型训练依赖高质量的数据支持,而AI技术的进步也推动了数据治理的智能化和自动化。两者呈现出类似钟摆“Tick-Tock”的关系交替进步,共同发展。
目前,大模型应用已跨越技术拐点,算力和基础设施的快速进步为复杂模型提供了坚实基础,同时开发成本大幅降低。例如,杭州DeepSeek-V3在多项指标上超过了全球包括GPT-4o在内的其他大模型,但却用了不到同行十分之一的成本。随着这些因素的改善,基于AGI的(通用人工智能)第一原生应用作为AI Agent,预计于2025年开始大面积出现,并于2026年迎来爆发。
不论是现在还是未来,数据都是AI的基础,企业应当认真思考如何更好地让数据for AI,充分利用数据驱动价值。另外,未来市场对数据基础设施的需求分化明显,一种是使用Hadoop、Hive等引擎对数据治理有较高要求的大型客户,另一种是数据量不大,追求轻量化工具的中小型客户。
对此,我们的DataSimba都能提供灵活适配的解决方案。感兴趣的朋友可以联系小奇或者后台私信我们~
上一篇 >
总决赛集结,北京必胜!决战到底!
总决赛集结,北京必胜!决战到底!
下一篇 >
1、7:00,克利夫兰骑士VS奥兰多魔术
1、7:00,克利夫兰骑士VS奥兰多魔术