在“大数据”概念诞生十多年后,数据仍然是大型企业和草创企业中最重要、添加最迅猛的创新驱动要素之一。从供给作为商业运作根底的脉搏查看,到通过机器学习实现日常使命的智能自动化,数据现已成为各种规划安排决议计划的中枢神经系统。此外,数据的运用现已远远超出了数据科学家、数据剖析师和数据工程师的范畴—每个人都是数据生产者和顾客。
这种对数据愈加重视的结果是:数据管理事务现已成为根底设施添加最快的范畴之一,据估计价值超越700亿美元,占2021年全部企业根底设施开销的五分之一以上。这个市场构成的原因在于,它结合了软件工程、剖析和人工智能范畴,同时适应了云核算的潮流势头。(有关这一巨大趋势背后的架构演变和驱动力的更多信息,能够参看《现代数据根底设施的新式架构》。)
曩昔几年,数据职业的发展也催生了一些令人兴奋和有影响力的企业软件公司。最近,Snowflake和Confluent等公共巨头现已改变了数千家企业的运营方式和数百万种产品的生产方式。可是,大多数人都不太熟悉那些有影响力的公司,也就是下一代界说类其他公司。
2021年,数据公司获得了数百亿美元的风险出资,打破了前史记录,2022年的风险出资也现已很微弱。咱们编制了Data50的第一批数据。这些是令人兴奋的数据类别中的领头羊公司。整体而言,这50家公司的价值超越1000亿美元,而且筹集了大约145亿美元的总本钱,其间20家到2021年已达到独角兽地位。
Data50公司包括类型有7个子类别:
AI/ML(人工智能/机器学习)、BI & Notebooks(商业智能和笔记本)、Customer Data Analytics(客户数据剖析)、Data Governance & Security(数据管理与安全)、Data Observability(数据可调查性)、ELT & Orchestration(ELT 与编列)、Query and Processing(查询与处理)。
1、查询和处理技能是访问、聚合和核算数据的中心引擎。它涉及两大类:批处理(如Databricks和Starburst)和实时处理(如ClickHouse和Imply)。在曩昔的几年里,因为对实时应用程序的需求不断添加,后者得到了越来越多的重视。
2、AI/ML(人工智能和机器学习)包括应用算法建模和机器学习处理大规划数据的软件。从上榜公司的数量来看,这一范畴正在老练和繁荣。一些参与者专心于一个特定类型的数据(例如自然语言的Rasa和Hugging Face),而另一些则专心于不同的范畴,例如AI的产品化(例如 Scale、Tecton和Weights and Biases)或充任用于运行AI工作负载(例如Anyscale)的“核算层”。
3、ELT和编列支持数据的移动。它是保证数据准确、准时到达目的地的传输层。此类别是从传统的ETL供货商演化而来的。另一方面,新类其他玩家大多是云原生的(例如Fivetran和dbt),对开发人员友好(例如Astronomer和Prefect),而且能够处理不同数据环境之间更杂乱的依赖关系。
4、随着数据仓库变得越来越杂乱而且涉及更多利益相关者,数据管理和安全性正成为关键问题。需要管理东西—尤其是在高度规范的职业—来确保数据的安全并在整个数据生命周期中保持一致性(例如OneTrust和Collibra)。这一类别相对较新,通常服务于受监管的大型企业公司。
5、传统上,客户数据剖析由营销团队担任。可是,因为其重要性日益添加,数据团队现在更多地参与将客户数据与中心数据平台集成。此类别侧重于捕获客户数据(例如Rudderstack和ActionIQ)或操作该数据以服务于一线事务用例(例如Census和Hightouch)。
6、BI & notebooks覆盖了数据的消费层。虽然它是一个老练的类别,但Preset或Metabase等新参与者正在采取开源优先的方法,并招引技能数据工程师以及商业智能团队。数据需求的快速改变性质也对迭代和交互式笔记本(例如Hex)和自动洞察生成(例如Sisu)产生了更多需求。
数据可调查性从软件工程仓库的最佳实践中罗致创意。随着数据仓库越来越依赖于上下游东西,而且数据的准确性具有更广泛的影响,可调查性成为供给跨数据流监控和诊断才能的最新类别。
虽然市场选用的首要推进力是数据量和运用量的添加,但每个类其他潜在驱动力是不同的。例如,查询和处理范畴的进步首要是由核算和存储的分离、迁移到云以及更廉价的核算才能驱动的。与此同时,在数据管理和数据可调查性中选用操作性东西在很大程度上是由不断添加的操作性用例和数据工作流的杂乱性驱动的。
以下为Data50公司名单(名称、类型、地址、估值规划及网站情况):
从细分视点(融资散布、数量散布、地址散布)看Data50:
查询和处理公司筹集了最大的本钱份额
查询和处理类别只占Data50中公司的五分之一,但出资在这一类其他资金数额(简直占全部资金的 50%)是惊人的。虽然这一数据受到了Databricks最近16亿美元融资的影响,但假如没有它,这一类别仍将占全部融资的37%,是下一个类其他两倍多。
从公司数量来看,散布更为均衡。就公司数量而言,AI/ML 是最大的类别,首要是因为该范畴仍在不断发展,需要一套新的独立东西来训练、测量和生产模型。(有关该范畴如何发展的更多信息,请阅览现代数据根底设施的新式架构。)
Data50会集在旧金山湾区
在这50家公司中,47家(94%)坐落美国,3家是跨国公司。其间33家公司坐落旧金山湾区,9家坐落华盛顿特区、费城、纽约和波士顿的I-95走廊沿线。其间两家坐落西雅图,一家坐落辛辛那提,还有一家坐落亚特兰大。
这种散布受到大规划数据生态系统前史位置的严重影响(例如,Oracle和Teradata都在湾区建立)。可是,咱们看到越来越多的数据公司(如Firebolt和Matillion)出现在全球各地,因为数据工程人才和对数据东西的需求简直广泛每个大陆。
AI/ML 类别推进了 2019 年新数据公司的激增
大多数 Data50 公司建立于 2014 年之后,在 AI/ML 东西爆破式添加的推进下,在2019 年左右达到顶峰。事实上,2019 年之后建立了更多的数据公司,可是因为咱们重视的是现已达到一定规划的公司,所以大多数新公司还没有出现在这个名单上。
每个类其他出资都在添加
从每个类其他出资来看,最显着的趋势是 AI/ML 公司比以往任何时候都获得了更多的出资者爱好,首要会集在早期阶段。 ELT 和编列也是如此——首要由来自 Fivetran 和 dbt 的巨轮驱动。 查询和处理公司持续招引大笔资金,虽然这些公司往往处于后期阶段。
本文作者为Jennifer Li、Sarah Wang、Jamie Sullivan。Jennifer Li是 a16z 的合伙人,她专心于企业公司。Sarah Wang是 a16z 的一般合伙人,专心于成长阶段的出资。Jamie Sullivan是 a16z Growth 出资团队的合伙人,专心于顾客、企业和金融科技范畴的后期公司。
在本文结束,作者指出,咱们坚信,未来10年将是数据的十年,包括根底设施、应用程序以及介于两者之间的全部。因此,咱们将持续看到创纪录的添加、资金和市值,咱们将在此列表中每年对其进行跟踪。