大模型时代的数据基础设施的演进

By 刘勋

議題

大模型时代的数据基础设施的演进

TR412-1 [[ new Date( '2024-08-03 05:40:00+00:00' ).toLocaleDateString('ja', {year: 'numeric', month: '2-digit', day: '2-digit'}) ]] [[ new Date( '2024-08-03 05:40:00+00:00' ).toLocaleTimeString('zh-Hant', {hour12: false, hour: '2-digit', minute:'2-digit'}) ]] ~ [[ new Date( '2024-08-03 06:10:00+00:00' ).toLocaleTimeString('zh-Hant', {hour12: false, hour: '2-digit', minute:'2-digit'}) ]] 中文 Chinese
加入行事曆 加入關注 加入關注 已關注

在大模型驱动之下的数据,能够让应用得到更高效、更准确、更个性化的提升,AI 已经在自然语言处理、推荐系统和数据分析等多种场景中得到了广泛使用,取得了显著的效果。大模型可以更好的优化数据,经过深度优化的数据可以更好的训练大模型,大模型和数据二者相辅相成。 我们将在本次演讲中介绍我们开源的 Gravitino 如何构建统一的元数据湖,以 Single Source Of Truth 的方式管理数据团队和 AI 团队的所有元数据,不仅填补了AI 模型元数据管理的空白,还提供 Java、Python 和 NodeJS 的客户端,让不同部门的数据团队, AI 团队和业务团队,无缝的完成数据 ETL,数据清洗,特征工程,模型训练、模型发布和 APP 与模型集成的全流程闭环,加速数据和 AI 的融合。 Gravitino 还提供支持多云的统一的 IAM 权限管理和统一的多数据源异构(结构化/非结构化)数据的读写,让 AI 团队可以充分利用公有云和私有数据中心的 GPU,存储,云服务等基础设施资源,降低模型训练的成本和周期。 同时也将分享小米、唯品会等互联网公司通过使用 Gravitino 解决 AI 模型训练中的遇到的问题和挑战。 演讲提纲: 大模型时代需要什么样的基础设施 Data Infra 到 AI Infra 的演变 技术挑战和解决方案 发展规划和未来展望

听众收益: 大模型时代的数据基础设施的最新发展趋势 如何让数据和 AI 无缝融合 如何安全高效的进行模型开发 如何有效的进行大模型的生命周期管理

Download Slide

講者

刘勋

刘勋

刘勋,有着二十年的软件开发经验,近十年一直从事大数据领域的开发工作,是 Apache 软件基金会的 Member 成员和孵化器导师,在 Apache 中孵化了多个开源项目,同时也是 Apache Hadoop 和 Zeppelin 的 Committer 成员。

刘勋是 Datastrato 公司的联合创始人和 COO,目前主要负责公司的开源项目 Gravitino 的运营工作。

講者

Ziva Li

Ziva Li

None

講者

Charlie Cheng

Charlie Cheng

None

Kaiyuanshe - Session Track 中國開源社跨境軌 CTHMJX general (30mins)