大模型时代的数据基础设施的演进 By 刘勋

議題

TR412-1 [[ new Date( '2024-08-03 05:40:00+00:00' ).toLocaleDateString('ja', {year: 'numeric', month: '2-digit', day: '2-digit'}) ]] [[ new Date( '2024-08-03 05:40:00+00:00' ).toLocaleTimeString('zh-Hant', {hour12: false, hour: '2-digit', minute:'2-digit'}) ]] ~ [[ new Date( '2024-08-03 06:10:00+00:00' ).toLocaleTimeString('zh-Hant', {hour12: false, hour: '2-digit', minute:'2-digit'}) ]] en

加入行事曆加入關注加入關注已關注

在大模型驱动之下的数据，能够让应用得到更高效、更准确、更个性化的提升，AI 已经在自然语言处理、推荐系统和数据分析等多种场景中得到了广泛使用，取得了显著的效果。大模型可以更好的优化数据，经过深度优化的数据可以更好的训练大模型，大模型和数据二者相辅相成。我们将在本次演讲中介绍我们开源的 Gravitino 如何构建统一的元数据湖，以 Single Source Of Truth 的方式管理数据团队和 AI 团队的所有元数据，不仅填补了AI 模型元数据管理的空白，还提供 Java、Python 和 NodeJS 的客户端，让不同部门的数据团队， AI 团队和业务团队，无缝的完成数据 ETL，数据清洗，特征工程，模型训练、模型发布和 APP 与模型集成的全流程闭环，加速数据和 AI 的融合。 Gravitino 还提供支持多云的统一的 IAM 权限管理和统一的多数据源异构（结构化/非结构化）数据的读写，让 AI 团队可以充分利用公有云和私有数据中心的 GPU，存储，云服务等基础设施资源，降低模型训练的成本和周期。同时也将分享小米、唯品会等互联网公司通过使用 Gravitino 解决 AI 模型训练中的遇到的问题和挑战。演讲提纲：大模型时代需要什么样的基础设施 Data Infra 到 AI Infra 的演变技术挑战和解决方案发展规划和未来展望

听众收益：大模型时代的数据基础设施的最新发展趋势如何让数据和 AI 无缝融合如何安全高效的进行模型开发如何有效的进行大模型的生命周期管理

Download Slide

講者

刘勋

刘勋，有着二十年的软件开发经验，近十年一直从事大数据领域的开发工作，是 Apache 软件基金会的 Member 成员和孵化器导师，在 Apache 中孵化了多个开源项目，同时也是 Apache Hadoop 和 Zeppelin 的 Committer 成员。

刘勋是 Datastrato 公司的联合创始人和 COO，目前主要负责公司的开源项目 Gravitino 的运营工作。

講者

Ziva Li

None

講者

Charlie Cheng

None

Kaiyuanshe - Session Track 中國開源社跨境軌 CTHMJX general (30mins)