> **来源:[研报客](https://pc.yanbaoke.cn)** # 数据库助力加速生成式AI转型 借助运营数据库,充分释放生成式AI潜力的实用指南 # 目录 生成式AI的成功之旅始于运营数据 02 数据库为企业级生成式AI应用和智能体提供核心驱动力 04 利用 Google Cloud 数据库和生成式 AI 实现 07 创新和转型 # 第1章 # 生成式AI的成功之旅始于运营数据 企业成功的关键在于数据,数据可以用来驱动应用、挖掘业务价值。企业早已在使用客户信息、财务交易和库存水平等运营数据来优化业务流程,提升客户体验。如今,生成式AI又极大地提高了数据的潜在价值。 生成式AI是解锁更多业务价值的关键,这一点早已不言而喻。它能够通过优化后的搜索功能和个性化帮助,变革客户互动方式。还能协助开发者和管理员完成任务,大幅提高团队工作效率。此外,它可承担日常重复性工作,让员工得以专注于创新与创造。 本指南将介绍如何通过运营数据库来充分发挥生成式AI的潜力,借助新一代AI工具提高员工工作效率。 # 生成式AI使现代化改造变得空前紧迫 领先企业已经纷纷开始在其工作流中使用生成式AI技术。生成式AI的迅速普及正在拉大各企业在市场上的差距。乐于接受该技术的企业将蒸蒸日上,而不愿接受的企业则会被时代所抛弃。 例如,通过将生成式AI与运营数据相结合,可以实时提供高度相关的回答,而这正是当今客户所看重的,也正是为客户提供个性化精准回答与通用回答的区别所在。 86% 的组织认为,通过集成生成式 AI 的数据库提供基于上下文且高度相关的用户体验,能够产生显著的积极影响。 然而,实施生成式AI技术并非易事,无法一蹴而就。许多组织发现,他们所用的旧数据库导致他们无法实现全新水平的数字化转型。 只有 $14\%$ 的组织对其旧数据库的 AI 支持状况感到满意或非常满意,这表明还有很大的改进空间。 旧数据库存在的问题很多,技术落后和用户体验不佳只是其中两例。随着生成式AI的发展,对数据库进行现代化改造的新需求迫在眉睫。这是因为最常用的用于处理向量、模型和智能体的AI工具都在云端运行。借助合适的工具,您可以在数据库中充分发挥生成式AI的能力,从而提供更优质的用户体验、提升工作效率并提高数据可用性。 那么,让我们开始吧。 领先企业早已将运营数据库和生成式AI相结合,在以下领域改善体验并提高业务价值: 客户服务 营销自动化 产品搜索 员工辅助 # TARGET 在零售行业,Target借助AlloyDBAI为其新一代电子商务搜索引擎提供核心驱动力。通过将庞大的产品目录转换为向量嵌入形式,Target可以执行相似性搜索,不仅能更好地了解购物者的意图,还能提供更具相关性的搜索结果,最终在大规模业务场景下提升客户体验。 # nuro 在自动驾驶汽车行业,Nuro借助AlloyDB为其自动驾驶送货车的开发提供核心驱动力。他们分析了PB级的复杂模拟和路测数据,通过运营高性能查询来快速识别特定事件,进而加速改进驾驶系统。 # NEUROPACE 在医疗设备行业,NeuroPace 使用 AlloyDB Omni 来寻找癫痫患者间相似的电生理特征,以帮助确定治疗方案。他们使用 AlloyDB AI 的嵌入功能直接在数据库中将患者的 iEEG(颅内脑电图)数据转换为向量表示法。 # 第2章 # 数据库为企业级生成式AI应用和智能体提供核心驱动力 基础模型是使用通用数据训练的大型机器学习 (ML) 模型。这类现成模型经济高效,是快速构建生成式 AI 应用和智能体的基础。然而,许多企业发现,仅靠这些模型不足以构建用户所需的基于上下文的高度精准体验。 在零售应用场景中,客户日益期望智能体提供库存水平、预计送货时间等最新信息。在企业内部,员工可以访问智能体,自助获取有关人力资源政策的准确信息。而通用训练模型无法满足企业级应用和智能体的需求。 这就是许多企业将基础模型接地在实时网络信息、企业数据(数据库和数据仓库)、企业应用(ERP、CRM和HR系统)以及其他相关信息来源的原因。 智能体正日益跨越多业务环节的数据进行联动。因此,模型与运营数据库的接地程度越深,智能体和生成式AI应用所释放的能力就越强大。 数据库迎来了真正的高光时刻,我们将看到组织如何借助运营数据库在基础模型与企业级生成式AI应用之间架起一座桥梁,实现基于上下文的个性化用户体验。” Andi Gutmans Google Cloud Data Cloud 副总裁兼总经理 # 强大的企业级AI智能体构建,围绕以下三大指导原则: # 准确性 提供准确、最新的信息 运营数据库可实时存储和处理您的数据,因此成为最新信息的最可靠来源。如果您的应用未集成此类数据,就无法充分发挥其能力。检索增强生成(RAG)技术则能让您将新鲜数据或特定领域数据嵌入基础模型,为构建生成式AI应用开辟了新机遇,使其能够为最终用户提供准确无误、内容详实且高度相关的答案。 # 上下文 提供高度相关的用户体验 通过引用便于更新的知识库,企业级生成式AI应用能够提供相关度更高的回答。 向量嵌入可将文本转换为数值表示法,使基础模型能够理解单词和短语之间的语义相似性。然后,通过向量搜索帮助模型从大量数据中快速找到相关度最高的信息。 RAG工作流可使用这些向量嵌入来检索相关数据,并将数据整合到基础模型提示中,以对提示进行优化。该方式可最大限度减少幻觉,为基础模型的回答提供更多上下文依据,从而提供更可靠的信息。 # 简单易用 方便开发者构建、操作和修改。 任何技术都依赖于使用它的人。因此,在使用您的数据库和生成式AI技术时,您的团队必须尽可能密切地协作。应用开发者熟知并理解运营数据库,能够与开发中的应用进行交互。现有基础框架已支持在企业中利用运营数据,无需学习全新系统。 Google Cloud 数据库内置向量支持,这意味着无需额外配置专用数据库。相反,您可以使用常规数据库简化嵌入的创建和访问流程。 # 应用场景示例:构建产品搜索智能体 客户希望获得及时、个性化的互动。借助RAG技术,生成式AI应用可实时访问运营数据库中存储的信息。 让我们来了解一下RAG在常见场景中的运作方式。在本场景中,我们以某玩具公司的购物智能体为例。该智能体采用标准基础模型,并通过其运营数据库中的实时库存和产品信息加以增强。 现在,有一位客户正在寻找适合五岁以下儿童的热门玩具。 借助基础模型,基础版聊天机器人已能回答各种关于库存状况和退货政策的基本问题。而通过RAG,聊天机器人还能基于库存水平或当前定价的最新信息,回答更多问题。 因此,该客户不仅会收到针对五岁以下儿童的玩具推荐,还会收到距离最近且有货的商店的相关信息。这种个性化回答可以提高销售转化率。 # 下面介绍RAG与运营数据库的协作机制: 01 内部数据通过嵌入模型存储在数据库中。 02 生成式AI应用通过嵌入模型将自然语言问题(“有哪些适合五岁以下儿童的热门玩具”)转换为向量。 03 利用嵌入模型对数据库进行语义搜索以检索相关产品,并根据库存水平对产品进行排序。 04 数据库返回搜索结果,并将其作为基础模型提示的一部分。 05 基础模型根据您的数据构建准确的答案,例如“以下是适合五岁以下儿童的现货热门玩具清单”。 # 第3章 # 利用 Google Cloud 数据库和生成式 AI 实现创新和转型 Google Cloud 可帮助组织构建生成式 AI 解决方案,并简化其所依赖的数据库的管理工作。借助 Google Data Cloud,数据团队可利用生成式 AI 工具充分发挥企业数据的价值,并通过内置功能直接便捷地应用 AI/ML 技术。例如,AlloyDB 和 BigQuery 中内置向量嵌入功能,允许用户在其数据存储区中存储和生成嵌入,以帮助其生成式 AI 应用场景落地。 您还可以轻松将自己的数据库连接至提供额外AI推理功能的外部服务(如Vertex AI),并与LangChain、LlamaIndex等编排框架集成。 以AI为核心,基于全球级基础设施打造业界领先的强大数据库套件。 # 更高效地构建企业级智能体 在我们的数据库产品组合中,Google Cloud 可提供卓越的向量嵌入和搜索能力。关系型数据库和非关系型数据库同样具备生成式 AI 功能,可对您的数据进行更深入、更具意义的洞察。 Google Cloud 数据库可轻松集成至您的开发者生态系统。它支持 MySQL、PostgreSQL、Oracle、SQL Server、Redis、Valkey、Cassandra 和 MongoDB 等主流开源及商业引擎,可确保运营效率、加快开发速度并降低总拥有成本 (TCO),让您能够按照自身节奏高效推进现代化改造。 Regnology 借助 AlloyDB 开发了一款监管报告聊天机器人。该聊天机器人旨在以更快的速度准确回答内部和外部用户提出的监管方面的问题。AlloyDB AI 可作为动态向量存储, 为监管指南、合规文件和历史报告数据的知识库编制索引,从而为聊天机器人提供事实依据。合规分析师和报告专家以对话形式与聊天机器人互动, 不仅节省时间, 还能解决各种监管报告问题。 # 生成式AI贯穿Google Cloud全线数据库 # AlloyDB正助力组织构建生成式AI应用 AlloyDB针对需要实时且精准响应的企业级生成式AI应用进行了优化。它为事务型、分析型和向量型工作负载提供卓越性能,可以在任何环境中运行(包括本地和其他云平台),助力您随时随地推进现代化改造和创新。 AlloyDB AI是内置于AlloyDB中的一组集成式功能组件,可帮助开发者利用其运营数据构建高性能且可扩容的生成式AI应用。它可为向量嵌入提供内置的端到端支持,帮助开发者更轻松高效地将基础模型的能力与实时运营数据相结合,并提供以下功能: - 自动生成嵌入。只需一行 SQL 代码, 即可访问嵌入模型,无论这些模型是在 Vertex AI 还是任何其他平台上运行。 - 该向量搜索兼容 pgvector,具备急速性能。与标准 PostgreSQL 相比,索引创建速度快达 10 倍,向量搜索查询速度快达 4 倍、过滤式向量搜索查询速度快达 10 倍。 与AI生态系统集成,使模型能够通过Vertex AI访问实时数据并作用于外部系统,同时支持LangChain和LlamaIndex等编排框架。 AlloyDB Omni 在构建之初便兼顾了可移植性和灵活性。您可以利用 AlloyDB 中的技术,在任意环境中构建支持 AI 的企业级应用:本地、边缘、跨云,甚至在开发者的笔记本电脑上,皆可实现。 # AlloyDB 的最新动态 我们将继续对AlloyDB进行创新,打造新一代AlloyDB AI,包括全新向量功能、远程模型便捷访问,以及安全灵活的自然语言支持。 Google拥有超过12年的实际场景向量算法创新经验,为我们多款热门服务提供了坚实后盾,其中包括Google搜索和YouTube。我们必须就向量的索引和搜索方法进行创新,才能满足要求严苛的应用场景。除了为PostgreSQL数据库提供开源pgvector支持外,我们还将为关系型数据库引入新一代树基向量功能。 ScaNN索引是一款兼容pgvector的索引,以Google最先进的近似最近邻算法为基础。在我们的性能测试中,AlloyDB支持扩容至超过10亿个向量,查询延迟通常低于25毫秒。 AlloyDB现已支持与远程AI模型集成,可直接在数据库内实现实时数据转换与增强。AlloyDB模型端点管理功能通过简化从Vertex AI、Anthropic和Hugging Face等第三方服务商或其他自定义服务调用模型的过程,实现了这一目标。 AlloyDB AI旨在加速智能体和应用的开发。高性能过滤式向量搜索支持现代应用所需的智能多模态数据检索。AlloyDB AI查询引擎则通过AI赋能的SQL运算符,从企业数据中发掘深层语义分析洞见。最后,AlloyDB AI自然语言会将最终用户或智能体提出的问题转换为SQL查询,从而给出答复。借助此功能,您可以构建交互式自然语言界面,准确捕捉用户意图,从而构建用户问题到对应答案SQL查询的高精确度映射。这些进步代表了数据库的未来。依托AI就绪数据,为智能体提供前瞻性分析洞见,使其能够预判并果断采取行动。 # 跨所有 Google Cloud 数据库进行向量搜索 向量嵌入和搜索对于构建实用且准确的生成式AI应用至关重要:借助最近邻算法,能够更便捷地在文字和图片等非结构化数据中找到相似搜索结果。由于向量搜索非常重要,我们在整套Google Cloud数据库产品/服务中提供了内置向量功能,以提高操作的简便性和效率。现在,您可以使用现有数据库存储和搜索各种向量嵌入,而无需将数据复制到另一个向量搜索解决方案或学习使用另外的系统。 - Cloud SQL for PostgreSQL 支持大规模向量搜索, 同时支持近似最近邻 (ANN) 搜索和精确最近邻 (ENN) 搜索。它利用 HNSW 和 IVFFlat 等行业标准索引编制技术, 能够高效地在数亿个向量中进行搜索, 满足要求严苛的大规模应用的需求。 - Cloud SQL for MySQL 还提供集成式向量搜索, 支持 ANN(使用 IVFFlat 索引)和 ENN 搜索。这样, 您就可以在现有 MySQL 实例中轻松存储和查询数百万个向量, 直接进行相似性搜索和推荐。 - AlloyDB for PostgreSQL 提供与 pgvector 兼容的高性能搜索, 运行过滤式向量查询的速度最高可达标准 PostgreSQL 中 HNSW 索引的 10 倍。您的应用可以使用近似最近邻或精确最近邻算法对文字和图片等复杂数据类型执行快速相似性搜索。 - Spanner 支持在包含数万亿向量的数据集上进行精确最近邻向量搜索,适用于高可分区工作负载。它可以高效缩减搜索空间,以低延迟提供准确、实时的结果,同时利用Spanner列式引擎大规模快速处理向量数据。 - Bigtable 支持在包含数万亿向量的数据集上进行精确最近邻向量搜索,适用于高可分区工作负载。它可以高效缩减搜索空间,以低延迟提供准确、实时的结果。 - Memorystore 支持向量存储, 可在 Redis、Redis Cluster 和 Valkey 中为您的生成式 AI 应用实现超低延迟查询。它是一种超低延迟数据存储区, 适用于基础模型语义缓存和推荐系统等应用场景。 - Firestore 支持精确最近邻向量搜索。开发者可以对事务型 Firestore 数据执行向量搜索, 无需将数据复制到另一个向量搜索解决方案。 - BigQuery 支持对 BigQuery 数据进行近似最近邻搜索。此功能是支持语义搜索、相似性检测和 RAG 等众多全新的数据和 AI 应用场景的关键。 # 编排框架 生成式AI数据库工具包可简化生成式AI智能体的创建、部署和管理,这些智能体在查询数据库时,同时具备访问安全性、强大的可观测性、可扩展性和全面的可管理性。 与LangChain和LlamaIndex等编排框架的集成可简化将Google数据库整合到应用中的过程。这些框架通过提供结构化可重用组件,简化了生成式AI应用的开发,不仅能大幅简化代码,还能提升模块化程度和可维护性。借助这些框架与我们数据库的强大能力,开发者现在能够更快速、轻松地创建可感知上下文的AI智能体。 这种集成可跨偏好数据源为开发者提供内置RAG工作流,并支持使用开发者选择的企业级Google Cloud数据库。例如,LlamaIndex集成专为增强RAG设计,可高效处理数据索引和检索,因此非常适合需要对大规模数据集进行可靠搜索的应用。 典型应用场景包括个性化产品推荐、问答、文档搜索与合成,以及客户服务自动化。这些工具使开发者专注于应用逻辑而非样板代码,从而加速开发生命周期。 # 利用AI助力数据库开发和管理 在当今的商业环境中, 敏捷性和响应能力是成功的关键因素,您需要能够在市场因素发生变化时快速采取行动。数据库技术发展迅速, 数据库专业人员很难跟上其发展节奏, 这会影响编程的质量和工作效率。 运营数据库是管理组织数据和应用的关键。您需要确保数据能够顺畅地流入和流出,并保持良好的应用运行状态。数据库管理是一项充满挑战的工作。许多平台工程师、数据库管理员和开发者都在使用不合适的工具、复杂的脚本和容易出错的工作流程来完成任务。 Database Center 改变了这一局面。它可帮助您提高工作效率和创造力,并为数据库开发和管理提供强大助力。AI 赋能的辅助功能可简化数据库全流程的各个环节,助您聚焦核心要务。启用 Gemini Cloud Assist 后,开发者、运维人员和数据库管理员可以使用自然语言更快地构建应用,使用智能建议管理和优化整个数据库舰队,并检查和转换数据库常驻代码以加快迁移速度。 AI可改变开发者的工作模式,助其解决有碍高效工作的重要问题 76% 的开发者今年正在使用或计划在开发过程中使用 AI 工具 81% 的开发者认为,提高工作效率是 AI 工具带来的最大好处 68% 的开发者每天会花费 30 分钟搜索解决方案 来源:Stack Overflow开发者调查,2024年 Database Center 提出即席查询并获取定制化答复,最终提高工作效率。 Database Studio: Gemini 支持使用简单的自然语言指令生成、微调和总结 SQL 代码, 可助力开发者更快地构建和部署应用, 同时满足安全性和高可用性需求。 AI辅助式性能问题排查:操作者和开发者可以通过易于使用的界面解决数据库性能问题,在单一视图中清晰呈现所有数据库指标,即节省时间又提高工作效率。Database Insights会自动分析您的工作负载、突出显示问题并提供解决方案建议。 Database Center: 数据库管理员和平台工程师可通过 AI 构建的智能信息中心, 管理整个舰队中的多样化数据库, 主动评估可用性、数据保护、安全性和合规性问题, 无需任何定制工具或流程。借助 Database Center 集成的 AI 助理, 数据库团队可以使用自然语言与系统交互, 从而更轻松地找到所需信息并排查问题。 Database Center 可帮助组织确保其数据库资源符合 NIST 800-53、ISO-27001 和 PCI-DSS 等普遍的行业标准。 # 开始在数据库中使用生成式AI 生成式AI正在推动有关数据库现代化改造的新浪潮,这一浪潮正极速向我们涌来。未能实现现代化改造的组织将会被边缘化。 现代化改造是一项关键策略,但从旧系统迁移似乎是一件很难实现的事情。对于许多人而言,通往现代系统的道路似乎并不明朗且令人生畏。 以下是我们建议您在开始转型之旅时执行的初始步骤: 了解各种可能性。生成式AI正在迅速重塑市场格局,该技术的实施情况可能会成为决定落后还是领先的重要分水岭。您需要研究您的竞争对手在做什么,并从其他组织使用生成式AI的方式中获取灵感。 组建开发团队。然后,让关键决策者达成一致目标,共同向前推进。考虑使用辅助技术武装现有团队,减轻他们的负担。例如,借助Database Center和Gemini Cloud Assist,您无需聘请专业的数据库管理员和平台工程师。 从小处着手。识别简单场景并创建用例,例如协助处理支持服务工单队列。生成式AI可为您的团队识别重复的支持服务工单,或找出与支持人员当前处理工单类似的历史已解决工单,为其提供先例参考并给出建议的指导依据。 寻找改进机会。这可能包括自动执行维护和后台业务流程等任务,或个性化客户体验,让用户与组织的互动更优质、更具价值。思考您的运营数据,以及如何利用这些数据为您的应用增加上下文和相关性。 # 使用 Google Cloud 开启转型之旅 我们可以随时为您提供指导。凭借我们多年来为自身及其他客户实施此类系统的经验,我们对您所面临的挑战和机遇有着深刻的理解。 为了帮助您更轻松地完成现代化改造之旅, Google Cloud 提供了一个数据库现代化改造计划。该计划整合了优质数据库、迁移工具、专家指导、最佳实践和迁移支持资源,旨在帮助您从 Oracle 和 SQL Server 迁移到 Google Cloud 数据库,从而助力您的组织实现其生成式 AI 目标。 您可以与我们联系,咨询如何从旧系统迁移数据库或开发新应用,也可以仅借此机会为您的组织寻找最佳的前进方向。 与数据库专家交流 # Google Cloud 的数据库产品组合 Google Cloud 提供了一个智能、开放、统一的数据和 AI 云平台,帮助您构建面向未来的生成式 AI 应用。无论是在云端还是本地,您几乎可以在所有环境中使用自己熟悉且喜爱的运营数据库,打造焕然一新的客户体验。 Cloud SQL 是一项适用于 MySQL、PostgreSQL 和 SQL Server 的全托管式关系型数据库服务。 AlloyDB for PostgreSQL是一项与 PostgreSQL兼容的数据库服务,适用于要求严苛的企业工作负载。我们还提供了一个可下载版本,即AlloyDB Omni。该版本可在任何环境(您的数据中心、笔记本电脑或任何云平台)中运行。借助AlloyDB AI轻松构建企业智能体和生成式AI应用。 Database Migration Service 简化了将 MySQL、PostgreSQL、SQL Server 和其他数据库迁移至云端的过程。 Spanner是一款云原生数据库,具有近乎无限的扩缩能力、全局一致性,以及高达 $99.999\%$ 的可用性。它每秒可处理超过40亿次查询的持续负载。其PostgreSQL接口可简化从DynamODB等数据库的迁移。 $\mathcal{O}$ 裸金属解决方案可让您将Oracle工作负载直接原样迁移到Google Cloud。 $\mathcal{O}$ Bigtable是一项高性能的全托管式NoSQL数据库服务,适用于大规模分析、运营和时序工作负载。它提供高达 $99.999\%$ 的可用性,高峰时段每秒可处理超过50亿次请求,并且可管理超过10EB的数据。4可从HBase和Cassandra等数据库迁移。 Firestore是一项备受欢迎且扩缩能力极强的企业级文档数据库服务,适合用于移动、Web和服务器开发,现已兼容MongoDB,让迁移变得更加轻松。它提供丰富、快速的查询,可用性高达 $99.999\%$ 。它的开发者社区正在不断发展壮大,每月活跃开发者人数超过60万人。 Memorystore 提供全托管式内存型 Valkey、Redis 和 Memcached 服务,具备亚毫秒级数据访问速度、可扩缩性和高可用性。Memorystore for Valkey 和 Memorystore for Redis Cluster 是一项全托管式服务,可轻松扩容到 TB 级的键空间和每秒数千万次的操作。 BigQuery是一款全托管式AI就绪型数据分析平台,可帮助您充分挖掘数据价值,并支持多引擎、多格式和跨云。