在数字经济迅猛发展的时代背景下,数据已经上升为核心生产要素,不仅有力促进了各行各业的创新转型升级,更成为推动经济增长的重要力量。
特别是近年来生成式AI快速发展,极大地改变了企业决策的方式和效率。而在这一过程中,数据作为智能的“燃料”,其质量和数量直接关系到生成式AI应用的性能和准确性,因此显得越发重要。
在前不久举办的“无数据 不模型——生成式AI时代的数据基座”媒体沟通会上,亚马逊云科技大中华区产品部总经理陈晓建介绍了数据在生成式AI时代的作用,以及亚马逊云科技在数据基座构建方面的三大核心能力。
当前,生成式AI基础模型的参数量与训练所需数据量可以说是天文数字级别。以书籍为例,如果一本书按500KB算,现在的500T参数的模型已经有332亿本,相当于现存每个人类拥有4本书。而且,这一趋势仍将持续,未来将有越来越多的模型会需要更多的数据。
如何打造差异化生成式AI应用?
现如今,随着生成式AI的不断发展,企业的关注点已不仅局限于基础的大模型数据,而更加重视利用自身数据结合基础大模型,从而打造差异化能力。
据陈晓建介绍,用企业自身的数据去差异化生成式AI应用,通过数据定制基础模型的方式主要分为三大类:检索增强生成(RAG)、微调和持续预训练,这三种方式适用不同的应用场景。具体来看:
第一,RAG。企业可以将自身的知识库、数据库等与生成式AI模型相结合,在生成过程中实时检索和利用企业内部的相关数据,从而提高生成结果的准确性、一致性和信息量。这个方法相对简便。适用场景包括知识时效性、控制幻觉、用户隐私数据保护、企业私域知识等。
第二,微调。微调使用与目标任务相关的数据对模型进行进一步训练,以提高其在特定任务上的性能。微调的门槛介于预训练和RAG两者之间。适用场景包括角色理解、输入理解、输出格式控制等。
第三,持续预训练。企业利用自身专有数据,如内部文档、客户记录等对模型进行持续预训练。这种持续预训练门槛较高,成本较大,但是可以得到一个企业自身定制的行业大模型。适用场景包括理解行业领域知识/术语,以及用于严控数据合规等。
实际上,RAG、微调和持续预训练需要的数据规模、数据来源和技术要求各不相同。例如,RAG和微调都需要处理相对较小的数据量,这些数据通常需要经过预训练处理。换言之,可能需要将非结构化的数据转化为结构化数据,以便大模型更好地理解数据格式。相比之下,持续预训练处理的数据量从GB级到TB级,甚至更多,这些数据无须过多预处理,可将业务产生的原始非结构化数据直接输入大模型进行持续训练。
“亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力,”陈晓建表示,“作为全球云计算的开创者和引领者,亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户业务和数据安全的前提下,将数据的独特价值赋予基础模型和生成式AI应用,加速企业业务增长。”
三大核心能力,充分发挥数据潜力
据了解,亚马逊云科技构建数据基座的三大核心能力包括:模型微调和预训练所需的数据处理能力、利用专有数据与模型快速结合以产生独特价值的能力,以及有效处理新数据以助推生成式AI应用持续快速发展的能力。
第一,模型微调和预训练所需的数据处理能力。
在数据处理的过程中,企业需要解决三个核心问题:一是找到合适的存储设备来承载海量的数据;二是需要有效的工具来进行原始数据到结构化数据的清洗和处理;三是对所有数据进行有效的编目管理,并确保数据的安全访问。
在数据存储方面,Amazon S3的容量,安全和功能都满足微调和预训练基础模型对数据存储上的要求: Amazon S3拥有超过200万亿个对象,平均每秒超过1亿个请求。亚马逊云科技上超过20万个数据湖都使用了Amazon S3。
另外,亚马逊云科技专门构建的文件存储服务Amazon FSx for Lustre能够提供亚毫秒延迟和数百万IOPS的吞吐性能,能够进一步加快模型优化的速度。LG AI Research使用Amazon FSx for Lustre 将数据分发到实例中来加速模型训练,开发了自己的基础模型 EXAONE,通过减少基础设施管理和提高GPU扩展效率,降低了约35%的成本。
在数据清洗方面,Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、乃至分词的操作,让企业专注于生成式AI业务创新。其中,Amazon EMR serverless采用无服务器架构,易用使用,能够预置、配置和动态扩展应用程序在每个阶段所需的计算和内存资源;Amazon Glue是简单、可扩展的无服务器数据集成服务,可以更快地集成数据,连接不同数据源并简化相关的代码工作。
在数据治理方面,Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据,不但能够为多源多模态数据进行有效编目和治理,而且还提供简单易用的统一数据管理平台和工具,从而为用户解锁所有数据的潜能。
第二,将现有数据快速结合模型产生独特价值的能力。
基础模型具备诸多优点,并在多个层面上展现出了与人类智能相当甚至超越的能力。然而,基础模型也存在一定的局限性,如缺乏垂直行业的专业知识,缺乏时效性,生成错误信息,以及用户敏感数据的隐私合规风险。
RAG技术被普遍认为是实现数据与模型结合的主要途径之一,该技术的关键是向量嵌入(vector embeddings),包括获取特定领域数据源,通过分词将其分解为token元素,通过LLM将这些token导出数值向量。
通过这一系列操作,人们成功将元素数据中内容关联问题简化为token元素间的距离计算问题。
RAG场景的核心组件就是向量存储,现代应用程序需精准理解用户需求并正确关联产品或内容,这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中,这些框架又依赖于功能各异的数据库,这使得数据库成为实施RAG场景技术的理想平台。
目前,亚马逊云科技已经在八种数据存储中添加了向量搜索功能,让客户在构建生成式 AI 应用程序时有更大的灵活性。
第三,有效处理新数据,助力生成式AI应用飞速发展的能力。
由于生成式AI对基础资源有极高要求,数据处理过程中的调用模型环节可能非常耗时,给系统带来成本压力。
Amazon Memory DB内存数据库通过缓存之前问答生成的新数据,实现对类似问题的快速响应和准确回答,同时有效降低基础模型的调用频率。Amazon Memory DB能够存储数百万个向量,只需要几毫秒的响应时间,能够以99%的召回率实现每秒百万次的查询性能。
此外,生成式AI应用程序需要快速占领市场。亚马逊云科技通过提供无服务器数据库服务和Amazon OpenSearch Serverless用于向量搜索,最大限度为企业减少运维负担和成本,消除性能瓶颈,使企业能够专注于生成式AI业务创新。
“我们希望每一个企业在生成式AI时代借助亚马逊云科技的服务打造坚实的数据基础。这样企业就可以高效安全地将海量的多模态数据和各种基础模型结合在一起,创建出一系列具有独特的价值的生成式AI应用程序并收到终端用户的欢迎,进而产生更多的数据。这些新数据又会继续提升模型的准确度,创造更好的用户体验,从而实现生生不息的正向生成式AI数据飞轮,带动我们企业的业务走向成功。”陈晓建说道。
赋能客户,把握生成式AI机遇
值得一提的是,店匠科技(Shoplazza)首席科学家谢中流和北京灵奥科技(Vanus)CEO厉启鹏也分享了各自企业在生成式AI领域的实践和经验。
店匠科技是一家电子商务独立站SaaS平台,专注于帮助企业构建其专属的在线商城,涉足电商领域两大分支:集中式平台电商与去中心化的独立站电商。截至目前,店匠科技已服务超36万家跨境电商客户,覆盖全球150多个国家。
谢中流指出,在生成式AI方面,店匠科技正在积极探索四大业务板块。首先,在营销素材生成方面,店匠科技推出了GenAI营销素材创作平台,能够以分钟级速度生成多样风格的营销素材,极大简化从模特选择、场景搭建到后期编辑的复杂流程。
其次,在AI建站方面,通过与用户交互并运用如Amazon Bedrock的Claude3模型,结合Amazon RDS等工具,实现对客户需求的即时理解与精准捕获,进而自动生成和完善网站结构、设计风格与内容,极大地简化了电商网站的搭建过程,使商家能够快速启动在线业务。
第三,在智能客服方面,鉴于日常咨询中高度重复性问题占比高达69%,店匠科技运用Amazon Bedrock的Claude3模型及Amazon ElastiCache Redis技术,构建高效客服对话系统,不仅显著缩短了解答时间,还降低了40%的客服成本,改善了用户体验。
第四,在推荐与搜索方面,面对多语言环境下的挑战,店匠科技借助Amazon ElastiCache Redis等工具提升个性化推荐与搜索排序的效率与准确性,从而增强用户体验并推动销售增长。
北京灵奥科技是一家面向全球市场的人工智能初创企业,主要使命是为企业构建AI Agent。目前,北京灵奥科技已推出Vanus Connect、Vanus AI以及VanChat三大产品,累计服务于全球超过30,000家企业。
厉启鹏表示,Vanus整个基础架构建立在亚马逊云科技的Amazon Elastic Kubernetes Service(EKS)组件之上。借助EKS的弹性能力,VanChat智能助手可以根据业务流量进行平滑的弹性伸缩,从而帮助用户应对高流量洪峰,同时降低成本。
“我们期待与亚马逊云科技在数据库优化、Zero-ETL数据预处理及Claude系列模型的深度应用等方面展开更紧密的合作,共同推动AI技术在企业应用中的深入发展。”
写在最后:
生成式AI时代,数据是企业在激烈市场竞争中脱颖而出的关键。构建基础模型离不开大规模高质量数据集支撑,而生成式AI的差异化优势则来源于企业的专有数据。同时,随着生成式AI应用的日益普及,如何高效管理和运用这些应用不断产生的新数据,已成为企业必须面对和解决的课题。