“企业需要的是懂业务、懂用户的生成式AI应用,而打造这样的应用需要从数据做起。亚马逊云科技构建数据基座的三大核心能力涵盖从基础模型训练到生成式AI应用构建的重要场景,能够帮助企业轻松应对海量多模态数据,提升基础模型能力。”4月30日,在亚马逊云科技“无数据不模型——生成式AI时代的数据基座”的媒体沟通会上,亚马逊云科技大中华区产品部总经理陈晓建强调了数据在生成式AI时代中的关键作用。
陈晓建强调,在生成式AI的时代,数据的核心地位不容忽视。若企业欲在这个时代崭露头角,必须从数据这一基础出发,借助自身的数据资源构建具有商业竞争力的AI应用。
陈晓建提出,企业应具备多方面的数据能力。首先,要有处理数据以进行模型微调和预训练的技术实力;其次,需有能力将专有数据与模型高效结合,从而创造出独特的商业价值;最后,企业还需拥有对新数据进行有效处理的能力,以推动生成式AI应用的持续快速发展。
简而言之,企业应在数据处理、数据结合以及新数据应用等方面都具备强大的实力。
01应对生成式AI的数据挑战:存储、清洗与治理的全方位解决方案
生成式AI基础模型微调和预训练需要将海量的多样化原始数据转化为高质量的大数据集,这对数据存储、清洗和治理都提出了更严峻的挑战。
在数据存储方面,扩展性和响应速度是关键。Amazon Simple Storage Service(Amazon S3)对象存储几乎是云上扩展性的代名词,它支持广泛的数据协议,能够轻松应对各种数据类型,还支持智能分层以降低训练成本。专门构建的文件存储服务Amazon FSx for Lustre则能够提供亚毫秒延迟和数百万IOPS的吞吐性能,能够进一步加快模型优化的速度。
在数据清洗方面,企业面临着繁重的数据清洗加工任务,Amazon EMR Serverless和Amazon Glue可以帮助企业轻松完成数据清理、去重、乃至分词的操作,让企业专注于生成式AI业务创新。Amazon EMR serverless采用无服务器架构,帮助企业运行任何规模的分析工作负载,自动扩展功能可在几秒钟内调整资源大小,以满足不断变化的数据量和处理要求。Amazon Glue是一个简单可扩展的无服务器数据集成服务,可以轻松快速地完成微调或预训练模型的数据准备工作。
在数据治理方面,企业难以在多个账户和区域中查找数据,也缺乏有效的数据治理工具。Amazon DataZone让企业能够跨组织边界大规模地发现、共享和管理数据,不但能够为多源多模态数据进行有效编目和治理,而且还提供简单易用的统一数据管理平台和工具,从而为用户解锁所有数据的潜能。
事实上,通过利用Amazon S3、Amazon FSx for Lustre、Amazon EMR Serverless、Amazon Glue以及Amazon DataZone等亚马逊云科技的服务,企业可以有效地应对生成式AI基础模型微调和预训练过程中的数据存储、清洗和治理挑战。
这些服务不仅提供了强大的扩展性和快速响应能力,还通过无服务器架构和智能数据管理功能,大大降低了企业的运维成本和数据处理复杂度。更重要的是,它们为企业释放了更多的资源和精力,使其能够更专注于生成式AI的核心业务创新。在这个数据为王的时代,拥有高效、可靠的数据存储、清洗和治理解决方案,是企业走向成功的关键一步。
02数据与模型快速结合,让企业专有数据释放更大价值
亿邦动力获悉,生成式AI基础模型的局限性之一在于无法及时拥有企业专有数据,因此通过技术手段加速数据与模型的结合成为企业数据基座的第二项关键能力。
检索增强生成(Retrieval-Augmented Generation,RAG)技术被普遍认为是实现数据与模型结合的主要途径之一,它通过将数据转换为向量并存储到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。现代应用程序需精准理解用户需求并正确关联产品或内容,这一需求广泛存在于搜索、评论、购物车及产品推荐等交互框架中,这些框架又依赖于功能各异的数据库,这使得数据库成为实施RAG技术的理想平台。
亚马逊云科技将向量搜索的支持功能加入到主流的数据服务中,通过将数据和向量存储在一起来提升数据查询性能。这能够让企业轻松利用RAG技术将专有数据提供给基础模型,从而释放更大价值。此外,亚马逊云科技还为图数据库Amazon Neptune推出了分析数据库引擎,以结合图数据库与大模型的优势,从而能够快速从图形数据中获取洞察,并进行更快的向量搜索。
实际上,通过采用检索增强生成(RAG)技术,亚马逊云科技成功地将数据与模型紧密结合,打破了生成式AI基础模型无法及时获取企业专有数据的局限。这一创新不仅提升了数据查询性能,还使得企业能够轻松地将专有数据融入基础模型,从而释放出更大的商业价值。
此外,通过为图数据库Amazon Neptune推出分析数据库引擎,亚马逊云科技进一步融合了图数据库与大模型的优势,为企业提供了从图形数据中快速获取洞察并进行更快向量搜索的能力。这些技术进步不仅代表着数据与模型结合的新高度,更预示着企业在生成式AI领域将迎来前所未有的发展机遇。
值得一提的是,店匠科技也在生成式AI领域取得了显著的突破和创新。他们的工作主要集中在四个场景:首先是GenAl营销素材创作,通过生成式AI技术,店匠科技能够高效地创作出富有创意和吸引力的营销素材;其次是AI建站Copilot,这一技术使得网站的建设更加智能化和个性化;再者是智能客服,通过AI驱动的客服系统,店匠科技提供了更加便捷和高效的用户支持;最后是智能推荐&搜索,利用AI算法,店匠科技显著提升了用户体验和购物转化率。
这些创新不仅展示了店匠科技在生成式AI技术方面的深厚实力,也预示着零售行业在AI技术的推动下,正迎来前所未有的变革和发展机遇。
03提升生成式AI效率:优化数据处理与模型调用
对生成式AI应用程序而言,基础模型频繁调用将会导致成本的增加和响应的延迟,因此如何处理生成式AI应用程序新生成的数据,提升模型调用效率成为企业数据基座的第三项关键能力。Amazon Memory DB内存数据库通过缓存之前问答生成的新数据,实现对类似问题的快速响应和准确回答,同时有效降低基础模型的调用频率。
据悉,Amazon Memory DB能够存储数百万个向量,只需要几毫秒的响应时间,能够以99%的召回率实现每秒百万次的查询性能。
此外,生成式AI应用程序需要快速占领市场。亚马逊云科技通过提供无服务器数据库服务和Amazon OpenSearch Serverless用于向量搜索,最大限度为企业减少运维负担和成本,消除性能瓶颈,使企业能够专注于生成式AI业务创新。
通过这些服务,企业可以更高效地处理和利用数据,加速模型的训练和优化,同时降低成本和提高响应速度。例如,Amazon Music通过分析用户和歌曲的特征,并将它们转换成向量以提高推荐精准度。Amazon Music已通过Amazon OpenSearch将1亿首歌曲编码成向量并进行索引,以为全球用户提供实时音乐推荐。Amazon Music目前在Amazon OpenSearch中管理着10.5亿个向量,并能够处理每秒高达7100次的查询峰值,有效支撑其推荐系统。
总结来说,生成式AI时代的企业需要重视数据的收集、处理和应用,利用先进的云服务和数据处理技术,构建强大的数据基座,以支持AI应用的持续创新和发展。亚马逊云科技提供的服务和解决方案,为企业提供了一个全面的数据管理平台,帮助企业在竞争激烈的市场中占据优势,实现数据驱动的业务增长。