数据云企业Snowflake于9日表示,将在其人工智能(AI)应用生成支持工具“Snowflake Cortex AI”中开始支持Llama 3.1。
Snowflake韩国区总经理 Choi Giyoung 当天在“Snowflake World Tour Seoul”记者座谈会上表示,“(Snowflake服务)在各类大语言模型(LLM)中,包含Llama在内,已针对企业级所需的AI进行了专业化”。
通过此次服务,Snowflake将提供Meta中规模最大的开源大语言模型Llama 3.1 405B。Snowflake将开发并开源一套推理系统,以实现实时高吞吐量推理,并提升自然语言处理与生成类应用。
Snowflake的AI研究团队针对推理与微调(fine-tuning)对Llama 3.1 405B进行优化后提供服务。与既有开源解决方案相比,端到端(end-to-end)延迟时间最多可缩减至三分之一,同时实现吞吐量提升1.4倍的实时推理。
此外,在Cortex AI中仅使用一个图形处理器(GPU)节点即可对超大模型进行微调,从而为开发者和用户双方降低成本并减少复杂度。
通过本次合作,使用Snowflake的客户可以在AI数据云中顺畅访问Meta的最新模型,并进行微调和部署。Snowflake方面表示,将提供一种不仅易于使用、效率高、可靠性强,而且在设计之初就内置了关于可信度与安全性的全面方法。
Snowflake AI研究团队随着Llama 3.1 405B的发布,正在将超大规模LLM推理及微调系统优化栈开源化。舆论认为,通过这一举措,正在构建适用于数千亿参数模型的开源推理与微调系统所需的解决方案。
Snowflake的LLM推理及微调系统优化栈克服了吞吐量提升等方面的问题。通过高级并行化技术和内存优化,即便没有复杂且高成本的基础设施,也能实现高效的AI处理。以Llama 3.1 405B为例,Snowflake的系统栈支持仅用单一GPU节点就能发挥实时高吞吐量性能。
这意味着数据科学家可以在更少数量的GPU上,利用复杂且精细的技术对Llama 3.1 405B进行微调,从而无需大规模GPU集群。由此有助于企业级生成式AI应用以更加便捷、高效且安全的方式进行采用和部署。
Snowflake的AI研究团队还开发了针对微调进行优化的基础设施,帮助企业能够在Cortex AI中轻松应用此类使用场景。
Choi 总经理表示:“我们已将国内代表性前十强企业中约80%发展为客户,并开始利用Snowflake”,并称“今后将在坚持提供易用且高效服务这一价值的同时,持续推进合作”。
另一方面,Snowflake将于10日在三成洞COEX会展中心举办“Snowflake World Tour Seoul”。在本次活动中,将公开完全托管型Snowflake Cortex、以开源形式发布的“Polaris Catalog”、“Snowflake Copilot”、企业级LLM等升级版AI技术内容。
版权所有 © 阿视亚经济 (www.asiae.co.kr)。 未经许可不得转载。