Showing Posts From

Ai

K8s 基于 HAMi 的 GPU/NPU 算力切分实践指南

K8s生态的HAMi方案可实现GPU/NPU算力精细化切分,含组件介绍、部署配置与验证流程,能提升异构资源利用率,适配AI场景需求。

K8s 基于 Volcano 优先级调度的 NPU 算力切分实践指南

该指南介绍K8s生态下,Volcano调度器与hami-ascend-device-plugin、Ascend Docker Runtime协同,实现NPU算力精细化切分与优先级调度的方案。

K8s 基于 Volcano 优先级调度的 GPU 算力切分实践指南

该指南介绍K8s生态中Volcano调度器结合volcano-vgpu-device-plugin的GPU算力切分方案,涵盖运行时配置、Volcano与插件部署流程,支持按显存和核心切分vGPU,通过

AI原生的API网关Higress

Higress是阿里出身的AI原生云原生API网关,基于Istio和Envoy,集多网关功能,支持AI集成与热更新,提供多样安装使用方式,适配云原生与AI场景。

史上最大开源LLM,参数高达3140亿!马斯克如约开源Grok,10小时狂揽10000颗Star

史上最大开源LLM,参数高达3140亿!马斯克如约开源Grok,10小时狂揽10000颗Star

特斯拉CEO马斯克的xAI公司发布了史上最大开源大语言模型Grok-1,参数量达3140亿。Grok-1在发布10小时内获得10000个GitHub Star,展现了其受欢迎程度。该模型基于Apach

如何离线运行大模型StarCoder

如何离线运行大模型StarCoder

这篇博客介绍了如何在离线环境下运行大模型StarCoder,提供了两种方法:使用text-generation-inference和transformers库。text-generation-infe

如何运行Hugging Face大模型StarCoder

如何运行Hugging Face大模型StarCoder

博客提供了在本地部署Hugging Face的StarCoder大模型的步骤。首先,介绍了StarCoder的代码补全功能,并建议使用NVIDIA A800 GPU和CentOS 7.9。然后,指导如