Excited to grow your career?
We value our talented employees, and whenever possible strive to help one of our associates grow professionally before recruiting new talent to our open positions. If you think the open position you see is right for you, we encourage you to apply!
Our people make all the difference in our success.
工作内容:
• 研发稳定高效的 LLM 推理系统,支持低延迟和高吞吐
• 设计和优化分离式推理框架,实现低延迟、高吞吐
• 开发和优化分布式 KV 缓存(KV Cache)框架
• 进行 CUDA 内核优化,提高计算效率和 GPU 资源利用率
岗位要求:
• 熟悉大语言模型(如 LLaMA、Qwen)推理流程
• 了解主流模型推理加速技术(模型量化、算子融合、P/D 分离、Prefix Caching、Speculative Decoding、KV Cache 压缩与调度)
• 掌握 vLLM、TensorRT-LLM 等主流推理加速框架,能分析并优化其加速技术
• 熟悉 Hugging Face Transformers 及常见深度学习库
• 具备 GPU 高性能计算优化能力,熟悉 CUDA 并行计算、访存优化、低比特计算
• 深入理解计算机体系结构,具有基于 CUDA 的 GPU 性能优化经验
• 熟悉深度学习算法、神经网络架构及算子计算
加分项:
• 了解至少一种深度学习训练框架(如 PyTorch、TensorFlow)及其模型文件解析方式
• 具备软硬件联合设计经验
• 有 P/D 分离系统、分布式 KV Cache 系统优化经验
• 熟悉底层性能优化(Cutlass、NCCL 等)











