Infrastructure & AI Systems

数据中心 · GPU 集群 · 自动化运维 · 本地推理 · Hangzhou, CN


Projects

PXE 裸金属 GPU 自动化部署

iPXE + Ubuntu 22.04 无人值守安装,离线打包 vLLM / llama.cpp(CUDA 静态编译)/ Ollama,版本化 payload + current 软链,支持 GTX 1650 (CC 7.5) 兼容修复。

iPXE vLLM llama.cpp CUDA Ubuntu 22.04
GPU 集群可观测性

Telegraf → VictoriaMetrics → Grafana,覆盖 Dell XE9680 / H200 舰队,含 nvidia-fabricmanager 依赖排查与 udev 权限修复。

Telegraf VictoriaMetrics Grafana NVIDIA H200
本地 LLM 推理

GTX 1650 跑通 Ollama,Nginx 反代 + 自制前端界面,探索消费级显卡推理边界与参数调优。

Ollama Nginx GTX 1650
Milvus 向量数据库

openEuler 双节点 Docker 部署 Milvus Standalone,自定义桥接网络固定容器 IP,处理过 etcd 数据恢复场景。

Milvus Docker openEuler etcd
日报自动填报

Python + Playwright + IMAP 抓取监控邮件数据,自动填写飞书巡检表单,Task Scheduler 07:30 触发。

Python Playwright IMAP Feishu

Certifications

HCIE 数通 RHCE PingCAP KYCP 麒麟 华为云计算 IPRAN

GitHub

ai-datacenter-ops
GPU 集群监控栈 · Telegraf / VictoriaMetrics / Grafana
ops-toolkit
运维工具集 · 脚本 / 配置模板 / SOP

Fun

五子棋
双人本地对战 · 15×15