跳转至

开发记录

真实 LLM 的评测、能力与压测记录——每条结论都有对真实模型(远端网关 + 端侧 Ollama)的 实跑支撑,以 pass^k 与有据的过程校验评分。

报告正文为英文(开发记录原文存档)。