Apr 21, 2026

从零开始：我的强化学习围棋助手开发日志

我使用了 MCTS（蒙特卡洛树搜索）结合策略价值网络，来让模型在对弈过程中同时考虑局部最优和全局胜率。前期重点还是先把训练流程、落子逻辑和推理接口串起来，保证整个系统能稳定跑通。

你可以直接在这里试玩。左侧是我的研究心得，右侧（或在屏幕下的下方）就是实时运行的页面：