从零开始:我的强化学习围棋助手开发日志
1. 训练思路
我使用了 MCTS(蒙特卡洛树搜索)结合策略价值网络,来让模型在对弈过程中同时考虑局部最优和全局胜率。前期重点还是先把训练流程、落子逻辑和推理接口串起来,保证整个系统能稳定跑通。
2. 在线对弈演示
你可以直接在这里试玩。左侧是我的研究心得,右侧(或在屏幕下的下方)就是实时运行的页面:
我使用了 MCTS(蒙特卡洛树搜索)结合策略价值网络,来让模型在对弈过程中同时考虑局部最优和全局胜率。前期重点还是先把训练流程、落子逻辑和推理接口串起来,保证整个系统能稳定跑通。
你可以直接在这里试玩。左侧是我的研究心得,右侧(或在屏幕下的下方)就是实时运行的页面: