Spaces:

Gofor5
/

2048_Based_on_PyTorch

Running

App Files Files Community

2048_Based_on_PyTorch / main.py

Gofor5

Upload 3 files

ca0a8ed verified 6 months ago

raw

history blame contribute delete

30.6 kB

	import numpy as np
	import torch
	import torch.nn as nn
	import torch.optim as optim
	import torch.nn.functional as F
	import random
	import os
	from tqdm import tqdm
	import matplotlib.pyplot as plt
	import warnings

	if torch.cuda.is_available():
	device=torch.device("cuda")
	elif torch.xpu.is_available():
	device=torch.device("xpu")
	else:
	device=torch.device("cpu")
	print(f"Using device: {device}")

	# 2048游戏环境（改进版）
	class Game2048:
	def __init__(self, size=4):
	self.size = size
	self.reset()

	def reset(self):
	self.board = np.zeros((self.size, self.size), dtype=np.int32)
	self.score = 0
	self.prev_score = 0
	self.add_tile()
	self.add_tile()
	self.game_over = False
	return self.get_state()

	def add_tile(self):
	empty_cells = []
	for i in range(self.size):
	for j in range(self.size):
	if self.board[i][j] == 0:
	empty_cells.append((i, j))

	if empty_cells:
	i, j = random.choice(empty_cells)
	self.board[i][j] = 2 if random.random() < 0.9 else 4

	def move(self, direction):
	# 0: 上, 1: 右, 2: 下, 3: 左
	moved = False
	original_board = self.board.copy()
	old_score = self.score

	# 根据方向执行移动
	if direction == 0: # 上
	for j in range(self.size):
	column = self.board[:, j].copy()
	new_column, moved_col = self.slide(column)
	if moved_col:
	moved = True
	self.board[:, j] = new_column

	elif direction == 1: # 右
	for i in range(self.size):
	row = self.board[i, :].copy()[::-1]
	new_row, moved_row = self.slide(row)
	if moved_row:
	moved = True
	self.board[i, :] = new_row[::-1]

	elif direction == 2: # 下
	for j in range(self.size):
	column = self.board[::-1, j].copy()
	new_column, moved_col = self.slide(column)
	if moved_col:
	moved = True
	self.board[:, j] = new_column[::-1]

	elif direction == 3: # 左
	for i in range(self.size):
	row = self.board[i, :].copy()
	new_row, moved_row = self.slide(row)
	if moved_row:
	moved = True
	self.board[i, :] = new_row

	# 如果发生了移动，添加新方块
	if moved:
	self.add_tile()
	self.check_game_over()

	reward = self.calculate_reward(old_score, original_board)
	return self.get_state(), reward, self.game_over

	def slide(self, line):
	# 移除零并合并相同数字
	non_zero = line[line != 0]
	new_line = np.zeros_like(line)
	idx = 0
	score_inc = 0
	moved = False

	# 检查是否移动
	if not np.array_equal(non_zero, line[:len(non_zero)]):
	moved = True

	# 合并相同数字
	i = 0
	while i < len(non_zero):
	if i + 1 < len(non_zero) and non_zero[i] == non_zero[i+1]:
	new_val = non_zero[i] * 2
	new_line[idx] = new_val
	score_inc += new_val
	i += 2
	idx += 1
	else:
	new_line[idx] = non_zero[i]
	i += 1
	idx += 1

	self.score += score_inc
	return new_line, moved or (score_inc > 0)

	def calculate_reward(self, old_score, original_board):
	"""改进的奖励函数"""
	# 1. 基本分数奖励
	score_reward = (self.score - old_score) * 0.1

	# 2. 空格子数量变化奖励
	empty_before = np.count_nonzero(original_board == 0)
	empty_after = np.count_nonzero(self.board == 0)
	empty_reward = (empty_after - empty_before) * 0.15

	# 3. 最大方块奖励
	max_before = np.max(original_board)
	max_after = np.max(self.board)
	max_tile_reward = 0
	if max_after > max_before:
	max_tile_reward = np.log2(max_after) * 0.2

	# 4. 合并奖励（鼓励合并）
	merge_reward = 0
	if self.score - old_score > 0:
	merge_reward = np.log2(self.score - old_score) * 0.1

	# 5. 单调性惩罚（鼓励有序排列）
	monotonicity_penalty = self.calculate_monotonicity_penalty() * 0.01

	# 6. 游戏结束惩罚
	game_over_penalty = 0
	if self.game_over:
	game_over_penalty = -10

	# 7. 平滑度奖励（鼓励相邻方块值接近）
	smoothness_reward = self.calculate_smoothness() * 0.01

	# 总奖励
	total_reward = (
	score_reward +
	empty_reward +
	max_tile_reward +
	merge_reward +
	smoothness_reward +
	monotonicity_penalty +
	game_over_penalty
	)

	return total_reward

	def calculate_monotonicity_penalty(self):
	"""计算单调性惩罚（值越低越好）"""
	penalty = 0
	for i in range(self.size):
	for j in range(self.size - 1):
	if self.board[i][j] > self.board[i][j+1]:
	penalty += self.board[i][j] - self.board[i][j+1]
	else:
	penalty += self.board[i][j+1] - self.board[i][j]
	return penalty

	def calculate_smoothness(self):
	"""计算平滑度（值越高越好）"""
	smoothness = 0
	for i in range(self.size):
	for j in range(self.size):
	if self.board[i][j] != 0:
	value = np.log2(self.board[i][j])
	# 检查右侧邻居
	if j < self.size - 1 and self.board[i][j+1] != 0:
	neighbor_value = np.log2(self.board[i][j+1])
	smoothness -= abs(value - neighbor_value)
	# 检查下方邻居
	if i < self.size - 1 and self.board[i+1][j] != 0:
	neighbor_value = np.log2(self.board[i+1][j])
	smoothness -= abs(value - neighbor_value)
	return smoothness

	def check_game_over(self):
	# 检查是否还有空格子
	if np.any(self.board == 0):
	self.game_over = False
	return

	# 检查水平和垂直方向是否有可合并的方块
	for i in range(self.size):
	for j in range(self.size - 1):
	if self.board[i][j] == self.board[i][j+1]:
	self.game_over = False
	return

	for j in range(self.size):
	for i in range(self.size - 1):
	if self.board[i][j] == self.board[i+1][j]:
	self.game_over = False
	return

	self.game_over = True

	def get_state(self):
	"""改进的状态表示"""
	# 创建4个通道的状态表示
	state = np.zeros((4, self.size, self.size), dtype=np.float32)

	# 通道0: 当前方块值的对数（归一化）
	for i in range(self.size):
	for j in range(self.size):
	if self.board[i][j] > 0:
	state[0, i, j] = np.log2(self.board[i][j]) / 16.0 # 支持到65536 (2^16)

	# 通道1: 空格子指示器
	state[1] = (self.board == 0).astype(np.float32)

	# 通道2: 可合并的邻居指示器
	for i in range(self.size):
	for j in range(self.size):
	if self.board[i][j] > 0:
	# 检查右侧
	if j < self.size - 1 and self.board[i][j] == self.board[i][j+1]:
	state[2, i, j] = 1.0
	state[2, i, j+1] = 1.0
	# 检查下方
	if i < self.size - 1 and self.board[i][j] == self.board[i+1][j]:
	state[2, i, j] = 1.0
	state[2, i+1, j] = 1.0

	# 通道3: 最大值位置（归一化）
	max_value = np.max(self.board)
	if max_value > 0:
	max_positions = np.argwhere(self.board == max_value)
	for pos in max_positions:
	state[3, pos[0], pos[1]] = 1.0

	return state

	def get_valid_moves(self):
	"""更高效的有效移动检测"""
	valid_moves = []
	#test_board = np.zeros_like(self.board)

	# 检查上移是否有效
	for j in range(self.size):
	column = self.board[:, j].copy()
	new_column, _ = self.slide(column)
	if not np.array_equal(new_column, self.board[:, j]):
	valid_moves.append(0)
	break

	# 检查右移是否有效
	for i in range(self.size):
	row = self.board[i, :].copy()[::-1]
	new_row, _ = self.slide(row)
	if not np.array_equal(new_row[::-1], self.board[i, :]):
	valid_moves.append(1)
	break

	# 检查下移是否有效
	for j in range(self.size):
	column = self.board[::-1, j].copy()
	new_column, _ = self.slide(column)
	if not np.array_equal(new_column[::-1], self.board[:, j]):
	valid_moves.append(2)
	break

	# 检查左移是否有效
	for i in range(self.size):
	row = self.board[i, :].copy()
	new_row, _ = self.slide(row)
	if not np.array_equal(new_row, self.board[i, :]):
	valid_moves.append(3)
	break

	return valid_moves

	# 改进的深度Q网络（使用Dueling DQN架构）
	class DQN(nn.Module):
	def __init__(self, input_channels, output_size):
	super(DQN, self).__init__()
	self.input_channels = input_channels

	# 卷积层
	self.conv1 = nn.Conv2d(input_channels, 128, kernel_size=3, padding=1)
	self.conv2 = nn.Conv2d(128, 128, kernel_size=3, padding=1)
	self.conv3 = nn.Conv2d(128, 128, kernel_size=3, padding=1)

	# Dueling DQN架构
	# 价值流
	self.value_conv = nn.Conv2d(128, 4, kernel_size=1)
	self.value_fc1 = nn.Linear(4 * 4 * 4, 128)
	self.value_fc2 = nn.Linear(128, 1)

	# 优势流
	self.advantage_conv = nn.Conv2d(128, 16, kernel_size=1)
	self.advantage_fc1 = nn.Linear(16 * 4 * 4, 128)
	self.advantage_fc2 = nn.Linear(128, output_size)

	def forward(self, x):
	x = F.relu(self.conv1(x))
	x = F.relu(self.conv2(x))
	x = F.relu(self.conv3(x))

	# 价值流
	value = F.relu(self.value_conv(x))
	value = value.view(value.size(0), -1)
	value = F.relu(self.value_fc1(value))
	value = self.value_fc2(value)

	# 优势流
	advantage = F.relu(self.advantage_conv(x))
	advantage = advantage.view(advantage.size(0), -1)
	advantage = F.relu(self.advantage_fc1(advantage))
	advantage = self.advantage_fc2(advantage)

	# 合并价值流和优势流
	q_values = value + advantage - advantage.mean(dim=1, keepdim=True)
	return q_values

	# 经验回放缓冲区（带优先级）
	class PrioritizedReplayBuffer:
	def __init__(self, capacity, alpha=0.6):
	self.capacity = capacity
	self.alpha = alpha
	self.buffer = []
	self.priorities = np.zeros(capacity)
	self.pos = 0
	self.size = 0

	def push(self, state, action, reward, next_state, done):
	# 初始优先级设置为最大优先级
	max_priority = self.priorities.max() if self.buffer else 1.0

	if len(self.buffer) < self.capacity:
	self.buffer.append((state, action, reward, next_state, done))
	else:
	self.buffer[self.pos] = (state, action, reward, next_state, done)

	self.priorities[self.pos] = max_priority
	self.pos = (self.pos + 1) % self.capacity
	self.size = min(self.size + 1, self.capacity)

	def sample(self, batch_size, beta=0.4):
	if self.size == 0:
	return None, None, None

	priorities = self.priorities[:self.size]
	probs = priorities ** self.alpha
	probs /= probs.sum()

	indices = np.random.choice(self.size, batch_size, p=probs)
	samples = [self.buffer[idx] for idx in indices]

	# 计算重要性采样权重
	weights = (self.size * probs[indices]) ** (-beta)
	weights /= weights.max()
	weights = np.array(weights, dtype=np.float32)

	states, actions, rewards, next_states, dones = zip(*samples)
	return (
	torch.tensor(np.array(states)),
	torch.tensor(actions, dtype=torch.long),
	torch.tensor(rewards, dtype=torch.float),
	torch.tensor(np.array(next_states)),
	torch.tensor(dones, dtype=torch.float),
	indices,
	torch.tensor(weights)
	)

	def update_priorities(self, indices, priorities):
	# 确保 priorities 是一个数组
	if isinstance(priorities, np.ndarray) and priorities.ndim == 1:
	for idx, priority in zip(indices, priorities):
	self.priorities[idx] = priority
	else:
	# 处理标量情况（虽然不应该发生）
	if not isinstance(priorities, (list, np.ndarray)):
	priorities = [priorities] * len(indices)
	for idx, priority in zip(indices, priorities):
	self.priorities[idx] = priority

	def __len__(self):
	return self.size

	# 改进的DQN智能体
	class DQNAgent:
	def __init__(self, input_channels, action_size, lr=3e-4, gamma=0.99,
	epsilon_start=1.0, epsilon_end=0.01, epsilon_decay=0.999,
	target_update_freq=1000, batch_size=128):
	self.input_channels = input_channels
	self.action_size = action_size
	self.gamma = gamma
	self.epsilon = epsilon_start
	self.epsilon_end = epsilon_end
	self.epsilon_decay = epsilon_decay
	self.batch_size = batch_size
	self.target_update_freq = target_update_freq

	# 主网络和目标网络
	self.policy_net = DQN(input_channels, action_size).to(device)
	self.target_net = DQN(input_channels, action_size).to(device)
	self.target_net.load_state_dict(self.policy_net.state_dict())
	self.target_net.eval()

	self.optimizer = optim.Adam(self.policy_net.parameters(), lr=lr, weight_decay=1e-5)
	self.memory = PrioritizedReplayBuffer(50000)
	self.steps_done = 0
	self.loss_fn = nn.SmoothL1Loss(reduction='none')

	def select_action(self, state, valid_moves):
	self.steps_done += 1
	self.epsilon = max(self.epsilon_end, self.epsilon * self.epsilon_decay)

	if random.random() < self.epsilon:
	# 随机选择有效动作
	return random.choice(valid_moves)
	else:
	# 使用策略网络选择动作
	with torch.no_grad():
	state_tensor = torch.tensor(state, dtype=torch.float).unsqueeze(0).to(device)
	q_values = self.policy_net(state_tensor).cpu().numpy().flatten()

	# 只考虑有效动作
	valid_q_values = np.full(self.action_size, -np.inf)
	for move in valid_moves:
	valid_q_values[move] = q_values[move]

	return np.argmax(valid_q_values)

	def optimize_model(self, beta=0.4):
	if len(self.memory) < self.batch_size:
	return 0

	# 从回放缓冲区采样
	sample = self.memory.sample(self.batch_size, beta)
	if sample is None:
	return 0

	states, actions, rewards, next_states, dones, indices, weights = sample

	states = states.to(device)
	actions = actions.to(device)
	rewards = rewards.to(device)
	next_states = next_states.to(device)
	dones = dones.to(device)
	weights = weights.to(device)

	# 计算当前Q值
	current_q = self.policy_net(states).gather(1, actions.unsqueeze(1)).squeeze()

	# 计算目标Q值（Double DQN）
	with torch.no_grad():
	next_actions = self.policy_net(next_states).max(1)[1]
	next_q = self.target_net(next_states).gather(1, next_actions.unsqueeze(1)).squeeze()
	target_q = rewards + (1 - dones) * self.gamma * next_q

	# 计算损失
	losses = self.loss_fn(current_q, target_q)
	loss = (losses * weights).mean()

	# 更新优先级（使用每个样本的损失绝对值）
	with torch.no_grad():
	priorities = losses.abs().cpu().numpy() + 1e-5
	self.memory.update_priorities(indices, priorities)

	# 优化模型
	self.optimizer.zero_grad()
	loss.backward()

	# 梯度裁剪
	torch.nn.utils.clip_grad_norm_(self.policy_net.parameters(), 10)

	self.optimizer.step()

	return loss.item()

	def update_target_network(self):
	self.target_net.load_state_dict(self.policy_net.state_dict())

	def save_model(self, path):
	torch.save({
	'policy_net_state_dict': self.policy_net.state_dict(),
	'target_net_state_dict': self.target_net.state_dict(),
	'optimizer_state_dict': self.optimizer.state_dict(),
	'epsilon': self.epsilon,
	'steps_done': self.steps_done
	}, path)

	def load_model(self, path):
	if not os.path.exists(path):
	print(f"Model file not found: {path}")
	return

	try:
	# 尝试使用 weights_only=False 加载模型
	checkpoint = torch.load(path, map_location=device, weights_only=False)
	self.policy_net.load_state_dict(checkpoint['policy_net_state_dict'])
	self.target_net.load_state_dict(checkpoint['target_net_state_dict'])
	self.optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
	self.epsilon = checkpoint['epsilon']
	self.steps_done = checkpoint['steps_done']
	self.policy_net.eval()
	self.target_net.eval()
	print(f"Model loaded successfully from {path}")
	except Exception as e:
	print(f"Error loading model: {e}")
	# 尝试使用旧版加载方式作为备选
	try:
	warnings.warn("Trying legacy load method without weights_only")
	checkpoint = torch.load(path, map_location=device)
	self.policy_net.load_state_dict(checkpoint['policy_net_state_dict'])
	self.target_net.load_state_dict(checkpoint['target_net_state_dict'])
	self.optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
	self.epsilon = checkpoint['epsilon']
	self.steps_done = checkpoint['steps_done']
	self.policy_net.eval()
	self.target_net.eval()
	print(f"Model loaded successfully using legacy method")
	except Exception as e2:
	print(f"Failed to load model: {e2}")
	# 训练函数（带进度记录）
	def train_agent(agent, env, episodes=5000, save_path='models/dqn_2048.pth',
	checkpoint_path='models/checkpoint.pth', resume=False, start_episode=0):
	# 创建保存模型的目录
	os.makedirs(os.path.dirname(save_path), exist_ok=True)

	# 记录训练指标
	scores = []
	max_tiles = []
	avg_scores = []
	losses = []
	best_score = 0
	best_max_tile = 0

	# 如果续训，加载训练状态
	if resume and os.path.exists(checkpoint_path):
	try:
	# 使用 weights_only=False 加载检查点
	checkpoint = torch.load(checkpoint_path, map_location=device, weights_only=False)
	scores = checkpoint['scores']
	max_tiles = checkpoint['max_tiles']
	avg_scores = checkpoint['avg_scores']
	losses = checkpoint['losses']
	best_score = checkpoint.get('best_score', 0)
	best_max_tile = checkpoint.get('best_max_tile', 0)
	print(f"Resuming training from episode {start_episode}...")
	except Exception as e:
	print(f"Error loading checkpoint: {e}")
	print("Starting training from scratch...")
	resume = False

	if not resume:
	start_episode = 0

	# 使用tqdm显示进度条
	progress_bar = tqdm(range(start_episode, episodes), desc="Training")

	for episode in progress_bar:
	state = env.reset()
	total_reward = 0
	done = False
	steps = 0
	episode_loss = 0
	loss_count = 0

	while not done:
	valid_moves = env.get_valid_moves()
	if not valid_moves:
	done = True
	continue

	action = agent.select_action(state, valid_moves)
	next_state, reward, done = env.move(action)
	total_reward += reward

	agent.memory.push(state, action, reward, next_state, done)
	state = next_state

	# 优化模型
	loss = agent.optimize_model(beta=min(1.0, episode / 1000))
	if loss > 0:
	episode_loss += loss
	loss_count += 1

	# 定期更新目标网络
	if agent.steps_done % agent.target_update_freq == 0:
	agent.update_target_network()

	steps += 1

	# 记录分数和最大方块
	score = env.score
	max_tile = np.max(env.board)
	scores.append(score)
	max_tiles.append(max_tile)

	# 计算平均损失
	avg_loss = episode_loss / loss_count if loss_count > 0 else 0
	losses.append(avg_loss)

	# 更新最佳记录
	if score > best_score:
	best_score = score
	agent.save_model(save_path.replace('.pth', '_best_score.pth'))
	if max_tile > best_max_tile:
	best_max_tile = max_tile
	agent.save_model(save_path.replace('.pth', '_best_tile.pth'))

	# 计算最近100轮平均分数
	recent_scores = scores[-100:] if len(scores) >= 100 else scores
	avg_score = np.mean(recent_scores)
	avg_scores.append(avg_score)

	# 更新进度条描述
	progress_bar.set_description(
	f"Ep {episode+1}/{episodes} \| "
	f"Score: {score} (Avg: {avg_score:.1f}) \| "
	f"Max Tile: {max_tile} \| "
	f"Loss: {avg_loss:.4f} \| "
	f"Epsilon: {agent.epsilon:.4f}"
	)

	# 定期保存模型和训练状态
	if (episode + 1) % 100 == 0:
	agent.save_model(save_path)

	# 保存训练状态
	checkpoint = {
	'scores': scores,
	'max_tiles': max_tiles,
	'avg_scores': avg_scores,
	'losses': losses,
	'best_score': best_score,
	'best_max_tile': best_max_tile,
	'episode': episode + 1,
	'steps_done': agent.steps_done,
	'epsilon': agent.epsilon
	}
	try:
	torch.save(checkpoint, checkpoint_path)
	except Exception as e:
	print(f"Error saving checkpoint: {e}")

	# 绘制训练曲线
	if episode > 100: # 确保有足够的数据
	plt.figure(figsize=(12, 8))

	# 分数曲线
	plt.subplot(2, 2, 1)
	plt.plot(scores, label='Score')
	plt.plot(avg_scores, label='Avg Score (100 eps)')
	plt.xlabel('Episode')
	plt.ylabel('Score')
	plt.title('Training Scores')
	plt.legend()

	# 最大方块曲线
	plt.subplot(2, 2, 2)
	plt.plot(max_tiles, 'g-')
	plt.xlabel('Episode')
	plt.ylabel('Max Tile')
	plt.title('Max Tile Achieved')

	# 损失曲线
	plt.subplot(2, 2, 3)
	plt.plot(losses, 'r-')
	plt.xlabel('Episode')
	plt.ylabel('Loss')
	plt.title('Training Loss')

	# 分数分布直方图
	plt.subplot(2, 2, 4)
	plt.hist(scores, bins=20, alpha=0.7)
	plt.xlabel('Score')
	plt.ylabel('Frequency')
	plt.title('Score Distribution')

	plt.tight_layout()
	plt.savefig('training_progress.png')
	plt.close()

	# 保存最终模型
	agent.save_model(save_path)

	return scores, max_tiles, losses
	# 推理函数（带可视化）
	def play_with_model(agent, env, episodes=3):
	agent.epsilon = 0.001 # 设置很小的epsilon值进行推理

	for episode in range(episodes):
	state = env.reset()
	done = False
	steps = 0

	print(f"\nEpisode {episode+1}")
	print("Initial Board:")
	print(env.board)

	while not done:
	valid_moves = env.get_valid_moves()
	if not valid_moves:
	done = True
	print("No valid moves left!")
	continue

	# 选择动作
	with torch.no_grad():
	state_tensor = torch.tensor(state, dtype=torch.float).unsqueeze(0).to(device)
	q_values = agent.policy_net(state_tensor).cpu().numpy().flatten()

	# 只考虑有效动作
	valid_q_values = np.full(env.size, -np.inf)
	for move in valid_moves:
	valid_q_values[move] = q_values[move]

	action = np.argmax(valid_q_values)

	# 执行动作
	next_state, reward, done = env.move(action)
	state = next_state
	steps += 1

	# 渲染游戏
	print(f"\nStep {steps}: Action {['Up', 'Right', 'Down', 'Left'][action]}")
	print(env.board)
	print(f"Score: {env.score}, Max Tile: {np.max(env.board)}")
	#同时将结果保存至result.txt文件中
	with open("result.txt", "a") as f:
	f.write(f"Episode {episode+1}, Step {steps}, Action {['Up', 'Right', 'Down', 'Left'][action]}, Score: {env.score}, Max Tile: {np.max(env.board)}\n{env.board}\n")
	f.close()


	print(f"\nGame Over! Final Score: {env.score}, Max Tile: {np.max(env.board)}")

	# 主程序
	if __name__ == "__main__":
	args = {"train":0, "resume":0, "play":1, "episodes":50000}
	env = Game2048(size=4)
	input_channels = 4 # 状态表示的通道数
	action_size = 4 # 上、右、下、左

	agent = DQNAgent(
	input_channels,
	action_size,
	lr=1e-4,
	epsilon_decay=0.999, # 更慢的衰减
	target_update_freq=1000,
	batch_size=256
	)

	# 训练模型
	if args.get('train') or args.get('resume'):
	print("Starting training...")

	# 如果续训，加载检查点
	start_episode = 0
	checkpoint_path = 'models/checkpoint.pth'
	if args.get('resume') and os.path.exists(checkpoint_path):
	try:
	# 使用 weights_only=False 加载检查点
	checkpoint = torch.load(checkpoint_path, map_location=device, weights_only=False)
	start_episode = checkpoint.get('episode', 0)
	agent.steps_done = checkpoint.get('steps_done', 0)
	agent.epsilon = checkpoint.get('epsilon', agent.epsilon)
	except Exception as e:
	print(f"Error loading checkpoint: {e}")
	print("Starting training from scratch...")
	start_episode = 0

	scores, max_tiles, losses = train_agent(
	agent,
	env,
	episodes=args.get('episodes'),
	save_path='models/dqn_2048.pth',
	checkpoint_path=checkpoint_path,
	resume=args.get('resume'),
	start_episode=start_episode
	)
	print("Training completed!")

	# 绘制最终训练结果
	plt.figure(figsize=(15, 10))

	plt.subplot(3, 1, 1)
	plt.plot(scores)
	plt.title('Scores per Episode')
	plt.xlabel('Episode')
	plt.ylabel('Score')

	plt.subplot(3, 1, 2)
	plt.plot(max_tiles)
	plt.title('Max Tile per Episode')
	plt.xlabel('Episode')
	plt.ylabel('Max Tile')

	plt.subplot(3, 1, 3)
	plt.plot(losses)
	plt.title('Training Loss per Episode')
	plt.xlabel('Episode')
	plt.ylabel('Loss')

	plt.tight_layout()
	plt.savefig('final_training_results.png')
	plt.close()

	# 加载模型并推理
	if args.get('play'):
	model_path = 'models/dqn_2048_best_tile.pth'
	if not os.path.exists(model_path):
	model_path = 'models/dqn_2048.pth'

	if os.path.exists(model_path):
	agent.load_model(model_path)
	print("Playing with trained model...")
	if not os.path.exists("result.txt"):
	play_with_model(agent, env, episodes=1)
	else:
	os.remove("result.txt") #删除之前记录
	play_with_model(agent, env, episodes=1)

	else:
	print("No trained model found. Please train the model first.")