# 伪代码：Grad-CAM可视化
def generate_gradcam(model, image, target_layer):
    # 前向传播
    outputs = model(image)

    # 反向传播获取梯度
    gradients = compute_gradients(outputs, target_layer)

    # 计算权重
    weights = global_average_pooling(gradients)

    # 生成热力图
    heatmap = weighted_combination(target_layer, weights)

    return heatmap

特征图可视化

10.3.2 检测结果可视化

置信度分布

# 伪代码：置信度分析
def analyze_confidence_distribution(detections):
    confidences = [det.confidence for det in detections]

    # 绘制置信度分布直方图
    plt.hist(confidences, bins=50)
    plt.xlabel('Confidence Score')
    plt.ylabel('Count')
    plt.title('Confidence Distribution')

    # 分析不同置信度阈值的影响
    for threshold in [0.1, 0.3, 0.5, 0.7, 0.9]:
        filtered_dets = filter_by_confidence(detections, threshold)
        print(f"Threshold {threshold}: {len(filtered_dets)} detections")

PR曲线可视化

# 伪代码：PR曲线绘制
def plot_pr_curve(precisions, recalls, ap_score):
    plt.figure(figsize=(8, 6))
    plt.plot(recalls, precisions, linewidth=2)
    plt.xlabel('Recall')
    plt.ylabel('Precision')
    plt.title(f'Precision-Recall Curve (AP = {ap_score:.3f})')
    plt.grid(True)
    plt.show()

10.3.3 错误样本分析

失败案例可视化

10.4 A/B测试与模型对比

10.4.1 实验设计原则

对照实验设计

评价维度

精度维度： mAP、AP@不同IoU阈值
速度维度： FPS、推理时间
资源维度： 内存占用、GPU利用率
鲁棒性： 不同场景下的性能表现

10.4.2 统计显著性测试

t-检验

# 伪代码：性能差异显著性检验
from scipy import stats

def significance_test(model_a_scores, model_b_scores):
    # 进行配对t检验
    t_stat, p_value = stats.ttest_rel(model_a_scores, model_b_scores)

    alpha = 0.05
    if p_value < alpha:
        print("性能差异具有统计显著性")
    else:
        print("性能差异不具有统计显著性")

    return t_stat, p_value

效应量计算

# Cohen's d 效应量
def cohens_d(group1, group2):
    pooled_std = np.sqrt(((len(group1) - 1) * np.var(group1) +
                         (len(group2) - 1) * np.var(group2)) /
                        (len(group1) + len(group2) - 2))
    return (np.mean(group1) - np.mean(group2)) / pooled_std

10.4.3 模型对比报告

综合性能对比表

模型	mAP@0.5	mAP@0.75	FPS	参数量(M)	模型大小(MB)
YOLOv5s	37.2	56.0	140	7.2	14.1
YOLOv8s	44.9	61.8	120	11.2	21.5
YOLOv9s	46.8	63.4	110	13.8	26.7

性能-效率权衡图

10.5 评估实践指南

10.5.1 评估数据集准备

测试集要求

代表性： 反映真实应用场景
多样性： 覆盖各种条件和挑战
标注质量： 准确、一致的标注
规模适当： 足够的统计显著性

数据集划分策略

10.5.2 评估工具与框架

常用评估工具

COCO API： 官方COCO评估工具
mAP计算库： 如mean-average-precision
可视化工具： TensorBoard, Weights & Biases
统计分析： Python scipy, R语言

自动化评估流程

# 伪代码：自动化评估流程
class ModelEvaluator:
    def __init__(self, model, test_dataset):
        self.model = model
        self.test_dataset = test_dataset

    def evaluate(self):
        predictions = []
        ground_truths = []

        for batch in self.test_dataset:
            pred = self.model.predict(batch.images)
            predictions.extend(pred)
            ground_truths.extend(batch.annotations)

        # 计算各种指标
        metrics = self.compute_metrics(predictions, ground_truths)

        # 生成报告
        self.generate_report(metrics)

        return metrics

    def compute_metrics(self, preds, gts):
        return {
            'mAP@0.5': compute_map(preds, gts, iou_thresh=0.5),
            'mAP@0.75': compute_map(preds, gts, iou_thresh=0.75),
            'FPS': measure_fps(self.model),
            'model_size': get_model_size(self.model)
        }

10.5.3 评估最佳实践

评估原则

多角度评估： 精度、速度、资源消耗
场景化测试： 针对具体应用场景
长期监控： 持续跟踪模型性能
可复现性： 详细记录评估条件

常见陷阱与避免方法

本章小结

模型评估与性能分析是YOLO目标检测项目中的关键环节，直接影响模型的实际应用效果。通过本章学习，我们掌握了：

评价指标体系： 从IoU、Precision/Recall到mAP的完整评价体系
性能分析方法： 包括错误分析、瓶颈识别和可视化技术
模型对比技巧： A/B测试设计和统计显著性检验
实践指导： 评估流程设计和最佳实践总结

掌握这些评估方法，能够帮助我们：

客观评价模型性能
发现模型问题和改进方向
指导模型优化和选择
确保模型的实际应用效果

在下一章中，我们将学习如何根据评估结果进行模型优化与加速，进一步提升YOLO模型的实用性。