Chapter 11: Model Optimization and Acceleration

Haiyue

October 2, 2025

24min

Chapter 11: Model Optimization and Acceleration

Learning Objectives

Master model compression techniques (pruning, quantization, distillation)
Learn inference acceleration methods (TensorRT, ONNX, etc.)
Understand mobile deployment optimization techniques
Become familiar with hardware acceleration and parallel computing

11.1 Overview of Model Compression Techniques

11.1.1 Necessity of Model Compression

The core objective of model compression techniques is to reduce computational complexity and storage requirements while maintaining model performance.

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Model Compression Motivation] --> B[Storage Limitations]
    A --> C[Computing Resource Limitations]
    A --> D[Energy Considerations]
    A --> E[Real-time Requirements]

    B --> B1[Limited storage on mobile devices]
    C --> C1[Insufficient computing power on edge devices]
    D --> D1[Battery life considerations]
    E --> E1[Real-time detection needs]

11.1.2 Classification of Compression Techniques

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Model Compression Techniques] --> B[Structured Compression]
    A --> C[Unstructured Compression]

    B --> B1[Channel Pruning]
    B --> B2[Layer Pruning]
    B --> B3[Block Pruning]

    C --> C1[Weight Pruning]
    C --> C2[Activation Pruning]

    A --> D[Quantization Techniques]
    D --> D1[Post-training Quantization]
    D --> D2[Quantization-aware Training]

    A --> E[Knowledge Distillation]
    E --> E1[Teacher-Student Network]
    E --> E2[Feature Distillation]

11.2 Model Pruning Techniques

11.2.1 Weight Pruning

Importance-based Pruning

Weight pruning reduces model parameters by removing unimportant connections.

# Pseudocode: L1 norm-based weight pruning
import torch
import torch.nn as nn

def magnitude_pruning(model, pruning_ratio):
    """
    Magnitude-based weight pruning
    """
    # Collect all weights
    weights = []
    for module in model.modules():
        if isinstance(module, nn.Conv2d) or isinstance(module, nn.Linear):
            weights.extend(module.weight.data.abs().flatten())

    # Calculate threshold
    weights_tensor = torch.cat(weights)
    threshold = torch.quantile(weights_tensor, pruning_ratio)

    # Apply pruning
    for module in model.modules():
        if isinstance(module, nn.Conv2d) or isinstance(module, nn.Linear):
            mask = module.weight.data.abs() > threshold
            module.weight.data *= mask.float()

    return model

Structured Pruning

🔄 正在渲染 Mermaid 图表...

graph LR
    A[Original Network] --> B[Channel Importance Evaluation]
    B --> C[Select Channels to Prune]
    C --> D[Remove Entire Channels]
    D --> E[Fine-tune Remaining Network]

    subgraph "Channel Pruning Process"
        F[Conv Layer 128 Channels] --> G[After Pruning 96 Channels]
    end

11.2.2 YOLO Model Pruning Practice

YOLOv5 Pruning Example

# Pseudocode: YOLOv5 channel pruning
class YOLOv5Pruner:
    def __init__(self, model, pruning_ratio=0.3):
        self.model = model
        self.pruning_ratio = pruning_ratio

    def channel_pruning(self):
        """
        Channel pruning for YOLOv5
        """
        # Calculate channel importance for each conv layer
        channel_importance = self.compute_channel_importance()

        # Determine channels to prune
        channels_to_prune = self.select_channels_to_prune(channel_importance)

        # Execute pruning
        pruned_model = self.prune_channels(channels_to_prune)

        return pruned_model

    def compute_channel_importance(self):
        """
        Calculate channel importance (based on BatchNorm gamma parameters)
        """
        importance_scores = {}
        for name, module in self.model.named_modules():
            if isinstance(module, nn.BatchNorm2d):
                # Use BatchNorm gamma parameter as importance metric
                importance_scores[name] = module.weight.data.abs()
        return importance_scores

11.2.3 Fine-tuning Strategy After Pruning

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Pruned Model] --> B[Low Learning Rate Fine-tuning]
    B --> C[Gradually Recover Performance]
    C --> D[Monitor Validation Set]
    D --> E{Performance Recovery Satisfactory?}
    E -->|No| F[Adjust Fine-tuning Strategy]
    E -->|Yes| G[Complete Pruning]
    F --> B

11.3 Model Quantization Techniques

11.3.1 Quantization Fundamentals

Numerical Precision Comparison

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Numerical Precision] --> B[FP32 32-bit Float]
    A --> C[FP16 16-bit Float]
    A --> D[INT8 8-bit Integer]
    A --> E[INT4 4-bit Integer]

    B --> B1[Precision: Highest<br/>Speed: Slowest<br/>Storage: Largest]
    C --> C1[Precision: High<br/>Speed: Medium<br/>Storage: Medium]
    D --> D1[Precision: Medium<br/>Speed: Fast<br/>Storage: Small]
    E --> E1[Precision: Low<br/>Speed: Fastest<br/>Storage: Smallest]

Quantization Mapping Formula

Quantized Value = round((Float Value - zero_point) / scale)
Dequantized Value = Quantized Value * scale + zero_point

11.3.2 Post-training Quantization (PTQ)

Static Quantization

# Pseudocode: PyTorch static quantization
import torch.quantization as quantization

def static_quantize_model(model, calibration_loader):
    """
    Static quantization of model
    """
    # Set quantization configuration
    model.qconfig = quantization.get_default_qconfig('fbgemm')

    # Prepare quantization
    quantization.prepare(model, inplace=True)

    # Calibration process
    model.eval()
    with torch.no_grad():
        for data, _ in calibration_loader:
            model(data)

    # Convert to quantized model
    quantized_model = quantization.convert(model)

    return quantized_model

Dynamic Quantization

# Pseudocode: Dynamic quantization
def dynamic_quantize_model(model):
    """
    Dynamic quantization of model
    """
    quantized_model = torch.quantization.quantize_dynamic(
        model,
        {nn.Conv2d, nn.Linear},  # Layer types to quantize
        dtype=torch.qint8
    )
    return quantized_model

11.3.3 Quantization-aware Training (QAT)

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Original FP32 Model] --> B[Insert Fake Quantization Nodes]
    B --> C[QAT Training]
    C --> D[Simulate Quantization Effects]
    D --> E[Normal Gradient Backpropagation]
    E --> F[Final Quantized Model]

    subgraph "QAT Process"
        G[Forward Pass] --> H[Fake Quantization]
        H --> I[Compute Loss]
        I --> J[Backward Pass]
        J --> G
    end

# Pseudocode: Quantization-aware training
def quantization_aware_training(model, train_loader, epochs=10):
    """
    Quantization-aware training
    """
    # Set QAT configuration
    model.qconfig = quantization.get_default_qat_qconfig('fbgemm')

    # Prepare QAT
    quantization.prepare_qat(model, inplace=True)

    # Training loop
    for epoch in range(epochs):
        model.train()
        for batch_idx, (data, target) in enumerate(train_loader):
            optimizer.zero_grad()
            output = model(data)
            loss = criterion(output, target)
            loss.backward()
            optimizer.step()

    # Convert to quantized model
    model.eval()
    quantized_model = quantization.convert(model)
    return quantized_model

11.4 Knowledge Distillation Techniques

11.4.1 Basic Knowledge Distillation

Teacher-Student Network Architecture

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Teacher Model<br/>Large model, high accuracy] --> C[Knowledge Transfer]
    B[Student Model<br/>Small model, to be trained] --> C
    C --> D[Distillation Loss]

    subgraph "Types of Knowledge"
        E[Soft Label Knowledge]
        F[Feature Knowledge]
        G[Attention Knowledge]
    end

    C --> E
    C --> F
    C --> G

Distillation Loss Function

# Pseudocode: Knowledge distillation loss
import torch.nn.functional as F

def distillation_loss(student_logits, teacher_logits, target, temperature=4, alpha=0.7):
    """
    Calculate knowledge distillation loss
    """
    # Soft label loss (distillation loss)
    soft_loss = F.kl_div(
        F.log_softmax(student_logits / temperature, dim=1),
        F.softmax(teacher_logits / temperature, dim=1),
        reduction='batchmean'
    ) * (temperature ** 2)

    # Hard label loss (classification loss)
    hard_loss = F.cross_entropy(student_logits, target)

    # Total loss
    total_loss = alpha * soft_loss + (1 - alpha) * hard_loss
    return total_loss

11.4.2 YOLO Knowledge Distillation

Feature-level Distillation

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Teacher YOLO] --> B[Backbone Features]
    A --> C[FPN Features]
    A --> D[Detection Head Features]

    E[Student YOLO] --> F[Corresponding Backbone Features]
    E --> G[Corresponding FPN Features]
    E --> H[Corresponding Detection Features]

    B --> I[Feature Distillation Loss 1]
    C --> J[Feature Distillation Loss 2]
    D --> K[Feature Distillation Loss 3]

    F --> I
    G --> J
    H --> K

# Pseudocode: YOLO feature distillation
class YOLODistillation:
    def __init__(self, teacher_model, student_model):
        self.teacher = teacher_model
        self.student = student_model

    def feature_distillation_loss(self, teacher_features, student_features):
        """
        Calculate feature-level distillation loss
        """
        total_loss = 0
        for t_feat, s_feat in zip(teacher_features, student_features):
            # Feature alignment (if dimensions differ)
            if t_feat.shape != s_feat.shape:
                s_feat = self.align_features(s_feat, t_feat.shape)

            # Calculate feature distillation loss
            loss = F.mse_loss(s_feat, t_feat.detach())
            total_loss += loss

        return total_loss

    def align_features(self, student_feat, target_shape):
        """
        Feature dimension alignment
        """
        # Use 1x1 convolution to adjust channel count
        if student_feat.shape[1] != target_shape[1]:
            student_feat = self.channel_adapter(student_feat)

        # Spatial dimension alignment
        if student_feat.shape[2:] != target_shape[2:]:
            student_feat = F.interpolate(
                student_feat,
                size=target_shape[2:],
                mode='bilinear'
            )

        return student_feat

11.5 Inference Acceleration Techniques

11.5.1 TensorRT Optimization

TensorRT Workflow

🔄 正在渲染 Mermaid 图表...

graph LR
    A[Original Model] --> B[Model Parsing]
    B --> C[Graph Optimization]
    C --> D[Precision Calibration]
    D --> E[Engine Building]
    E --> F[Accelerated Inference]

    subgraph "Optimization Techniques"
        G[Layer Fusion]
        H[Precision Optimization]
        I[Kernel Auto-tuning]
        J[Dynamic Shape Optimization]
    end

    C --> G
    C --> H
    C --> I
    C --> J

TensorRT Model Conversion

# Pseudocode: TensorRT model conversion
import tensorrt as trt

def convert_to_tensorrt(onnx_path, engine_path, precision='fp16'):
    """
    Convert ONNX model to TensorRT engine
    """
    # Create builder and network
    builder = trt.Builder(trt.Logger(trt.Logger.WARNING))
    config = builder.create_builder_config()

    # Set precision
    if precision == 'fp16':
        config.set_flag(trt.BuilderFlag.FP16)
    elif precision == 'int8':
        config.set_flag(trt.BuilderFlag.INT8)
        # Set calibrator
        config.int8_calibrator = create_calibrator()

    # Parse ONNX model
    network = builder.create_network(
        1 << int(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)
    )
    parser = trt.OnnxParser(network, trt.Logger(trt.Logger.WARNING))
    parser.parse_from_file(onnx_path)

    # Build engine
    engine = builder.build_engine(network, config)

    # Save engine
    with open(engine_path, 'wb') as f:
        f.write(engine.serialize())

    return engine

11.5.2 ONNX Optimization

ONNX Model Optimization Pipeline

# Pseudocode: ONNX model optimization
import onnx
from onnxoptimizer import optimize

def optimize_onnx_model(model_path, optimized_path):
    """
    Optimize ONNX model
    """
    # Load model
    model = onnx.load(model_path)

    # Apply optimizations
    optimized_model = optimize(model, [
        'eliminate_deadend',
        'eliminate_identity',
        'eliminate_nop_dropout',
        'eliminate_nop_monotone_argmax',
        'eliminate_nop_pad',
        'extract_constant_to_initializer',
        'eliminate_unused_initializer',
        'eliminate_nop_transpose',
        'fuse_add_bias_into_conv',
        'fuse_bn_into_conv',
        'fuse_consecutive_concats',
        'fuse_consecutive_log_softmax',
        'fuse_consecutive_reduce_unsqueeze',
        'fuse_consecutive_squeezes',
        'fuse_consecutive_transposes',
        'fuse_matmul_add_bias_into_gemm',
        'fuse_pad_into_conv',
        'fuse_transpose_into_gemm'
    ])

    # Save optimized model
    onnx.save(optimized_model, optimized_path)
    return optimized_model

11.5.3 OpenVINO Optimization

OpenVINO Workflow

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Original Model] --> B[Model Optimizer]
    B --> C[Intermediate Representation IR]
    C --> D[Inference Engine]
    D --> E[Hardware Adaptation]

    subgraph "Supported Hardware"
        F[CPU]
        G[GPU]
        H[VPU]
        I[FPGA]
    end

    E --> F
    E --> G
    E --> H
    E --> I

11.6 Mobile Deployment Optimization Techniques

11.6.1 Mobile Deployment Challenges

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Mobile Challenges] --> B[Computing Resource Limitations]
    A --> C[Storage Space Limitations]
    A --> D[Power Constraints]
    A --> E[Real-time Requirements]

    B --> B1[Limited CPU Performance]
    B --> B2[Small Memory Capacity]
    C --> C1[App Package Size Limit]
    D --> D1[Battery Life Considerations]
    E --> E1[User Experience Requirements]

11.6.2 Model Architecture Optimization

Lightweight Network Design

# Pseudocode: MobileNet-style lightweight YOLO
class MobileYOLOBlock(nn.Module):
    def __init__(self, in_channels, out_channels, stride=1):
        super().__init__()

        # Depthwise separable convolution
        self.depthwise = nn.Conv2d(
            in_channels, in_channels,
            kernel_size=3, stride=stride,
            padding=1, groups=in_channels
        )
        self.pointwise = nn.Conv2d(
            in_channels, out_channels,
            kernel_size=1
        )
        self.bn1 = nn.BatchNorm2d(in_channels)
        self.bn2 = nn.BatchNorm2d(out_channels)
        self.relu = nn.ReLU6(inplace=True)

    def forward(self, x):
        x = self.relu(self.bn1(self.depthwise(x)))
        x = self.relu(self.bn2(self.pointwise(x)))
        return x

Channel Attention Mechanism

# Pseudocode: Lightweight attention module
class LightweightAttention(nn.Module):
    def __init__(self, channels, reduction=16):
        super().__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.fc = nn.Sequential(
            nn.Linear(channels, channels // reduction),
            nn.ReLU(inplace=True),
            nn.Linear(channels // reduction, channels),
            nn.Sigmoid()
        )

    def forward(self, x):
        b, c, _, _ = x.size()
        y = self.avg_pool(x).view(b, c)
        y = self.fc(y).view(b, c, 1, 1)
        return x * y.expand_as(x)

11.6.3 Inference Engine Optimization

Core ML Optimization (iOS)

# Pseudocode: Core ML model conversion
import coremltools as ct

def convert_to_coreml(pytorch_model, example_input):
    """
    Convert PyTorch model to Core ML
    """
    # Convert to Core ML
    traced_model = torch.jit.trace(pytorch_model, example_input)
    coreml_model = ct.convert(
        traced_model,
        inputs=[ct.TensorType(shape=example_input.shape)],
        compute_precision=ct.precision.FLOAT16  # Use FP16 precision
    )

    # Optimization settings
    coreml_model = ct.models.neural_network.quantization_utils.quantize_weights(
        coreml_model, nbits=8
    )

    return coreml_model

TensorFlow Lite Optimization

# Pseudocode: TensorFlow Lite conversion
import tensorflow as tf

def convert_to_tflite(saved_model_dir):
    """
    Convert to TensorFlow Lite model
    """
    converter = tf.lite.TFLiteConverter.from_saved_model(saved_model_dir)

    # Enable optimizations
    converter.optimizations = [tf.lite.Optimize.DEFAULT]

    # Quantization settings
    converter.target_spec.supported_types = [tf.float16]

    # Convert
    tflite_model = converter.convert()

    return tflite_model

11.7 Hardware Acceleration Techniques

11.7.1 GPU Acceleration Optimization

CUDA Optimization Techniques

🔄 正在渲染 Mermaid 图表...

graph TB
    A[CUDA Optimization] --> B[Memory Access Optimization]
    A --> C[Compute Density Optimization]
    A --> D[Parallelism Optimization]

    B --> B1[Coalesced Memory Access]
    B --> B2[Reduce Memory Copies]
    C --> C1[Increase Arithmetic Intensity]
    C --> C2[Reduce Branch Divergence]
    D --> D1[Maximize Occupancy]
    D --> D2[Load Balancing]

Mixed Precision Training

# Pseudocode: Mixed precision training
from torch.cuda.amp import autocast, GradScaler

def mixed_precision_training():
    """
    Mixed precision training example
    """
    scaler = GradScaler()

    for batch in dataloader:
        optimizer.zero_grad()

        # Use automatic mixed precision
        with autocast():
            outputs = model(batch.images)
            loss = criterion(outputs, batch.targets)

        # Scale gradients
        scaler.scale(loss).backward()
        scaler.step(optimizer)
        scaler.update()

11.7.2 Multi-core CPU Optimization

Parallel Inference Strategy

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Batch Inference] --> B[Data Parallelism]
    A --> C[Model Parallelism]

    B --> B1[Process Multiple Inputs Simultaneously]
    C --> C1[Split Model Across Multiple Cores]

    D[Single Image Inference] --> E[Pipeline Parallelism]
    E --> E1[Preprocessing]
    E --> E2[Network Inference]
    E --> E3[Post-processing]

# Pseudocode: Multi-threaded inference
import threading
from concurrent.futures import ThreadPoolExecutor

class ParallelInference:
    def __init__(self, model, num_workers=4):
        self.model = model
        self.num_workers = num_workers

    def batch_inference(self, image_batch):
        """
        Batch parallel inference
        """
        with ThreadPoolExecutor(max_workers=self.num_workers) as executor:
            futures = []
            for image in image_batch:
                future = executor.submit(self.single_inference, image)
                futures.append(future)

            results = [future.result() for future in futures]
        return results

    def single_inference(self, image):
        """
        Single image inference
        """
        with torch.no_grad():
            return self.model(image)

11.8 Performance Benchmarking

11.8.1 Benchmarking Framework

Performance Evaluation Dimensions

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Performance Evaluation] --> B[Accuracy Metrics]
    A --> C[Speed Metrics]
    A --> D[Resource Metrics]
    A --> E[Stability Metrics]

    B --> B1[mAP]
    B --> B2[FPS]
    C --> C1[Latency]
    C --> C2[Throughput]
    D --> D1[Memory Usage]
    D --> D2[CPU Utilization]
    E --> E1[Temperature Stability]
    E --> E2[Long-term Operation]

Automated Testing Script

# Pseudocode: Performance benchmarking
class PerformanceBenchmark:
    def __init__(self, model, test_data):
        self.model = model
        self.test_data = test_data

    def run_benchmark(self):
        """
        Run complete performance benchmark
        """
        results = {
            'accuracy': self.measure_accuracy(),
            'latency': self.measure_latency(),
            'throughput': self.measure_throughput(),
            'memory': self.measure_memory_usage(),
            'power': self.measure_power_consumption()
        }

        self.generate_report(results)
        return results

    def measure_latency(self):
        """
        Measure inference latency
        """
        latencies = []

        # Warmup
        for _ in range(10):
            self.model(self.test_data[0])

        # Actual measurement
        for data in self.test_data:
            start_time = time.time()
            with torch.no_grad():
                _ = self.model(data)
            end_time = time.time()
            latencies.append(end_time - start_time)

        return {
            'mean': np.mean(latencies),
            'std': np.std(latencies),
            'p50': np.percentile(latencies, 50),
            'p95': np.percentile(latencies, 95),
            'p99': np.percentile(latencies, 99)
        }

11.8.2 Optimization Effect Evaluation

Compression Ratio vs Accuracy Tradeoff

🔄 正在渲染 Mermaid 图表...

graph LR
    A[Original Model] --> B[Compressed Model]

    A --> A1[mAP: 74.2%<br/>Size: 28MB<br/>FPS: 45]
    B --> B1[mAP: 72.8%<br/>Size: 8MB<br/>FPS: 120]

    B1 --> C[Compression Ratio: 3.5x<br/>Speed Improvement: 2.7x<br/>Accuracy Loss: 1.4%]

11.9 Optimization Practice Guide

11.9.1 Optimization Process Design

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Define Optimization Goals] --> B[Analyze Performance Bottlenecks]
    B --> C[Select Optimization Strategy]
    C --> D[Implement Optimization]
    D --> E[Performance Evaluation]
    E --> F{Goals Achieved?}
    F -->|No| G[Adjust Strategy]
    F -->|Yes| H[Complete Optimization]
    G --> C

11.9.2 Common Optimization Strategy Combinations

Mobile Deployment Optimization Combination

Model Architecture Optimization + Quantization + Pruning
Knowledge Distillation + TensorFlow Lite
Lightweight Network Design + Hardware Adaptation

Server-side Optimization Combination

TensorRT + Mixed Precision + Batching
Model Parallelism + Pipeline Optimization
Dynamic Shape Optimization + Memory Pool Management

11.9.3 Optimization Pitfalls and Solutions

🔄 正在渲染 Mermaid 图表...

graph TB
    A[Common Optimization Pitfalls] --> B[Over-optimization Leading to Accuracy Loss]
    A --> C[Ignoring Actual Deployment Environment]
    A --> D[Single Metric Optimization]
    A --> E[Lack of Long-term Maintenance]

    B --> B1[Set Accuracy Lower Threshold]
    C --> C1[Test in Target Environment]
    D --> D1[Multi-dimensional Comprehensive Evaluation]
    E --> E1[Establish Continuous Monitoring]

Chapter Summary

Model optimization and acceleration are key technologies for bringing YOLO models from the laboratory to practical applications. Through this chapter, we have mastered:

Compression Technique System: Three core techniques - pruning, quantization, and distillation
Inference Acceleration Methods: Acceleration frameworks such as TensorRT, ONNX, and OpenVINO
Mobile Optimization: Lightweight architecture design and mobile adaptation techniques
Hardware Acceleration: GPU and multi-core CPU parallel computing optimization
Performance Evaluation: Comprehensive performance benchmarking and optimization effect assessment

Reasonable combinations of these optimization techniques can:

Significantly reduce model size and computational requirements
Greatly improve inference speed
Maintain relatively high detection accuracy
Adapt to different deployment environments and hardware platforms

In the next chapter, we will learn how to deploy optimized YOLO models to actual production environments, including deployment strategies for servers, mobile devices, and edge devices.