Compiler & Kernel Optimizations

Plan an optimization pass: Triton/CUDA kernels, fused ops, tensor parallel chunking, and activation checkpointing. Provide profiling snapshots and gains.

Author: Assistant

Model: gpt-4o