Kernels:

flashrt
/

flashrt-fp8-swiglu-ffn

Kernel card Files Files and versions

FlashRT FP8 GeGLU/SwiGLU FFN

This package provides Hugging Face Kernel Hub wrappers for FlashRT FP8 GeGLU/SwiGLU FFN building blocks:

FP8 input -> FP8 gate/up GEMM -> gate activation * up -> FP8 requant -> FP8 down GEMM -> BF16 output

It is intended for Gemma-style VLA/VLM language blocks and other FFN islands where static FP8 activations and weights are already available.

Kernels

fp8_gemm_bf16: FP8 E4M3 GEMM with scalar input/weight scales and BF16 output.
silu_mul_merged_quantize_fp8_static_bf16: split merged BF16 gate/up output, compute SiLU(gate) * up, and requantize to FP8 E4M3.
gelu_mul_merged_quantize_fp8_static_bf16: split merged BF16 gate/up output, compute GELU_tanh(gate) * up, and requantize to FP8 E4M3.
fp8_swiglu_mlp_bf16: full FP8 SwiGLU MLP block with explicit optional scratch buffers.
fp8_geglu_mlp_bf16: full FP8 GeGLU MLP block with explicit optional scratch buffers.

When To Use

Use fp8_geglu_mlp_bf16 for Gemma/PI0.5-style gelu_pytorch_tanh(gate) * up. Use fp8_swiglu_mlp_bf16 for true SiLU(gate) * up blocks.

Use this package for static-shape model hot paths where the surrounding runtime can keep FP8 tensors, weights, scales, and scratch buffers resident. Avoid one-off calls between many unfused BF16 operations when reporting end-to-end speedups; that measures Python/runtime boundaries instead of kernel value.

Hardware

CUDA 12.8+
FP8-capable NVIDIA GPUs with cuBLASLt FP8 support

Current local smoke validation is on RTX 5090. Full multi-hardware claims must come from the repository validation matrix.

Notes

This package is a Tensor API integration layer. The upstream serving source of truth remains FlashRT:

https://github.com/LiangSu8899/FlashRT

Downloads last month: 3

Supported hardwares new

CUDA

7.58.08.68.78.99.010.011.012.012.1+PTX

NVIDIA SXM

B200

192GB

NVIDIA SXM

H200

141GB

NVIDIA SXM

H100

80GB

GPU

L40s

48GB

GPU

L40

48GB

GPU

L20

48GB

GPU

L4

24GB

DGX Spark

GB10

128GB

GPU

RTX PRO 6000 WS

96GB

GPU

RTX PRO 6000 Max-Q

96GB

GPU

RTX PRO 5000

48GB

GPU

RTX PRO 4500 WS

32GB

GPU

RTX PRO 4000

24GB

GPU

RTX PRO 4000 SFF

24GB

GPU

RTX PRO 2000

16GB

GPU

RTX 6000 Ada

48GB

GPU

RTX 5880 Ada

48GB

RTX

RTX 5000 Ada

32GB

GPU

RTX 4500 Ada

24GB

RTX

RTX 4000 Ada

20GB

RTX

RTX 4000 SFF Ada

20GB

GPU

RTX 2000 Ada

16GB

GPU

RTX A6000

48GB

GPU

RTX A5000

8GB

GPU

RTX A5000 Max-Q

16GB

GPU

RTX A5000 Mobile

16GB

GPU

RTX A4000

16GB

GPU

RTX A4000 Max-Q

8GB

GPU

RTX A4000 Mobile

8GB

GPU

RTX A3000 Mobile

6GB

GPU

RTX A2000

6GB

GPU

RTX A2000 Embedded

4GB

GPU

RTX A2000 Max-Q

4GB

GPU

RTX A2000 Mobile

4GB

GPU

A100

80GB

GPU

A40

48GB

GPU

A30

24GB

GPU

A10

24GB

GPU

A2

16GB

RTX

RTX 5090

32GB

RTX

RTX 5090 D

32GB

RTX

RTX 5090 Mobile

24GB

RTX

RTX 5080

16GB

RTX

RTX 5080 Mobile

16GB

RTX

RTX 5070

12GB

RTX

RTX 5070 Mobile

8GB

RTX

RTX 5070 Ti

16GB

RTX

RTX 5070 Ti Mobile

12GB

RTX

RTX 5060 Ti

16GB

RTX

RTX 5060

8GB

RTX

RTX 5060 Mobile

8GB

RTX

RTX 4090

24GB

RTX

RTX 4090D

24GB

RTX

RTX 4090 Mobile

16GB

RTX

RTX 4080 SUPER

16GB

RTX

RTX 4080

16GB

RTX

RTX 4080 Mobile

12GB

RTX

RTX 4070

12GB

RTX

RTX 4070 Mobile

8GB

RTX

RTX 4070 Ti

12GB

RTX

RTX 4070 Super

12GB

RTX

RTX 4070 Ti Super

16GB

RTX

RTX 4060

8GB

RTX

RTX 4060 Ti

8GB

RTX

RTX 4090 Laptop

16GB

RTX

RTX 4080 Laptop

12GB

RTX

RTX 4070 Laptop

8GB

RTX

RTX 4060 Laptop

8GB

RTX

RTX 4050 Laptop

6GB

RTX

RTX 3090

24GB

RTX

RTX 3090 Ti

24GB

RTX

RTX 3080

12GB

RTX

RTX 3080 Ti

12GB

RTX

RTX 3080 Mobile

16GB

RTX

RTX 3070

8GB

RTX

RTX 3070 Ti

8GB

RTX

RTX 3070 Ti Mobile

8GB

RTX

RTX 3060 Ti

8GB

RTX

RTX 3060

12GB

GPU

RTX 2080 Ti

11GB

GPU

RTX 2080

8GB

GPU

RTX 2070

8GB

GPU

RTX 2070 SUPER Mobile

8GB

GPU

RTX 2070 SUPER

8GB

RTX

RTX 3060 Mobile

6GB

RTX

RTX 3050 Mobile

4GB

GPU

RTX 2060

6GB

GPU

RTX 2060 12GB

12GB

GPU

RTX 2060 Mobile

6GB

GPU

RTX 2050 Mobile

4GB

GPU

RTX Titan

24GB

GPU

GTX 1660

6GB

GPU

GTX 1650 Mobile

4GB

NVIDIA T4

T4

16GB

GPU

T10

16GB

Jetson

Jetson AGX Orin 64GB

64GB

Jetson

Jetson AGX Orin 32GB

32GB

Jetson

Jetson Orin NX 16GB

16GB

Jetson

Jetson Orin NX 8GB

8GB

Jetson

Jetson Orin Nano 8GB

8GB

Jetson

Jetson Orin Nano 4GB

4GB

OS: linux

Arch: x86_64