Tests de Performance des Modèles Qwen3 avec Ollama sur Matériel Hétérogène

Laboratoire SysOps.fr

Tests de Performance des Modèles Qwen3 avec Ollama sur Matériel Hétérogène

Le Labo SysOps.fr présente ici les résultats de tests de performance réalisés avec Ollama et les modèles Qwen3, dans le cadre d’une recherche sur l’optimisation des LLM sur du matériel hétérogène.

1. Objectif des Tests

Ces expérimentations visent à évaluer :

Les performances d’inférence de différents modèles Qwen3
L’impact des configurations Ollama sur la vitesse de génération
La consommation de VRAM selon les quantifications
Les compromis vitesse/précision/mémoire

2. Environnement Matériel

Serveur : HP ProLiant DL380 Gen9

CPU : 2x Xeon E5-2620 v4 @ 2.10GHz (16 cœurs / 32 threads)

RAM : 80 GB DDR4 (48 GB CPU1 + 32 GB CPU2)

GPU : 2x NVIDIA Tesla P40 (24 GB VRAM chacune)

Driver : 575.51.03 / CUDA 12.9

3. Résultats de Performance

Config	Modèle	VRAM	Temps Total	Eval Rate
1	Qwen3-q4_K_M (64K)	39 GB	56.85s	10.13 t/s
2	Qwen3-q4_K_M (64K)	39 GB	27.89s	21.81 t/s
3	Qwen3-q4_K_M (64K)	19 GB	26.65s	21.23 t/s
4	Qwen3-q4_K_M (64K)	39 GB	24.95s	21.95 t/s
5	Qwen3-q4_K_M (64K)	39 GB	24.41s	21.06 t/s
6	Qwen3-Q8_0 (40K)	22 GB	39.57s	15.53 t/s
7	Qwen3-Q8_0 (64K)	46 GB	54.23s	14.63 t/s
8	Qwen3-Q8_0 (64K)	46 GB	43.42s	15.76 t/s

4. Enseignements Clés

4.1. Impact de la Quantification

La quantification q4 offre des vitesses de génération significativement supérieures (21+ t/s) contre 15 t/s en Q8_0, au prix d’une légère perte de précision.

4.2. Optimisation de la VRAM

La config 3 (19 GB) démontre qu’une configuration optimale peut réduire la consommation de mémoire tout en maintenant d’excellentes performances (21.23 t/s).

4.3. Influence du Contexte

Les contextes longs (64K) augmentent la consommation de VRAM (jusqu’à 46 GB) mais permettent des traitements de documents plus complets.

5. Configuration Recommandée

Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="CUDA_VISIBLE_DEVICES=0,1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=Q8_0"
# NE PAS définir OLLAMA_NUM_PARALLEL

Cette configuration offre le meilleur compromis vitesse/qualité/consommation pour un déploiement en production.