Tests de Performance des Modèles Qwen3 avec Ollama sur Matériel Hétérogène
Laboratoire SysOps.fr
Tests de Performance des Modèles Qwen3 avec Ollama sur Matériel Hétérogène
Le Labo SysOps.fr présente ici les résultats de tests de performance réalisés avec Ollama et les modèles Qwen3, dans le cadre d’une recherche sur l’optimisation des LLM sur du matériel hétérogène.
1. Objectif des Tests
Ces expérimentations visent à évaluer :
- Les performances d’inférence de différents modèles Qwen3
- L’impact des configurations Ollama sur la vitesse de génération
- La consommation de VRAM selon les quantifications
- Les compromis vitesse/précision/mémoire
2. Environnement Matériel
CPU : 2x Xeon E5-2620 v4 @ 2.10GHz (16 cœurs / 32 threads)
RAM : 80 GB DDR4 (48 GB CPU1 + 32 GB CPU2)
GPU : 2x NVIDIA Tesla P40 (24 GB VRAM chacune)
Driver : 575.51.03 / CUDA 12.9
3. Résultats de Performance
| Config | Modèle | VRAM | Temps Total | Eval Rate |
|---|---|---|---|---|
| 1 | Qwen3-q4_K_M (64K) | 39 GB | 56.85s | 10.13 t/s |
| 2 | Qwen3-q4_K_M (64K) | 39 GB | 27.89s | 21.81 t/s |
| 3 | Qwen3-q4_K_M (64K) | 19 GB | 26.65s | 21.23 t/s |
| 4 | Qwen3-q4_K_M (64K) | 39 GB | 24.95s | 21.95 t/s |
| 5 | Qwen3-q4_K_M (64K) | 39 GB | 24.41s | 21.06 t/s |
| 6 | Qwen3-Q8_0 (40K) | 22 GB | 39.57s | 15.53 t/s |
| 7 | Qwen3-Q8_0 (64K) | 46 GB | 54.23s | 14.63 t/s |
| 8 | Qwen3-Q8_0 (64K) | 46 GB | 43.42s | 15.76 t/s |
4. Enseignements Clés
4.1. Impact de la Quantification
La quantification q4 offre des vitesses de génération significativement supérieures (21+ t/s) contre 15 t/s en Q8_0, au prix d’une légère perte de précision.
4.2. Optimisation de la VRAM
La config 3 (19 GB) démontre qu’une configuration optimale peut réduire la consommation de mémoire tout en maintenant d’excellentes performances (21.23 t/s).
4.3. Influence du Contexte
Les contextes longs (64K) augmentent la consommation de VRAM (jusqu’à 46 GB) mais permettent des traitements de documents plus complets.
5. Configuration Recommandée
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="CUDA_VISIBLE_DEVICES=0,1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=Q8_0"
# NE PAS définir OLLAMA_NUM_PARALLEL
Cette configuration offre le meilleur compromis vitesse/qualité/consommation pour un déploiement en production.
