Tests de Performance des Modèles Qwen3 avec Ollama sur Matériel Hétérogène

Le Labo SysOps.fr présente ici les résultats de tests de performance réalisés avec Ollama et les modèles Qwen3, dans le cadre d’une recherche sur l’optimisation des LLM sur du matériel hétérogène.

1. Objectif des Tests

Ces expérimentations visent à évaluer :

  • Les performances d’inférence de différents modèles Qwen3
  • L’impact des configurations Ollama sur la vitesse de génération
  • La consommation de VRAM selon les quantifications
  • Les compromis vitesse/précision/mémoire

2. Environnement Matériel

Serveur : Serveur professionnel dédié

CPU : Processeur multi-cœurs haute performance

RAM : 80 GB DDR4

GPU : GPU NVIDIA dédiée (24 GB VRAM)

3. Résultats de Performance

Config Modèle VRAM Temps Total Eval Rate
1 Qwen3-q4_K_M (64K) 39 GB 56.85s 10.13 t/s
2 Qwen3-q4_K_M (64K) 39 GB 27.89s 21.81 t/s
3 Qwen3-q4_K_M (64K) 19 GB 26.65s 21.23 t/s
4 Qwen3-q4_K_M (64K) 39 GB 24.95s 21.95 t/s
5 Qwen3-q4_K_M (64K) 39 GB 24.41s 21.06 t/s
6 Qwen3-Q8_0 (40K) 22 GB 39.57s 15.53 t/s
7 Qwen3-Q8_0 (64K) 46 GB 54.23s 14.63 t/s
8 Qwen3-Q8_0 (64K) 46 GB 43.42s 15.76 t/s

4. Enseignements Clés

4.1. Impact de la Quantification

La quantification q4 offre des vitesses de génération significativement supérieures (21+ t/s) contre 15 t/s en Q8_0, au prix d’une légère perte de précision.

4.2. Optimisation de la VRAM

La config 3 (19 GB) démontre qu’une configuration optimale peut réduire la consommation de mémoire tout en maintenant d’excellentes performances (21.23 t/s).

4.3. Influence du Contexte

Les contextes longs (64K) augmentent la consommation de VRAM (jusqu’à 46 GB) mais permettent des traitements de documents plus complets.

5. Configuration Recommandée

Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="CUDA_VISIBLE_DEVICES=0,1"
Environment="OLLAMA_KEEP_ALIVE=-1"
Environment="OLLAMA_FLASH_ATTENTION=1"
Environment="OLLAMA_KV_CACHE_TYPE=Q8_0"
# NE PAS définir OLLAMA_NUM_PARALLEL

Cette configuration offre le meilleur compromis vitesse/qualité/consommation pour un déploiement en production.

Posted in IA