Features
AI Enrichment v2
Le module d'enrichissement IA v2 utilise un pipeline 3 phases pour enrichir automatiquement les fiches produits.
Pipeline 3 phases
Phase A — Recherche web (Perplexity)
Recherche automatique des specifications techniques, dimensions, poids via l'API Perplexity.
- Cout moyen : 0.10-0.30 EUR par produit
- Cache Redis : 24h
Phase B — Prix concurrents (SerpAPI + Scraping)
Collecte des prix concurrents via Google Shopping et scraping de pages e-commerce.
- Sources : Amazon.fr, Fnac, Boulanger, Darty, CDiscount
- Budget quotidien configurable
Phase C — Consolidation IA (GPT-4o / Claude 3.5)
Consolidation des donnees Phase A + B en JSON structure.
- Extraction : prix concurrents, videos YouTube, poids, dimensions
- Support Vision : analyse image produit integree dans le prompt
Enrichissement visuel (Vision)
Analyse automatique des images produit via GPT-4o Vision ou Claude 3.5 Vision :
- Couleur dominante, matiere, forme, style
- Texte visible (OCR), contexte d'utilisation
- Tags automatiques pour le referencement
- Score de confiance 0-1
L'analyse visuelle est integree dans Phase C : si une image est disponible, elle est automatiquement incluse dans le prompt LLM.
Traduction multilingue
Traduction automatique vers 6 langues (FR, EN, DE, ES, IT, NL) :
- Providers : DeepL (premium) ou OpenAI GPT-4o (fallback)
- Glossaire de termes a ne pas traduire (marques, SKU, unites)
- Validation post-traduction (score qualite 0-1)
- Auto-traduction configurable via
ENRICHMENT_AUTO_TRANSLATE=en,de,es
Extraction PDF
Upload de fiches techniques fournisseurs en PDF :
- Extraction texte via PyMuPDF (jusqu'a 20 pages)
- Structuration IA vers JSON (titre, EAN, SKU, specs, certifications)
- Bulk via ZIP (max 50MB, 100 PDFs)
Detection d'anomalies
Scan automatique du catalogue (nightly 22h) :
| Regle | Severite |
|---|---|
| Prix = 0 ou negatif | ERROR |
| Poids > 500 kg | WARNING |
| Description < 50 chars | WARNING |
| EAN invalide (checksum) | ERROR |
| Image manquante | WARNING |
| Prix TTC < prix HT | ERROR |
Score qualite global : % produits sans anomalie.
SEO multicanal
Generation de contenu optimise par marketplace :
| Canal | Titre max | Description max |
|---|---|---|
| Amazon | 200 chars | 2000 chars |
| Google Shopping | 150 chars | 5000 chars |
| Fnac | 150 chars | 1500 chars |
| CDiscount | 140 chars | 2000 chars |
| Mirakl | 100 chars | 2000 chars |
Smart Model Routing
Routage intelligent par complexite de tache :
- Simple (categorisation, extraction) : GPT-4o-mini / Gemini Flash (cout -60%)
- Complex (descriptions, SEO) : GPT-4o / Claude 3.5 Sonnet
- Vision (images) : GPT-4o / Claude 3.5 Vision
Estimation de cout
Endpoint dry-run avant lancement de batch :
POST /api/v1/enrichment/web/batch/estimate
Retourne : cout estime, duree, breakdown par type d'enrichissement.
Providers supportes
| Provider | Modeles | Usage |
|---|---|---|
| OpenAI | GPT-4o, GPT-4o-mini | Phase C, Vision, Traduction |
| Anthropic | Claude 3.5 Sonnet, Haiku | Phase C, Vision |
| Perplexity | Sonar, Sonar Pro | Phase A (recherche web) |
| Google Gemini | 2.0 Flash, 1.5 Pro | Phase C (economique) |
| Mistral | Large, Small, Nemo | Phase C, Traduction (FR natif) |
| DeepL | — | Traduction (premium EU) |