rubis

ordinarthur/rubis

Fork 0

Commit Graph

Author	SHA1	Message	Date
ordinarthur	e38aa224e8	feat(api): commande ocr:validate pour bencher l'OCR sur factures réelles All checks were successful Build & Deploy Web / build-and-deploy (push) Successful in 1m35s Details Build & Deploy API / build-and-deploy (push) Successful in 2m24s Details Outil standalone qui mesure la qualité d'extraction du provider OCR courant (Mock, Mistral, ou autre futur) sur un set de factures avec ground truth, séparé de la suite Playwright (qui reste sur OCR mock pour la rapidité CI). Pourquoi : permet de valider qu'un changement de provider (Mistral upgrade, ajout Document AI, custom prompt) maintient la précision sur les factures réelles avant de l'activer en prod. Architecture : - Lit `e2e/fixtures/invoices/<name>.pdf` (ou .png/.jpg) - À côté, `<name>.expected.json` avec la ground truth - Pour chaque facture : upload temporaire vers le storage courant (MinIO en dev), appelle provider.extract(), compare field-by-field - Cleanup du fichier temp après extraction - Sommaire : accuracy globale, par champ, latence moyenne, exit 1 si une fixture a échoué (utile CI) Tolérances par champ : - amountTtcCents : exact (la précision financière compte) - issueDate / dueDate : jour exact - numero : exact (trim, case-insensitive) - clientName : Jaccard similarity ≥ 85 % sur les tokens (tolère "SARL" final manquant, espaces, etc.) - clientEmail : exact (lowercased) ou null Usage : pnpm ocr:validate # provider courant (.env) OCR_PROVIDER=mistral MISTRAL_API_KEY=... pnpm ocr:validate node ace ocr:validate --fixtures-dir=./other --out=report.json Sécurité : - `.gitignore` exclut tous les fichiers de e2e/fixtures/invoices/ sauf README + .gitignore eux-mêmes — les vraies factures ne fuitent pas dans le repo public À faire par Arthur : 1. Dépose 10-20 vraies factures (anonymisées si possible) dans e2e/fixtures/invoices/ 2. Pour chaque, écrit le .expected.json (5 min par facture) 3. Lance `OCR_PROVIDER=mistral pnpm ocr:validate` → ajuste prompt ou post-process si l'accuracy descend sous le seuil Format ground truth + seuils cibles documentés dans le README du dossier. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-05-18 15:23:19 +02:00
ordinarthur	70c851dd0e	test(e2e): PR 1 — auth complet + clients CRUD + factures saisie Étend la suite Playwright avec 14 nouveaux scénarios couvrant les surfaces critiques que tout user touche au quotidien. Auth (7 tests) — auth.spec.ts : - Signup : email invalide (HTML5), email déjà pris (422 → toast) - Login : happy path après signup, mauvais password (401), email inconnu (401) - Protection des routes : / et /factures redirigent vers /login sans session Clients (5 tests) — clients.spec.ts : - Create via dialog : remplir Nom + Email du contact → apparaît dans la liste, compteur "1 fiche" - Refuse email manquant (422, dialog reste ouvert) - 2 clients distincts → compteur "2 fiches" - Duplicate par nom case-insensitive → liste reste à 1 fiche - Recherche ILIKE par nom → filtre côté liste Factures (2 tests) — factures.spec.ts : - Saisie manuelle complète : créer client puis facture via le dialog (combobox client async + numéro + montant + Radix Select plan) → apparaît dans /factures - Empty state visible si aucune facture Total Playwright après cette PR : 20 scénarios verts en 38 s. Stratégie : les edge cases déjà couverts par les couches inférieures (unit, functional japa, vitest) ne sont PAS re-testés en E2E pour éviter la duplication. Le E2E garde son rôle : happy path UI + edge cases produit qui n'apparaissent qu'au niveau navigation/forms. Prochaines PRs prévues : - PR 2 : OCR upload + Plans + Relances + Mailpit (mailing) - PR 3 : Billing complet (trial→active/past_due/cancel) + Dashboard KPIs + Settings - PR 4 : Blog + edge cases globaux + coverage report c8 Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-05-18 15:07:55 +02:00
ordinarthur	59f81879d8	test(e2e): tests Playwright multi-stack — vrai navigateur, DB isolée, Stripe mocké All checks were successful Build & Deploy Landing / build-and-deploy (push) Successful in 1m39s Details Build & Deploy API / build-and-deploy (push) Successful in 2m30s Details Build & Deploy Web / build-and-deploy (push) Successful in 1m21s Details Ajoute une couche end-to-end où un Chromium drive la SPA + API ensemble contre une DB Postgres séparée, avec Stripe entièrement mocké au niveau API. 6 scénarios couverts (signup + onboarding + 4 sur le billing trial). Architecture : - DB `rubis_test_e2e` séparée, TRUNCATE entre tests (~50 ms reset) - Routes test-only `/__test__/*` gated par NODE_ENV=test_e2e (reset, install Stripe mock, fire webhook, lire org state, last-org) - Stripe mocké via __setStripeForTests — pas d'appel réseau - Playwright spawn API + SPA automatiquement (webServer config) - CORS étendu à test_e2e pour le cross-origin localhost:5173 → :3333 Scénarios : - signup.spec.ts : signup → onboarding 3 étapes → dashboard (assert rubis hero) - billing-trial.spec.ts : • démarrer essai 14j → redirect Stripe Checkout (mock) • fallback Free 2 factures continue l'onboarding • webhook checkout.completed → org en trialing + trial_ends_at • retour ?trial=cancel après abandon • inspection DB : stripeCustomerId posé après start-trial Scripts : - pnpm e2e (headless) - pnpm e2e:headed (Chromium visible) - pnpm e2e:ui (mode interactif Playwright) - pnpm e2e:setup (crée + migre rubis_test_e2e via docker exec) Documentation : docs/tech/e2e-tests.md — architecture, scénarios, extensions, CI, troubleshooting. Limites assumées : - L'UI Stripe Checkout (3DS, formulaire CB) n'est pas testée — externe. Pour ça : playbook manuel docs/tech/stripe-trial-e2e-playbook.md. - Le rendu du banner "Essai Pro" n'est pas asserté en E2E à cause de TanStack Query staleTime — couvert par les tests vitest à la place. État global du chantier billing : 127 tests japa + 6 Playwright + 11 vitest = couverture multi-niveaux. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>	2026-05-18 14:58:51 +02:00

Author

SHA1

Message

Date

ordinarthur

e38aa224e8

feat(api): commande ocr:validate pour bencher l'OCR sur factures réelles

Build & Deploy Web / build-and-deploy (push) Successful in 1m35s

Details

Build & Deploy API / build-and-deploy (push) Successful in 2m24s

Details

Outil standalone qui mesure la qualité d'extraction du provider OCR
courant (Mock, Mistral, ou autre futur) sur un set de factures avec
ground truth, séparé de la suite Playwright (qui reste sur OCR mock
pour la rapidité CI).

Pourquoi : permet de valider qu'un changement de provider (Mistral
upgrade, ajout Document AI, custom prompt) maintient la précision sur
les factures réelles avant de l'activer en prod.

Architecture :
  - Lit `e2e/fixtures/invoices/<name>.pdf` (ou .png/.jpg)
  - À côté, `<name>.expected.json` avec la ground truth
  - Pour chaque facture : upload temporaire vers le storage courant
    (MinIO en dev), appelle provider.extract(), compare field-by-field
  - Cleanup du fichier temp après extraction
  - Sommaire : accuracy globale, par champ, latence moyenne, exit 1
    si une fixture a échoué (utile CI)

Tolérances par champ :
  - amountTtcCents : exact (la précision financière compte)
  - issueDate / dueDate : jour exact
  - numero : exact (trim, case-insensitive)
  - clientName : Jaccard similarity ≥ 85 % sur les tokens
    (tolère "SARL" final manquant, espaces, etc.)
  - clientEmail : exact (lowercased) ou null

Usage :
  pnpm ocr:validate                                  # provider courant (.env)
  OCR_PROVIDER=mistral MISTRAL_API_KEY=... pnpm ocr:validate
  node ace ocr:validate --fixtures-dir=./other --out=report.json

Sécurité :
  - `.gitignore` exclut tous les fichiers de e2e/fixtures/invoices/
    sauf README + .gitignore eux-mêmes — les vraies factures ne fuitent
    pas dans le repo public

À faire par Arthur :
  1. Dépose 10-20 vraies factures (anonymisées si possible) dans
     e2e/fixtures/invoices/
  2. Pour chaque, écrit le .expected.json (5 min par facture)
  3. Lance `OCR_PROVIDER=mistral pnpm ocr:validate` → ajuste prompt ou
     post-process si l'accuracy descend sous le seuil

Format ground truth + seuils cibles documentés dans le README du dossier.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

2026-05-18 15:23:19 +02:00

ordinarthur

70c851dd0e

test(e2e): PR 1 — auth complet + clients CRUD + factures saisie

Étend la suite Playwright avec 14 nouveaux scénarios couvrant les
surfaces critiques que tout user touche au quotidien.

Auth (7 tests) — auth.spec.ts :
  - Signup : email invalide (HTML5), email déjà pris (422 → toast)
  - Login : happy path après signup, mauvais password (401), email
    inconnu (401)
  - Protection des routes : / et /factures redirigent vers /login
    sans session

Clients (5 tests) — clients.spec.ts :
  - Create via dialog : remplir Nom + Email du contact → apparaît
    dans la liste, compteur "1 fiche"
  - Refuse email manquant (422, dialog reste ouvert)
  - 2 clients distincts → compteur "2 fiches"
  - Duplicate par nom case-insensitive → liste reste à 1 fiche
  - Recherche ILIKE par nom → filtre côté liste

Factures (2 tests) — factures.spec.ts :
  - Saisie manuelle complète : créer client puis facture via le
    dialog (combobox client async + numéro + montant + Radix Select
    plan) → apparaît dans /factures
  - Empty state visible si aucune facture

Total Playwright après cette PR : 20 scénarios verts en 38 s.

Stratégie : les edge cases déjà couverts par les couches inférieures
(unit, functional japa, vitest) ne sont PAS re-testés en E2E pour
éviter la duplication. Le E2E garde son rôle : happy path UI + edge
cases produit qui n'apparaissent qu'au niveau navigation/forms.

Prochaines PRs prévues :
  - PR 2 : OCR upload + Plans + Relances + Mailpit (mailing)
  - PR 3 : Billing complet (trial→active/past_due/cancel) + Dashboard
    KPIs + Settings
  - PR 4 : Blog + edge cases globaux + coverage report c8

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

2026-05-18 15:07:55 +02:00

ordinarthur

59f81879d8

test(e2e): tests Playwright multi-stack — vrai navigateur, DB isolée, Stripe mocké

Build & Deploy Landing / build-and-deploy (push) Successful in 1m39s

Details

Build & Deploy API / build-and-deploy (push) Successful in 2m30s

Details

Build & Deploy Web / build-and-deploy (push) Successful in 1m21s

Details

Ajoute une couche end-to-end où un Chromium drive la SPA + API ensemble
contre une DB Postgres séparée, avec Stripe entièrement mocké au niveau
API. 6 scénarios couverts (signup + onboarding + 4 sur le billing trial).

Architecture :
  - DB `rubis_test_e2e` séparée, TRUNCATE entre tests (~50 ms reset)
  - Routes test-only `/__test__/*` gated par NODE_ENV=test_e2e
    (reset, install Stripe mock, fire webhook, lire org state, last-org)
  - Stripe mocké via __setStripeForTests — pas d'appel réseau
  - Playwright spawn API + SPA automatiquement (webServer config)
  - CORS étendu à test_e2e pour le cross-origin localhost:5173 → :3333

Scénarios :
  - signup.spec.ts : signup → onboarding 3 étapes → dashboard (assert rubis hero)
  - billing-trial.spec.ts :
      • démarrer essai 14j → redirect Stripe Checkout (mock)
      • fallback Free 2 factures continue l'onboarding
      • webhook checkout.completed → org en trialing + trial_ends_at
      • retour ?trial=cancel après abandon
      • inspection DB : stripeCustomerId posé après start-trial

Scripts :
  - pnpm e2e          (headless)
  - pnpm e2e:headed   (Chromium visible)
  - pnpm e2e:ui       (mode interactif Playwright)
  - pnpm e2e:setup    (crée + migre rubis_test_e2e via docker exec)

Documentation : docs/tech/e2e-tests.md — architecture, scénarios,
extensions, CI, troubleshooting.

Limites assumées :
  - L'UI Stripe Checkout (3DS, formulaire CB) n'est pas testée — externe.
    Pour ça : playbook manuel docs/tech/stripe-trial-e2e-playbook.md.
  - Le rendu du banner "Essai Pro" n'est pas asserté en E2E à cause de
    TanStack Query staleTime — couvert par les tests vitest à la place.

État global du chantier billing : 127 tests japa + 6 Playwright + 11
vitest = couverture multi-niveaux.

Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>

2026-05-18 14:58:51 +02:00

3 Commits