rubis/bruno/06-Imports/01 Upload (mock).bru
ordinarthur 19dd71bd93 feat(api): MistralOcrProvider + multipart upload sur /invoices/upload
MistralOcrProvider (app/services/ocr/mistral_ocr_provider.ts) :
- Pipeline 2 étapes : POST /v1/ocr (mistral-ocr-latest) → markdown structuré, puis POST /v1/chat/completions (mistral-large-latest) avec response_format json_schema strict pour extraire les champs typés (clientName/Email, numero, amountTtcCents, issueDate, dueDate) + un objet `_conf` pour la confiance par champ.
- Télécharge le PDF depuis Drive (MinIO en dev) via getArrayBuffer, encode en base64 pour le data URI.
- Throw clair si storageKey null (incompatible avec le mode JSON {filenames}).
- Throw au constructor si MISTRAL_API_KEY manquante.

getOcrProvider() retourne maintenant vraiment Mistral quand OCR_PROVIDER=mistral (plus de fallback silencieux sur mock).

Multipart upload sur POST /invoices/upload :
- Détecte Content-Type. Si multipart/form-data : itère sur `files[]`, valide ext (pdf/png/jpg/jpeg) + size (10mb), upload chaque fichier vers `import-drafts/<orgId>/<draftId>.<ext>` via @adonisjs/drive, puis appelle createImportBatch avec sources [{filename, storageKey}].
- Si JSON : route compat conservée pour le mode démo.

Refactor service import_batch :
- Nouvelle fonction createImportBatch(orgId, sources) générique
- createImportBatchFromFilenames() devient un wrapper compat (storageKey null)
- OCR exécuté HORS transaction (calls réseau Mistral lents — 3-8s par PDF — pas de raison de tenir un lock PG)

Bruno :
- 06-Imports/02 Upload (multipart Mistral).bru — nouveau, body multipart-form avec @file() à sélectionner. Doc : setup .env, where to find files in MinIO console, latence Mistral.
- Renumérote 03/04/05/06 (Get batch / Validate / Skip / Cancel).
- Met à jour 01 Upload (mock) doc pour pointer vers 02 pour le vrai OCR.

Pour tester :
1. .env → OCR_PROVIDER=mistral + MISTRAL_API_KEY=...
2. Restart pnpm dev:api
3. Bruno → Imports → 02 Upload (multipart Mistral) → sélectionne un PDF
4. Bruno → Imports → 03 Get batch (drafts ont pdfStorageKey + extracted depuis l'OCR)
2026-05-06 15:17:11 +02:00

68 lines
1.7 KiB
Plaintext

meta {
name: 01 Upload (mock)
type: http
seq: 1
}
post {
url: {{baseUrl}}/api/v1/invoices/upload
body: json
auth: inherit
}
body:json {
{
"filenames": [
"facture-martin-042.pdf",
"atelier-durand-2026-039.pdf",
"studio-lefevre-12.pdf"
]
}
}
script:post-response {
if (res.getStatus() === 201) {
const batch = res.getBody().data;
bru.setEnvVar("batchId", batch.id);
if (batch.drafts && batch.drafts.length > 0) {
// Premier draft pending pour les requêtes "validate" / "skip"
const firstPending = batch.drafts.find(d => d.status === "pending") || batch.drafts[0];
bru.setEnvVar("draftId", firstPending.id);
}
}
}
tests {
test("201 Created", function () {
expect(res.getStatus()).to.equal(201);
});
test("3 drafts créés", function () {
expect(res.getBody().data.drafts).to.have.lengthOf(3);
});
test("Chaque draft a extracted + edited + confidence", function () {
const d = res.getBody().data.drafts[0];
expect(d).to.have.property("extracted");
expect(d).to.have.property("edited");
expect(d).to.have.property("confidence");
expect(d.status).to.equal("pending");
});
}
docs {
POST /api/v1/invoices/upload
Mode JSON (V1 démo) : body `{ filenames: [...] }` — aucun PDF stocké.
Crée un ImportBatch + 1 ImportDraft par filename via le MockOcrProvider
qui invente des champs plausibles depuis le nom.
Pour le vrai OCR avec PDFs : utiliser **02 Upload (multipart)** avec
OCR_PROVIDER=mistral dans le .env.
Capture `batchId` et `draftId` (le 1er pending) pour les requêtes
suivantes.
Validation :
- 1 à 20 filenames
- Chaque filename ≤ 500 chars
}