OUTILS
Extraction de texte PDF dans le navigateur avec LiteParse for the web
Simon Willison adapte LiteParse de LlamaIndex pour fonctionner entièrement côté navigateur, sans modèle IA, en s'appuyant sur PDF.js et Tesseract.js.
Simon Willison·23 avril 2026

LiteParse, outil open source de LlamaIndex initialement conçu comme CLI Node.js, a été porté par Simon Willison pour fonctionner entièrement dans le navigateur via PDF.js et Tesseract.js. L'outil résout le problème de l'extraction de texte ordonné depuis des PDFs complexes grâce à un « spatial text parsing » heuristique, sans recours à des modèles IA. Il supporte également les citations visuelles avec bounding boxes, utiles pour des pipelines RAG avec réponses sourcées et illustrées.