PaperCall.io - Indexer ses documents bureautique avec la suite Elastic et FSCrawler

Vous avez sous la main des tonnes de documents Open Office, Microsoft Office, PDF voire des images… et vous aimeriez être capable de chercher dans leurs meta-données et dans le contenu lui-même. Comment faire ?

Vous avez sous la main des tonnes de documents Open Office, Microsoft Office, PDF voire des images… et vous aimeriez être capable de chercher dans leurs meta-données et dans le contenu lui-même. Comment faire ? Surtout depuis l’annonce de la fin de Google Search Appliance.

Dans cette session, David expliquera comment Apache Tika peut fournir ce service et comment combiner cette fantastique librairie avec elasticsearch :

Elasticsearch ingest-attachment plugin
FSCrawler
Connecteur Workplace Search pour FSCrawler afin de disposer sur étagère d’une interface utilisateur puissante pour vos documents.

Auteur du projet depuis plus de 10 ans, je n’en ai jamais vraiment fait la promotion alors qu’il devient assez populaire (env. 1000 stars sur Github). Il est temps de remédier à cela, surtout qu’il apporte des solutions utiles pour des cas d’usage assez courants en entreprise, à savoir, comment indexer du contenu tel que des documents PDF, Open Office, …

Format 20% slides et 80% démo.

J’expliquerai les différentes stratégies de code par lesquelles je suis notamment passé, comme passer d’un monolithe maven à un projet multi-modules, de l’introduction de Docker pour les tests d’intégration, de la mécanique de “watching de répertoires” que j’ai implémentée avec les failles d’une telle implémentation ainsi que l’avenir du projet.

Indexer ses documents bureautique avec la suite Elastic et FSCrawler

Elevator Pitch

Description

Notes