Indexer ses documents bureautique avec la suite Elastic et FSCrawler

By David Pilato

Elevator Pitch

Vous avez sous la main des tonnes de documents Open Office, Microsoft Office, PDF voire des images… et vous aimeriez être capable de chercher dans leurs meta-données et dans le contenu lui-même. Comment faire ?

Description

Vous avez sous la main des tonnes de documents Open Office, Microsoft Office, PDF voire des images… et vous aimeriez être capable de chercher dans leurs meta-données et dans le contenu lui-même. Comment faire ? Surtout depuis l’annonce de la fin de Google Search Appliance.

Dans cette session, David expliquera comment Apache Tika peut fournir ce service et comment combiner cette fantastique librairie avec elasticsearch :

Notes

Auteur du projet depuis plus de 10 ans, je n’en ai jamais vraiment fait la promotion alors qu’il devient assez populaire (env. 1000 stars sur Github). Il est temps de remédier à cela, surtout qu’il apporte des solutions utiles pour des cas d’usage assez courants en entreprise, à savoir, comment indexer du contenu tel que des documents PDF, Open Office, …

Format 20% slides et 80% démo.

J’expliquerai les différentes stratégies de code par lesquelles je suis notamment passé, comme passer d’un monolithe maven à un projet multi-modules, de l’introduction de Docker pour les tests d’intégration, de la mécanique de “watching de répertoires” que j’ai implémentée avec les failles d’une telle implémentation ainsi que l’avenir du projet.