DATAFARI 4.1, moteur de recherche open source pour entreprise

Datafari est une solution de recherche pour entreprise. Elle permet aux employés de retrouver les données où qu’elles soient, quelles qu’elles soient, en sécurité. Plus concrètement, Datafari récupère et indexe les données et documents depuis de nombreuses sources différentes et plusieurs formats de fichiers, et permet de chercher aussi bien à l’intérieur des documents que dans leurs metadonnées.

Datafari est disponible en version open source appelée Datafari Community Edition, et en version propriétaire, appelée Datafari Enterprise Edition. Mais comme nous sommes ici sur linuxfr.org, nous allons nous concentrer sur la version libre ! Celle-ci est en licence Apache v2 pour limiter les contraintes de réutilisations (même si ça se peut se débattre).

Que peut-on faire avec Datafari ?

Comme dit plus haut, c’est un moteur de recherche pour entreprise. Ses objectifs sont différents d’un moteur de recherche web, et les défis techniques diffèrent. Pour un moteur de recherche pour entreprise, il faut être multisource, multiformat, et gérer la sécurité. En outre, il faut permettre de pouvoir administrer l’outil. Dans la version libre, on peut côté admin :

  1. Administrer les connecteurs aux sources de données, vers de nombreuses sources (nous utilisons Apache ManifoldCF avec tous ses connecteurs) dont Sharepoint, Documentum, Alfresco, les partages de fichiers.
  2. Gérer l’algorithme de pertinence qui classe les documents pour leur affichage suite à une requête
  3. Mettre en avant des documents pour des requêtes identifiées
  4. Créer des utilisateurs et leur assigner des rôles
  5. Voir des statistiques d’usages de l’outil
  6. Créer l’équivalent de google adWords (appelés promoliens)
  7. Gérer des synonymes
  8. Plein d’autres choses accessibles depuis la documentation confluence

Côté utilisateur, on peut :

  1. Chercher de facon simple ou avancée
  2. Béneficier de la correction orthographique et de l’autocompletion
  3. Utiliser des facettes pour filtrer les résultats
  4. Mettre des résultats dans un panier de favoris
  5. Créer des alertes emails quand des documents modifiés/nouveaux correspondent à une requête

Sur quoi se base Datafari ?

On retrouve dans Datafari 4.1 :

  1. Elasticsearch / Logstash / Kibana pour les dashboards d’analytics
  2. Apache Manifoldcf Postgre et Tomcat) pour le crawl
  3. Apache Tika
  4. Apache Solr le moteur d’indexation et de recherche scalable big data
  5. Apache Cassandra stocker les infos utilisateurs
  6. Ajaxfrancelabs pour la UI en HTML5/Ajax

Comment démarrer ?

Pour démarrer tout de suite, le mieux est sans doute de suivre le quick start guide. Pour aller plus loin, il suffit de se balader sur la documentation Datafari sur Confluence, qui couvre les usages, l’administration et le développement.

Des commentaires ?

Nous sommes en permanence à l’écoute des commentaires et suggestions pour faire avancer le produit, alors profitez-en, que ce soit d’un point de vue technique ou fonctionnel, ça nous intéresse. Ha et si vous êtes déjà un utilisateur, n’hésitez pas à en parler sur le web !

Commentaires :
voir le flux atom
ouvrir dans le navigateur

(Source: LinuxFr.org : les dépêches)
Logo