L’université de Glasgow diffuse Terrier, un moteur de recherche destiné à l’indexation de volumes importants de documents en plein-texte: jusqu’à 25 millions de documents, dit la présentation. Livré avec un ensemble d’API qui vous permettraient de concevoir des extensions au programme. Indexe les types standards de documents de bureau: suite office, html, pdf, etc.
C’est programmé en Java.
Distribué sous licence Mozilla. Un outil Open Source de plus pour la documentation. Si on met bout à bout les koha, les eprints, les terrier et autres solr… la panoplie des logiciels open source pour la documentation est presque complète. Ce qui manque, c’est tout ce qui s’appuit sur une base de connaissance: OpenURL, et ERM.
Terrier est comparé à plusieurs autres moteurs open source, dont Lucene, dans l’intéressante étude “A Comparison of Open Source Search Engines” de Middleton et Baeza-Yates disponible ici:
http://wrg.upf.edu/WRG/dctos/Middleton-Baeza.pdf
“Ce qui manque, c’est tout ce qui s’appuit sur une base de connaissance: OpenURL, et ERM”
Ca arrive aussi : la suite Researcher propose un module d’ERM (CUFTS) et un résolveur de liens (GODOT) :
http://researcher.sfu.ca/
Re:J Villeminoz
GODOT existe depuis quelques temps déjà, mais à mon avis le fait qu’il soit sous licence libre ne change pas grand chose à l’affaire: quand on achète un résolveur de liens, il y a certes la partie logicielle, mais il y a aussi et surtout la base de connaissance, et sa mise à jour.
Ce qu’on achète, in fine, c’est moins un logiciel qu’une sous-traitance du travail de suivi des infos de la base de connaissance: ce qui n’a rien à voir avec le logiciel proprement dit.
La partie ERM est tout de même ultra light pour ce que j’en ai vu.