L’université de Glasgow diffuse Terrier, un moteur de recherche destiné à l’indexation de volumes importants de documents en plein-texte: jusqu’à 25 millions de documents, dit la présentation. Livré avec un ensemble d’API qui vous permettraient de concevoir des extensions au programme. Indexe les types standards de documents de bureau: suite office, html, pdf, etc.
C’est programmé en Java.
Distribué sous licence Mozilla. Un outil Open Source de plus pour la documentation. Si on met bout à bout les koha, les eprints, les terrier et autres solr… la panoplie des logiciels open source pour la documentation est presque complète. Ce qui manque, c’est tout ce qui s’appuit sur une base de connaissance: OpenURL, et ERM.
-
Archives
- July 2010
- May 2010
- April 2008
- March 2008
- February 2008
- January 2008
- December 2007
- November 2007
- October 2007
- September 2007
- August 2007
- July 2007
- June 2007
- May 2007
- April 2007
- March 2007
- February 2007
- January 2007
- December 2006
- November 2006
- October 2006
- September 2006
- August 2006
- July 2006
- June 2006
- May 2006
- April 2006
- March 2006
- February 2006
- January 2006
-
Meta
Terrier est comparé à plusieurs autres moteurs open source, dont Lucene, dans l’intéressante étude “A Comparison of Open Source Search Engines” de Middleton et Baeza-Yates disponible ici:
http://wrg.upf.edu/WRG/dctos/Middleton-Baeza.pdf
“Ce qui manque, c’est tout ce qui s’appuit sur une base de connaissance: OpenURL, et ERM”
Ca arrive aussi : la suite Researcher propose un module d’ERM (CUFTS) et un résolveur de liens (GODOT) :
http://researcher.sfu.ca/
Re:J Villeminoz
GODOT existe depuis quelques temps déjà, mais à mon avis le fait qu’il soit sous licence libre ne change pas grand chose à l’affaire: quand on achète un résolveur de liens, il y a certes la partie logicielle, mais il y a aussi et surtout la base de connaissance, et sa mise à jour.
Ce qu’on achète, in fine, c’est moins un logiciel qu’une sous-traitance du travail de suivi des infos de la base de connaissance: ce qui n’a rien à voir avec le logiciel proprement dit.
La partie ERM est tout de même ultra light pour ce que j’en ai vu.