Solr (soleil du soleil – l’opac divin)

A la toute fin du mois de février aura lieu la conférence annuelle Code4lib, Mecque des bibliothécaires-développeurs (distinction partagée avec la conférence canadienne Access).

Comme souvent dans ces cas-là il y a une pré-conférence: si vous arrivez la veille, il y a des sortes d’ateliers. Pour code4lib 2007, la préconférence est consacrée à Lucene, Solr & your data. Je pense que cette seule journée sera historique dans l’histoire de la bibliothéconomie. Je ne plaisante pas et ce n’est pas moi qui le dit: c’est l’éminent, le formidable, le médiéviste Peter Brinkley.

Pour comprendre pourquoi…:

  • toutes les pistes nouvelles explorées pour la recherche publique de nos ressources tournent toutes autour du même principe: séparer la consultation publique de l’outil de gestion qui tourne en back office. Bref, couper le cordon entre SIGB et OPAC. C’est ce que fait le produit Primo, qui sera proposé courant de cette année par Ex Libris. C’est ce que fait le catalogue NCSU conçu avec Endeca. C’est ce que fait l’opac WPOpac de Casey Bisson. (nb: ce qui ne signifie pas que le SIGB est moins important)
  • la plupart des solutions envisagées lorgnent du côté de Lucene. C’est le cas de Primo. C’est aussi le cas de Horizon 8.0, qui bascule les SIGB SirsiDynix vers Lucene comme moteur interne de recherche.
  • Solr est un logiciel Open Source Apache. En substance (et en très raccourci), Solr est une couche qui surimpose à Lucene une API XML: vous rentrez des documents pour indexation via XML par HTTP, vous interrogez par HTTP GET et recevez des résultats XML. Et alors me direz-vous? Et alors: le logiciel est entièrement transparent, vous pouvez développer n’importer quelle interface d’interrogation par-dessus, dans n’importe quel language de programmation. Une interface bleue en Java, une interface rouge en PHP, une interface jaune en Ruby, une interface verte en Python, etc, etc. Et en-dessous vous bénéficiez de toute la puissance de Lucene.

La conférence a lieu fin février. Casey Durfee y fait une présentation sur comment faire l’opac Endeca en 250 lignes de code ou moins, avec Solr! Oooooh yes…
Les choses ont énormément bougé sur toutes ces questions dans les 5 dernières années. Je pense (mais je ne suis pas la Pythie, c’est certain) qu’on arrive à une sorte de point de rupture. Il est maintenant possible de faire, facilement (tout est relatif) tout à fait autre chose que ce qu’on a proposé au public dans les 10 dernières années et que ça va certainement basculer. Puis ensuite, sans doute, se stabiliser pour quelques années, le temps que tout ça se diffuse, se commercialise, etc. Mais la direction générale, elle, ne fait plus beaucoup de doute: on sépare la gestion de la consultation, on utilise des moteurs non-bibliothéconomiques et on fait du développement dans tous les langages de script possibles et imaginables. La recherche opac rejoint, dans ses techniques, n’importe quelle recherche sur le web, avec les meilleurs techniques du web. Ce qui va jusqu’à modifier l’idée qu’on se fait de la notice bibliographique, quand des techniques de pondération et de pertinence beaucoup plus pertinentes que ce qu’on avait jusqu’ici, permettant d’inclure la “popularité”, les corrections orthographiques, etc, peuvent d’une certaine façonprendre le pas sur l’indexation matière.

Bref, on dirait que le web finit de manger la bibliothéconomie des années 1980-90, l’ère du SIGB.

This entry was posted in MBSSI. Bookmark the permalink.

6 Responses to Solr (soleil du soleil – l’opac divin)

  1. B&C says:

    Pour moi qui n’y connaît rien : cette séparation SIGB/OPAC, est-ce c’est la même chose que ce qu’AFI annonce ?

    http://www.slideshare.net/afi.opac.2.0/afi-opac-20-faites-entrer-votre-bibliotheque-dans-lere-web-20/10

    Et de manière plus générale, est-ce que ça veut dire qu’on aura intérêt à prendre deux prestataires différents ?

  2. nicolas.morin says:

    Re:B&C. Difficile de se prononcer sur la base de cette seule diapo. Il semble cependant qu’en effet on recherche dans la base Moccam les notices du SIGB.
    Est-ce qu’on aura intérêt à prendre deux prestataires différents? Intérêt non. Mais avantage à prendre un seul prestataire, pas forcément non plus. Les offres commerciales qui émergent: Ex Libris Primo ou Innovative Encore, sont conçues pour être indépendantes du SIGB sous-jacent. Même si, comme toujours dans ces cas-là, ça marche certainement mieux avec le produit maison.
    C’est simplement qu’au lieu d’avoir un produit, le SIGB, qui a un module OPAC, on aurait maintenant réellement deux produits: un SIGB pour la gestion, et un outil de consultation publique.

  3. dominique says:

    Non que je défende à tout prix les SIGB
    (loin de moi cet idée !!)
    Mais quand “on sépare la gestion de la consultation”
    Cela veut dire que la recherche ne peut plus donner la disponibilité à l’instant de la consultation sur les exemplaires d’un ouvrage ?
    Ni que l’on puisse réserver via l’outil de recherche ?
    Est-ce vraiment une avancée ?

    “Ce qui va jusqu’à modifier l’idée qu’on se fait de la notice bibliographique, quand des techniques de pondération et de pertinence beaucoup plus pertinentes que ce qu’on avait jusqu’ici, permettant d’inclure la “popularité”, les corrections orthographiques, etc, peuvent d’une certaine façon prendre le pas sur l’indexation matière”
    humm… la “popularité” ne risque-t-elle pas surtout d’entrainer un phénomène de sur-demande de quelques titres (et sur de moins en moins au fur et a mesure qu’ils deviennent populaire) ?

    Une chose me surprend surtout, on peut sans nul doute faire beaucoup mieux en martière d’ergonomie et de technique de recherche, voir de classement,
    mais toute technologie si poussée soit-elle, ne peut pas inventer l’information.
    hors sur quoi va t-on chercher :
    titre, auteur, notes, indexation !
    et puis c’est tout !
    Et dans bien des cas, aucun de ces champs ne contient l’information par laquelle le lecteur recherche un livre.
    (exemple, aujourd’hui, quel catalogue peut repondre à une recherche d’un ouvrage contenant la synthèse de l’aspirine !
    et pourtant c’est au moins dans l’un des grands classiques des BU sciences.)
    Si on a pas la matière première (sommaire, 4e de couv, résumé …) à quoi ça sert de faire de la super technique ?

  4. nicolas.morin says:

    Re:Dominique
    Dans le prototype de Primo, par ex., on peut quand même voir la disponibilité ou réserver depuis l’interface publique, via une API XML vers l’interface de gestion. Séparer le SIGB en 2 outils ne signifie pas qu’il ne peut pas y avoir de liens entre les 2 outils.
    La popularité. C’est peut-être un “risque”, peut-être aussi une “chance”. Question de point de vue. Et j’imagine que des bibliothèques (et des bibliothécaires) différent(e)s feront des choix différents. Mais justement, il serait possible de pouvoir faire ce choix, et de pouvoir définir, au paramétrage, ce qui entre dans la composition de la pertinence, et avec quel poids.
    “peuvent d’une certaine façon prendre le pas sur l’indexation matière” disais-je. Non pas: remplaceront à coup sûr l’indexation. Tout est question de poids relatif. Mais il est certain que la matière première aurait un poids essentiel: sommaire, 4e de couv, résumé… tout cela s’achète, aujourd’hui déjà.
    Il faudrait à la fois développer les techniques et augmenter les volumes d’informations.

  5. dominique says:

    “sommaire, 4e de couv, résumé… tout cela s’achète, aujourd’hui déjà.”
    Dans l’environnement français, voire francophones,
    tu connaitrais des exemples de BU achetant ce type d’information, et l’intégrant dans son catalogue ?
    (Je précise bien français, parceque je ne doute pas que l’on trouve cela pour des ouvrages anglo-saxons,
    mais pour nos ouvrages français ?)

  6. nicolas.morin says:

    Ces contenus sont vendus par Electre, par ex. J’imagine que Decitre le fait aussi.