Ceci est pour l’essentiel une lecture de l’article Cyberinfrastructure, Data, and Libraries par Anna Gold (DLIB Magazine sept. 2007).
Qu’est-ce que l’e-science? Selon le National e-Science Center britannique, il s’agit d’une science à grande échelle, mise en oeuvre grâce à la collaboration mondiale sur internet. Ces entreprises scientifiques “requièreront d’avoir accès à de très grandes masses de données, de très puissances capacités de calcul, et des outils de visualisation performants pour les chercheurs”.
Anna Gold note que dans le contexte de cette e-science, les données elles-mêmes prennent largement la place occupée aujourd’hui par la publication des résultats de la recherche. Or si les bibliothèques savent plus ou moins gérer cette production (abonnements, bases de données, périodiques électroniques), elle ne savent pas gérer les données de recherche elles-mêmes.
A la fin des années 1990 et au début des années 2000, ont émergé à la fois de nouveaux moyens de partager les ressources informatiques pour accroître les capacités de calcul, et de nouvelles initiatives pour constituer d’amples bases de données de faits bruts: par ex. en 2003 la création d’une banque de données de toutes les structures protéiniques connues (wwPDB).
Evidemment, toutes ces données, il faut les sauvegarder, les préserver dans le temps, préserver leur intégrité. Il faut aussi les enrichir (ce qu’inclut la notion anglophone de curation); par exemple avec des metadonnées; par exemple avec RDF. Mais encore une fois on parle ici de données non-publiées: les données brutes.
Et bien entendu, qui dit données, dit nécessité de les citer. Mais sous quelle forme? Il faut qu’on s’entende sur la façon dont on doit citer une donnée. Et que la citation soit exploitable pour lier vers les données, comme dans une OpenURL.
De façon très intéressante l’auteur distingue les données issues d’une recherche personnelle, celles issues d’une recherche collective, et celles, enfin, qui font référence et sont partagées comme ressource commune.
Je trouve aussi très intéressant que l’auteur n’oppose pas vraiment l’échelle globale, qui prime dans ces projets du fait de leur taille, et le local: il faudra, dit-elle, trouver une articulation entre local et global. Après tout, votre université aura aussi besoin, localement, d’une gestion de ses données (bon, elle travaille au MIT, pas à l’IUT de Belfort… sans vouloir rabaisser l’IUT de Belfort).
Quel rôle les bibliothécaires pourraient-ils jouer dans cette e-Science? Il faudra certainement de nouvelles compétences, et aussi une beaucoup plus grande interaction avec d’autres partenaires – un moins grand isolement des bibliothèques au sein du monde de la recherche – pour pouvoir intervenir très en amont de la publication. Anna Gold cite Jim Jacobs qui dit joliment que les bibliothécaires devront s’occuper plus de faire partie, d’une certaine façon, du laboratoire que de gérer un entrepot (de documents).
Il est important de se positionner, car les intervenants commerciaux du monde de la recherche le feront eux aussi. Elle cite l’exemple de CSA Illustrata, que l’éditeur présente comme ceci:
CSA Illustrata: Natural Sciences est la première d’une série de bases de données interrogeable de tables, graphiques, courbes et autres illustrations tirées des recherches universitaires et de la littérature technique
Id est: CSA va chercher, à l’intérieur de la littérature publiée selon le modèle classique ce qui relève des “faits bruts” (la table statistique par exemple) pour en faire un produit à part.
Finalement, ce qu’Anna Gold envisage, c’est un fonctionnement en trio de la recherche: le chercheur, l’informaticien, le bibliothécaire. Pas dans une chaîne temporelle où le bibliothécaire gère les publications en fin de chaîne. Dans un schéma circulaire qui part des données et, passant par la publication, revient aux données.
A noter en ce sens le Data Initiatives Group – MIT Engineering and Science Libraries (ESL).
Mon sentiment? C’est certainement un avenir des bibliothèques. C’est certainement assez proche, étant donné la rapidité des évolutions dans ce sens. Mais on est certainement très loin de pouvoir répondre à ce challenge… qu’il n’est pourtant pas impossible de relever.