Les “tag clouds” et autres “Category clouds” vous connaissez. Ce sont les moyens les plus communs pour identifier les sujets les plus traités d’un blog. Maintenant pourquoi ne pas utiliser ces outils pour extraire la substance et l’essence d’un article scientifique?
Les articles contiennent toujours un abstract (ou résumé) et souvent des keywords (mot-clefs). Mais combien de fois n’avez vous pas été déçu en lisant un papier alors que l’abstract vous mettait l’eau à la bouche.
Les auteurs choisissent les mot-clefs comme étant les termes résumant le mieux le sujet de leur article. Mais les chercheurs sont aussi des êtres humains et leur auto-jugement est biaisé par leur ego. Par exemple, écrivez sur une feuille de papier, 5 mots qui vous caractérisent. Puis demandez à votre moitié de vous résumer en 5 mots. Comparez les deux feuilles…
Il y a quelques temps, j’avais vu passer un post de Brain sur Clasticdetritus sur l’utilisation de “word clouds generator” sur des articles scientifiques. Les deux générateurs les plus utilisés (mais y en a plein d’autres) sont: Wordle et Tagcrowd.
En plus de générer une liste pondérée de mot-clefs, ces outils permettent de faire passer quelques tests à l’article. Le plus célèbre de ces tests est le “suck-up test” ou test d’auto-référencement et de copinage.
Mais bon assez de blabla, on passe à l’exemple. Voici le text cloud du dernier article que j’ai publié (en co-auteur).
Les mots communs anglais ainsi que la liste des références sont ignorés mais c’est amusant de voir “et” et “al” apparaître avec autant d’importance. Le papier passe le “suck-up test” sans problème; pas de “drmouton” dans le cloud et en plus c’est choli.
J’ai déjà posté sur d’autres cieux mes déboires avec mon bordel bibliographique. Mais avec le gros changement qui se prépare il va falloir sérieusement s’occuper de ça.
Comme sans doute pas mal d’entre vous, j’ai 20 milliards de papiers au format pdf avec comme nom authors_journal_annee.pdf et bien sur je n’ai pas les outils (payants) pour faire une recherche de mot-clefs sur l’ensemble de mes fichiers.
J’avais écrit un petit script qui scanne tout le répertoire où il se trouve, traduit les pdf en txt et permet de faire une recherche basique (grep) de keywords sur l’ensemble des fichiers txt crées. Bien-sûr il y a énormément de limitations du genre si votre pdf est protégé ou si c’est une image (résultat d’un bête scan) ben ça marche pas.
Puis je me suis dit que c’était pas mal comme outil mais à l’heure du web2.0 c’était quand même un peu faible. Puisque tous les articles (presque) sont en ligne et que beaucoup sont open-access (merci à copernicus pour avoir ouvert la brèche), il devait avoir un moyen pour récupérer les données d’un article en un click. Alors je me suis tourné vers les outils en ligne.
Les plus gros outils sur le marché sont citeulike ou connotea. Ce dernier est un satellite de Nature Publishing Group. Mon intention était de collecter des données biblio (auteurs, titre, journal mais aussi mot-clefs et abstract) pour m’éviter d’ouvrir chacun de mes fichiers pdf pour tout faire à la main.
Malheureusement, même avec ces outils, vous avez quand même besoin de passer du temps sur votre clavier pour compléter les entrées. En plus, l’abstract est perdu lorsque vous transférer depuis/vers connotea en format RIS (citeulike lui préserve le résumé).
J’ai découvert 2collab en me baladant sur elsevier. Cet outil a été créé par les mêmes personnes qui sont derrière sciencedirect and scopus. Cela signifie que vous pouvez transférer vos données entre ces services en un click. Un autre chose, vous pouvez exporter toutes les références que vous avez cités dans vos articles déjà publiés en format RIS (ou autre) depuis scopus.
Finalement, un ami m’a montré zotero et j’ai été bluffé. C’est l’outil ultime pour chercher, stocker, trier et organiser toutes vos informations péchées sur le net. C’est un plugin pour votre navigateur (firefox ou autre) et votre librairie personnelle est stockée sur votre ordinateur. Vous pouvez l’exporter en format RIS sans aucune perte d’information.
En résume, zotero est le meilleur choix. De là, je peux transférer ma bibliographie et l’uploader dans citeulike pur la partager avec d’autres et mes publications dans 2collab pour éviter d’avoir la page publication sur mon site ouebe. Pourquoi je parle toujours du format RIS? Parce que j’écris mes papiers en Latex avec Bibtex. J’ai trouvé que RIS était le meilleur format pour transférer les données. En plus, j’utilise l’excellent JabRef comme reference manager (cela fera sans doute l’objet d’un autre post).
Il parait que apple ne plante jamais et donc qu’il n’y a pas besoin de l’équivalent mac du célèbre crtl-alt-del. Bon je veux bien je suis pas un spécialiste. Mais j’ai quelques souvenirs d’écrans figés sur le ibook de Bergère. C’est pas un gros problème, il suffit de virer la batterie et ça repart. Mais pour mon ipod, je fais comment?
Avant, je faisais comme tout le monde, j’attendais que les batteries meurent. Ya quelques mois, j’ai découvert cette vidéo. Trop cool.
Mr Mouton a décidé de rejoindre sa bergère à Athens (GA, USA) et de jouer le casalingo. Un an de pause dans la vie d'un chercheur. Enfin "pause" on verra bien. Début de l'aventure: courant Novembre 2008.