Mouton@LaBergerie

Casalingo for one year

Archive pour browser

Text Cloud comme outil de recherche biblio

Les “tag clouds” et autres “Category clouds” vous connaissez. Ce sont les moyens les plus communs pour identifier les sujets les plus traités d’un blog. Maintenant pourquoi ne pas utiliser ces outils pour extraire la substance et l’essence d’un article scientifique?

Les articles contiennent toujours un abstract (ou résumé) et souvent des keywords (mot-clefs). Mais combien de fois n’avez vous pas été déçu en lisant un papier alors que l’abstract vous mettait l’eau à la bouche.

Les auteurs choisissent les mot-clefs comme étant les termes résumant le mieux le sujet de leur article. Mais les chercheurs sont aussi des êtres humains et leur auto-jugement est biaisé par leur ego. Par exemple, écrivez sur une feuille de papier, 5 mots qui vous caractérisent. Puis demandez à votre moitié de vous résumer en 5 mots. Comparez les deux feuilles…

Il y a quelques temps, j’avais vu passer un post de Brain sur Clasticdetritus sur l’utilisation de “word clouds generator” sur des articles scientifiques. Les deux générateurs les plus utilisés (mais y en a plein d’autres) sont: Wordle et Tagcrowd.

En plus de générer une liste pondérée de mot-clefs, ces outils permettent de faire passer quelques tests à l’article. Le plus célèbre de ces tests est le “suck-up test” ou test d’auto-référencement et de copinage.

Mais bon assez de blabla, on passe à l’exemple. Voici le text cloud du dernier article que j’ai publié (en co-auteur).

Les mots communs anglais ainsi que la liste des références sont ignorés mais c’est amusant de voir “et” et “al” apparaître avec autant d’importance. Le papier passe le “suck-up test” sans problème; pas de “drmouton” dans le cloud ;) et en plus c’est choli.

Ne jamais upgrader quand ça marche

Cela pourrait être un corollaire à la loi de Murphy (d’ailleurs il me semble que c’en est un): si un truc marche il faut surtout ne pas y toucher.

Hier, j’ai fait une connerie (une de plus). A force de voir passer des messages sur Firefox 3 RC1, je me suis dit que je pourrais moi itou l’installer et faire joujou avec. C’est ce que j’ai fait et il est très bien mais comme il est en RC, il y a pas mal de add-ons qui ne sont pas (encore) compatible. Et bien sur, aucun de ceux que j’utilise ne sont compatibles. Pas de problème, je désinstalle et reviens à ma version 2.0.0.14.

Ben en fait si ya un problème: Firefox 2 est devenu super instable et plante tout le temps (quand il veut bien démarrer). Je passe un peu de temps sur les forums et je découvre qu’il est conseillé d’installer Firefox 3 RC1 dans un répertoire différent de celui de Firefox 2 si on veut revenir à la version 2 après avoir fait joujou avec Firefox 3. Super, ça m’apprendra à lire les docs a posteriori.

J’ai aussi trouvé une méthode super simple pour stabiliser Firefox 2: il suffit de supprimer tous les fichiers qui ont été créer par l’installation de version 3 RC1:

  1. Réinstaller Firefox 2.0.0.14
  2. Aller dans “:\Program Files\Mozilla Firefox”
  3. Effacer tous les fichiers (pas les répertoires) qui ont été modifiés en dernier (par l’installation de Firefox 3)
  4. Redémarrer Firefox 2

Il ne devrait y avoir que 4-6 fichiers à virer.

Ah!!! Zotero

J’ai déjà posté sur d’autres cieux mes déboires avec mon bordel bibliographique. Mais avec le gros changement qui se prépare il va falloir sérieusement s’occuper de ça.

Comme sans doute pas mal d’entre vous, j’ai 20 milliards de papiers au format pdf avec comme nom authors_journal_annee.pdf et bien sur je n’ai pas les outils (payants) pour faire une recherche de mot-clefs sur l’ensemble de mes fichiers.

J’avais écrit un petit script qui scanne tout le répertoire où il se trouve, traduit les pdf en txt et permet de faire une recherche basique (grep) de keywords sur l’ensemble des fichiers txt crées. Bien-sûr il y a énormément de limitations du genre si votre pdf est protégé ou si c’est une image (résultat d’un bête scan) ben ça marche pas.

Puis je me suis dit que c’était pas mal comme outil mais à l’heure du web2.0 c’était quand même un peu faible. Puisque tous les articles (presque) sont en ligne et que beaucoup sont open-access (merci à copernicus pour avoir ouvert la brèche), il devait avoir un moyen pour récupérer les données d’un article en un click. Alors je me suis tourné vers les outils en ligne.

Les plus gros outils sur le marché sont citeulike ou connotea. Ce dernier est un satellite de Nature Publishing Group. Mon intention était de collecter des données biblio (auteurs, titre, journal mais aussi mot-clefs et abstract) pour m’éviter d’ouvrir chacun de mes fichiers pdf pour tout faire à la main.
Malheureusement, même avec ces outils, vous avez quand même besoin de passer du temps sur votre clavier pour compléter les entrées. En plus, l’abstract est perdu lorsque vous transférer depuis/vers connotea en format RIS (citeulike lui préserve le résumé).

J’ai découvert 2collab en me baladant sur elsevier. Cet outil a été créé par les mêmes personnes qui sont derrière sciencedirect and scopus. Cela signifie que vous pouvez transférer vos données entre ces services en un click. Un autre chose, vous pouvez exporter toutes les références que vous avez cités dans vos articles déjà publiés en format RIS (ou autre) depuis scopus.

Finalement, un ami m’a montré zotero et j’ai été bluffé. C’est l’outil ultime pour chercher, stocker, trier et organiser toutes vos informations péchées sur le net. C’est un plugin pour votre navigateur (firefox ou autre) et votre librairie personnelle est stockée sur votre ordinateur. Vous pouvez l’exporter en format RIS sans aucune perte d’information.

En résume, zotero est le meilleur choix. De là, je peux transférer ma bibliographie et l’uploader dans citeulike pur la partager avec d’autres et mes publications dans 2collab pour éviter d’avoir la page publication sur mon site ouebe. Pourquoi je parle toujours du format RIS? Parce que j’écris mes papiers en Latex avec Bibtex. J’ai trouvé que RIS était le meilleur format pour transférer les données. En plus, j’utilise l’excellent JabRef comme reference manager (cela fera sans doute l’objet d’un autre post).

Best viewed using…

Tous ceux qui codent eux-même leur site vous le diront: assurer une bonne visibilité du code pour différent navigateurs est super pénible. On passe des heures à peaufiner une feuille de style (css) ou à faire du dynamique. Ça rend super avec Firefox et ça déconne complètement avec IE (ou l’inverse). Et comme être sur que ça marche partout prend du temps, on ajoute une ligne pour prévenir le visiteur: “Best viewed using…”. C’est un peu dommage mais c’est pas trop grave.

Là où cela devient franchement pénible c’est quand certains sites ou services vous refusent l’entrée car vous n’avez pas le bon navigateur. Je pense plus particulièrement aux entreprises qui demandent à leur staff de gérer leur temps de travail à l’aide de services en ligne. Par exemple:

  • rapporter combien d’heures par jour vous avez passé sur tel ou tel projet,
  • poser vos jour de congés,
  • ou télécharger votre dernière feuille de paye etc…

Que faire dans ce cas-là? Lancer IE qui n’a pas été mis à jour depuis des plombes et qui vous insulte en disant que “tel ou tel certificat n’est pas valable, voulez vous vraiment continuer”. Ben devine banane, je te lance exprès pour aller sur ce site alors oui je veux y aller.

Et ben non, on va dans l’onglet outils et, dans User Agent Switcher, on choisit a quel navigateur on veut que le notre ressemble (et ainsi on blouse le site).

L’extension User Agent Switcher ajoute un menu et un toolbar button qui permet de changer le “user agent” de votre navigateur.