Metsem 2022/2023

  • 01/06/23 - Introduction aux expressions régulières (regex), Jean-Baptiste Pressac, Pierre-Guillaume Prigent et Sébastien de Villèle 

Résumé de la séance : Introduites dans les années 1950 par un mathématicien américain, les expressions régulières ou “regex” (prononcer “réguex”) sont des séquences de caractères qui, exécutées dans un environnement approprié, permettent de sélectionner certains éléments (en général redondants) de données textuelles. Les regex peuvent notamment être utilisées pour extraire certaines informations ou remplacer certaines chaînes de caractères par d’autres. Implémentées à l’origine sous Unix, les regex peuvent être utilisées avec la plupart des langages de programmation et dans des logiciels de la vie courante tels que les logiciels de traitement de texte. Cette séance propose une introduction par l’exemple aux expressions régulières avec des applications dans LibreOffice et R. 

  • 13/04/23 - Les archives du web, une source pour la recherche Sara ? Aubry et Dorothée Benhamou-Suesser

 Résumé de la séance : Depuis la fin des années 1990, la Bibliothèque nationale de France (BnF) constitue de gigantesques collections de documents numériques, qu’ils soient numérisés ou nés sous forme numérique. Parmi ces collections, les archives du web occupent une place particulière en raison de leur composition documentaire complexe et de leur volumétrie importante. Les archives du web sont constituées à l’aide de robots de collecte logiciels qui parcourent régulièrement des millions de sites web et copient les pages et tous les objets qui les composent. Données collectées et métadonnées forment une nouvelle source pour la recherche. Comme le web, ces archives ouvrent de nouvelles perspectives de recherche et permettent de renouveler les méthodes d’exploitation des corpus documentaires. Lors de ce séminaire, Dorothée Benhamou-Suesser et Sara Aubry présenteront les modalités juridiques, documentaires et techniques mises en place par la BnF pour créer les archives du web. Cette séance s’attachera à donner des clés de compréhension de cette source particulière ainsi qu’un aperçu des outils et services proposés aux chercheurs qui souhaitent l’utiliser. Quelques cas d’usage recherche seront présentés pour donner un aperçu de la diversité des méthodes de constitution et d’analyse de corpus adoptées par les chercheurs travaillant sur les archives du web. 

  • 14/03/23 - Est-il préférable d’utiliser NVivo ou Excel pour le codage de données qualitatives ? Marie Moncada

Résumé de la séance : En analyse qualitative, le codage consiste à réduire un énoncé en quelques mots — un code. Ces codes peuvent ensuite être triés, hiérarchisés et dénombrés pour offrir au chercheur une description du corpus facilitant son analyse. La littérature scientifique ne s’est pas encore intéressée à la comparaison entre les CAQDAS et les tableurs pour le codage de données qualitatives. À partir de trois expériences scientifiques, cette communication interroge les forces et faiblesses de NVivo et d’Excel. Les principaux résultats sont les suivants. NVivo est préférable pour organiser ses données, effectuer des recherches d’occurrence, construire un échantillon, modifier ses codes et analyser ses données de manière inductive et abductive. En revanche, la prise en main d’Excel est plus facile et son prix est moindre. La reformulation et la quantification permettent d’analyser les données plus finement et les erreurs sont inexistantes. La triangulation, la transition vers la rédaction et la transparence sont également facilitées avec ce tableur. Il n’y a pas, en revanche, de supériorité entre ces deux logiciels concernant la contextualisation des codes, la supériorité sur le codage manuel et la capacité à éviter le « coding fetishism ». Au regard des bénéfices d’Excel, la littérature scientifique devrait questionner davantage l’utilité des tableurs pour coder des données qualitatives.

  • 15/09/22 - Logiciel CorText Manager – Extraction d’information et analyse socio-sémantique pour les sciences humaines et sociales, Philippe Breucker et Lionel Villard  

Résumé de la séance : CorTexT Manager est une application web construite par des chercheurs et par des ingénieurs à destination de chercheurs en sciences humaines et sociales, au plus près des questions portées par les chercheurs qui nous entourent et par notre communauté d’utilisateurs. Cette application web peut produire un grand nombre d’analyses différentes qui ont trait aux champs méthodologiques du traitement automatique de la langue, de l’analyse des réseaux sociaux, de la statistique, et plus récemment autour de la dimension géographique qui se cache dans ces données. Un des points forts de Cortext Manager est de pouvoir traiter plusieurs dimensions d’analyse en les combinant dans le même espace. Cet aspect hétérogène permet par exemple d’associer le temps avec la dimension sociale, de l’analyse de texte avec la dimension sociale ou géographique. Cela permet d’appréhender l’émergence de domaines de recherche et d’innovation, d’étudier des controverses et “hot topics”, d’effectuer des cartographies socio-sémantiques des productions de la recherche (publications, brevets, projets), ainsi que d’analyser des contenus issus du web et des média-sociaux. Cet atelier se propose de sensibiliser l’audience à certaines de ces méthodes tout en découvrant l’organisation et l’évolution de la production scientifique autour de la chloroquine et de l’hydroxychloroquine entre 2014 et 2020.

Retour en haut de page