6533b7d8fe1ef96bd126a9f1
RESEARCH PRODUCT
Twitter et la linguistique située: Réflexions méthodologiques à partir de l’exemple de tweets sur la métropole de Dijon
Matthieu BachArnaud Da Costasubject
[SCCO.LING] Cognitive science/Linguistics[SCCO.LING]Cognitive science/Linguistics[SHS.LANGUE]Humanities and Social Sciences/Linguistics[SHS.LANGUE] Humanities and Social Sciences/Linguisticsdescription
International audience; Cette communication s’inscrit dans le cadre du projet de recherche interdisciplinaire POPSU visant à entre autres à analyser l’identité métropolitaine et identifier les intérêts des citoyens. Pour alimenter la discussion proposée, nous exploiterons un corpus original de 300 000 tweets collectés en temps réel depuis juillet 2019 dans le cadre du projet interdisciplinaire POPSU Dijon, hébergé à la MSH Dijon et dont le but est d’explorer les interactions des utilisateurs de Twitter lorsqu’ils parlent de Dijon et de la métropole. Nous commencerons par discuter les aspects liés à la collecte de données Twitter :- juridiques : protections des données personnelles, Open Data ;- relatifs à la constitution du jeu de données : où placer le curseur entre l’exhaustivité des données recueillies et le risque de recueillir des données trop éloignées de l’objet d’étude (au niveau temporel, géographique ou thématique) ;- techniques : liés à l’API gratuite de Twitter (différentes méthodes de collectes et leur exhaustivité) ;- relatifs aux jeux de données dont les traitements ne nécessitent pas d’infrastructure Big Data.Les questionnements informatiques sont consubstantiels aux interrogations linguistiques qui ont émaillé l’ensemble de ce projet à l’interface entre informatique, linguistique et géographie. Les données collectées nous ont amenés à évaluer leur intégrité et leur mise en corpus ; cette phase de réflexion est fondamentale dans le cadre de l’analyse de discours, qui était le but initial du projet de recherche. Or, si l’intégrité du corpus n’est pas garantie, une analyse de discoursne peut être envisagée en tant que telle (cf. la définition séminale de Busse/Teubert 1994).Cette mise en défaut n’est toutefois pas rédhibitoire dans la mesure où les données Twitter peuvent alimenter d’autres réflexions linguistiques et amener à considérer d’autres nœuds entre matérialisations linguistiques et structures épistémiques. En tant que source de données hypersynchroniques, Twitter permet une analyse de phénomènes linguistiques contemporains et authentiques (cf. la réflexion menée dans Bach 2020) ; toutefois, Twitter n’est pas un instrument magique pour la linguistique située, et un certain nombre de desiderate sont à formuler en ce sens pour une démarche scientifique rigoureuse (c’est-à-dire falsifiable et en accord avec les innovations issues des autres champs de la cognition). Ce projet a en effet mis en évidence deux types de limitations : techniques et éthodologiques. Une grande partie de ces limitations ont été contournées, et il nous est possible d’ajuster la méthodologie pour les futurs projets. Notre expérience montre que, sur le long terme, une collaboration étroite et régulière avec une implication continue et forte de chacun des acteurs est nécessaire.
year | journal | country | edition | language |
---|---|---|---|---|
2020-12-07 |