0000000001166861
AUTHOR
Lucile Sautot
Enrichissement de schéma multidimensionnel en constellation grâce à la Classification Ascendante Hiérarchique
National audience; Les hiérarchies sont des structures cruciales dans un entrepôt de don-nées puisqu'elles permettent l'agrégation de mesures dans le but de proposer une vue analytique plus ou moins globale sur les données entreposées, selon le niveau hiérarchique auquel on se place. Cependant, peu de travaux s'intéressent à la construction de hiérarchies, via un algorithme de fouille de données, pre-nant en compte le contexte multidimensionnel de la dimension concernée. Dans cet article, nous proposons donc un algorithme, implémenté sur une architecture ROLAP, permettant d'enrichir une dimension avec des données factuelles.
Une nouvelle approche mixte d'enrichissement de dimensions dans un schéma multidimensionnel en constellation Application à la biodiversité des oiseaux
International audience; Les entrepôts de données (DW) et les systèmes OLAP sont des technologies d'analyse en ligne pour de grands volumes de données, basés sur les be-soins des utilisateurs. Leur succès dépend essentiellement de la phase de conception où les exigences fonctionnelles sont confrontées aux sources de données (méthodologie de conception mixte). Cependant, les méthodes de conception existantes semblent parfois inefficaces, lorsque les décideurs définissent des exi-gences fonctionnelles qui ne peuvent être déduites à partir des sources de don-nées (approche centrée sur les données), ou lorsque le décideur n'a pas intégré tous ces besoins durant la phase de conception (approche c…
The Hierarchical Agglomerative Clustering with Gower index: a methodology for automatic design of OLAP cube in ecological data processing context
In Press, Corrected Proof; International audience; The OLAP systems can be an improvement for ecological studies. In fact, ecology studies, follows and analyzes phenomenon across space and time and according to several parameters. OLAP systems can provide to ecologists browsing in a large dataset. One focus of the current research on OLAP system is the automatic design of OLAP cubes and of data warehouse schemas. This kind of works makes accessible OLAP technology to non information technology experts. But to be efficient, the automatic OLAP building must take into account various cases. Moreover the OLAP technology is based on the concept of hierarchy. Thereby the hierarchical clustering m…
Semi-automatic conception and implementation of data warehouses : application to ecological data
This thesis concerns the semi-automatic design of data warehouses and the associated OLAP cubes analyzing ecological data.The biological sciences, including ecology and agronomy, generate data that require an important collection effort: several years are often required to obtain a complete data set. Moreover, objects and phenomena studied by these sciences are complex and require many parameter recording to be understood. Finally, the collection of complex data over a long time results in an increased risk of inconsistency. Thus, these sciences generate numerous and heterogeneous data, which can be inconsistent. It is interesting to offer to scientists, who work in life sciences, informati…
Construction de Modèles Prédictifs pour l'Analyse des Relations Oiseaux-Paysage
National audience; Cet article présente une comparaison de trois méthodes (Modèles Linéaires Généralisés, Réseaux de Neurones, Machines Vecteurs Supports) et de différentes combinaisons de prétraitements de données (filtrage, arrondi, analyse factorielle, sélection de paramètres). L'objectif de cette comparaison est de définir quel est le processus qui permet de construire le meilleur modèle prédictif, dans le cadre de la prédiction d'abondances d'espèces d'oiseaux à partir de variables décrivant le paysage. Nous comparerons les modèles grâce à l'erreur moyenne absolue et à l'information mutuelle. Cette comparaison a montré qu'aucune technique étudiée ne permet de construire des modèles pré…
Efficient unsupervised clustering for spatial bird population analysis along the Loire river
International audience; This paper focuses on application and comparison of Non Linear Dimensionality Reduction (NLDR) methods on natural high dimensional bird communities dataset along the Loire River (France). In this context, biologists usually use the well-known PCA in order to explain the upstream-downstream gradient.Unfortunately this method was unsuccessful on this kind of nonlinear dataset.The goal of this paper is to compare recent NLDR methods coupled with different data transformations in order to find out the best approach. Results show that Multiscale Jensen-Shannon Embedding (Ms JSE) outperform all over methods in this context.
Nombre de contributions en ligne au Grand Débat National (volet Transition Écologique) en France métropolitaine
Les données extraites pour cette analyse proviennent du site du Grand Débat National. Nous avons utilisé les données concernant la transition écologique. Sur l’ensemble de ces données seul ont été considérée celle faisant référence aux réponses aux propositions et pas aux questionnaires rapides. Nous utilisons les codes postaux renseignés par les contributeurs dans leurs propositions. Parmi les 134177 personnes ayant répondu au questionnaire "Transition écologique", 131472 ont donné un code postal exploitable permettant de les localiser. La carte montre le nombre de contributeurs répartis dans une maille hexagonale, où le centre de chaque maille est distant de dix kilomètres de ses voisins.…
Contributeurs au Grand Débat National demandant un développement des pistes cyclables dans l'Hérault
Le Grand Débat National, décidé par Emmanuel Macron début 2019 pour répondre au mouvement social des Gilets Jaunes, a permis de collecter les contributions de citoyens sur la transition écologique via une plateforme en ligne. Dans cet article, nous exploitons le corpus constitué par ces contributions pour identifier des zones où les participants demandent le développement de pistes cyclables et d’équipements ferroviaires. Pour cela, nous avons créé un modèle de classification permettant d’identifier les contributions traitant de la thématique du transport et proposé une méthode d’extraction de motifs traduisant les propositions des contributeurs. A l’aide des codes postaux donnés par les co…
Mixed Driven Refinement Design of Multidimensional Models based on Agglomerative Hierarchical Clustering
20 pages; International audience; Data warehouses (DW) and OLAP systems are business intelligence technologies allowing the on-line analysis of huge volume of data according to users' needs. The success of DW projects essentially depends on the design phase where functional requirements meet data sources (mixed design methodology) (Phipps and Davis, 2002). However, when dealing with complex applications existing design methodologies seem inefficient since decision-makers define functional requirements that cannot be deduced from data sources (data driven approach) and/or they have not sufficient application domain knowledge (user driven approach) (Sautot et al., 2014b). Therefore, in this p…
Le grand débat national, une aide pour prendre des décisions locales?
The Great National Debate, decided by Emmanuel Macron at the beginning of 2019 to respond to the Yellow Vests social movement, allowed the collection of citizens’ contributions on the ecological transition via an online platform. In this article, we use the corpus constituted by these contributions to identify areas where participants are asking for the development of bicycle paths and railway facilities. For this purpose, we have created a classification model to identify contributions dealing with the theme of transportation and proposed a method for extracting patterns that reflect the contributors’ proposals. We then represented these patterns on maps, using the contributors’ postal cod…
Contributeurs au Grand Débat National demandant un développement du réseau ferroviaire et/ou une augmentation de la fréquence des trains dans l'Hérault
Le Grand Débat National, décidé par Emmanuel Macron début 2019 pour répondre au mouvement social des Gilets Jaunes, a permis de collecter les contributions de citoyens sur la transition écologique via une plateforme en ligne. Dans cet article, nous exploitons le corpus constitué par ces contributions pour identifier des zones où les participants demandent le développement de pistes cyclables et d’équipements ferroviaires. Pour cela, nous avons créé un modèle de classification permettant d’identifier les contributions traitant de la thématique du transport et proposé une méthode d’extraction de motifs traduisant les propositions des contributeurs. A l’aide des codes postaux donnés par les co…
Contributeurs au Grand Débat National demandant un développement du réseau ferroviaire et/ou une augmentation de la fréquence des trains dans l'aire urbaine de Grenoble.
Le Grand Débat National, décidé par Emmanuel Macron début 2019 pour répondre au mouvement social des Gilets Jaunes, a permis de collecter les contributions de citoyens sur la transition écologique via une plateforme en ligne. Dans cet article, nous exploitons le corpus constitué par ces contributions pour identifier des zones où les participants demandent le développement de pistes cyclables et d’équipements ferroviaires. Pour cela, nous avons créé un modèle de classification permettant d’identifier les contributions traitant de la thématique du transport et proposé une méthode d’extraction de motifs traduisant les propositions des contributeurs. A l’aide des codes postaux donnés par les co…
Qui a peur du changement climatique?
ABSTRACT.The French "Grand Débat National" (Great National Debate) was animportant political event in 2019. Using the online proposals collected during thisconsultation, we propose a representation of the feeling of the impact of climate changeamong the contributors to the "Grand Débat National" in Metropolitan France. Weanalyze the causes of this feeling, through a supervised analysis of the contributions(via the Great Annotation) and we show the complementary interest of an unsuper-vised analysis (by extracting keywords). We show the richness of the data set that constitutes the "Grand Débat National", and the analytical stakes around these data.We also point out some important limitation…
Constitution de corpus thématique : Pour un meilleur suivi du territoire de la Métropole de Montpellier Méditerranée
International audience
Contributeurs au Grand Débat National demandant un développement du réseau ferroviaire et/ou une augmentation de la fréquence des trains dans l'aire urbaine de Dijon
Le Grand Débat National, décidé par Emmanuel Macron début 2019 pour répondre au mouvement social des Gilets Jaunes, a permis de collecter les contributions de citoyens sur la transition écologique via une plateforme en ligne. Dans cet article, nous exploitons le corpus constitué par ces contributions pour identifier des zones où les participants demandent le développement de pistes cyclables et d’équipements ferroviaires. Pour cela, nous avons créé un modèle de classification permettant d’identifier les contributions traitant de la thématique du transport et proposé une méthode d’extraction de motifs traduisant les propositions des contributeurs. A l’aide des codes postaux donnés par les co…
Multidimensional Model Design using Data Mining: A Rapid Prototyping Methodology
[Departement_IRSTEA]Ecotechnologies [TR1_IRSTEA]MOTIVE; International audience; Designing and building a Data Warehouse (DW), and associated OLAP cubes, are long processes, during which decision-maker requirements play an important role. But decision-makers are not OLAP experts and can find it difficult to deal with the concepts behind DW and OLAP. To support DW design in this context, we propose: (i) a new rapid prototyping methodology, integrating two different DM algorithms, to define dimension hierarchies according to decision-maker knowledge; (ii) a complete UML Profile, to define a DW schema that integrates both the DM algorithms; (iii) a mapping process to transform multidimensional …
Le sentiment des contributeurs de l’impact du changement climatique sur leur vie quotidienne (contributions en ligne au Grand Débat National - volet Transition Écologique)
Les données extraites pour cette analyse proviennent du site du Grand Débat National -volet Transition écologique.Nous utilisons les codes postaux renseignés par les contributeurs dans leurs propositions. Parmi les 134177 personnes ayant répondu au questionnaire "Transition écologique", 131472 ont donné un code postal exploitable permettant de les localiser.Concernant la question "Diriez-vous que votre vie quotidienne est aujourd’hui touchée par le changement climatique ?", 64% des contributeurs ont répondu oui, 29% ont répondu non et 7% n’ont pas répondu.Pour représenter le sentiment d’impact du changement climatique, nous exprimons ce dernier par un indice de sentiment estimer par la rela…
Enrichissement de schéma multidimensionnel en constellation grâce à la classification ascendante hiérarchique
International audience; Les hiérarchies sont des structures cruciales dans un entrepôt de données puisqu’elles permettent l’agrégation de mesures dans le but de proposer une vue analytique plus ou moins globale sur les données entreposées, selon le niveau hiérarchique auquel on se place. Cependant, peu de travaux s’intéressent à la construction de hiérarchies, via un algorithme de fouille de données, prenant en compte le contexte multidimensionnel de la dimension concernée. Dans cet article, nous proposons donc un algorithme, implémenté sur une architecture ROLAP, permettant d’enrichir une dimension avec des données factuelles.
Large-scale nonlinear dimensionality reduction for network intrusion detection
International audience; Network intrusion detection (NID) is a complex classification problem. In this paper, we combine classification with recent and scalable nonlinear dimensionality reduction (NLDR) methods. Classification and DR are not necessarily adversarial, provided adequate cluster magnification occurring in NLDR methods like $t$-SNE: DR mitigates the curse of dimensionality, while cluster magnification can maintain class separability. We demonstrate experimentally the effectiveness of the approach by analyzing and comparing results on the big KDD99 dataset, using both NLDR quality assessment and classification rate for SVMs and random forests. Since data involves features of mixe…
Dimension enrichment with factual data during the design of multidimensional models: application to bird biodiversity
20 pages; International audience; Data warehouses (DW) and OLAP systems are technologies allowing the on-line analysis of huge volume of data according to decision-makers’ needs. Designing DW involves taking into account functional requirements and data sources (mixed design methodology) [1]. But, for complex applications, existing automatic design methodologies seem inefficient. In some cases, decision-makers need querying, as a dimension, data which have been defined as facts by actual automatic mixed approachs. Therefore, in this paper, we offer a new mixed refinement methodology relevant to constellation multidimensional schema. The proposed methodolgy allows to decision-makers to enric…
Contributeurs au Grand Débat National demandant un développement des pistes cyclables dans l'aire urbaine de Grenoble
Le Grand Débat National, décidé par Emmanuel Macron début 2019 pour répondre au mouvement social des Gilets Jaunes, a permis de collecter les contributions de citoyens sur la transition écologique via une plateforme en ligne. Dans cet article, nous exploitons le corpus constitué par ces contributions pour identifier des zones où les participants demandent le développement de pistes cyclables et d’équipements ferroviaires. Pour cela, nous avons créé un modèle de classification permettant d’identifier les contributions traitant de la thématique du transport et proposé une méthode d’extraction de motifs traduisant les propositions des contributeurs. A l’aide des codes postaux donnés par les co…
Mesurer l’efficacité des enseignements par l’étude des rendements
International audience; Le champ des recherches concernant les pratiques enseignantes en étude de la langue demeure peu fertile (on citera entre autres : Bulea Bronckart et al. , 2018 ; Riou, 2017) et supporte peu de généralisations, la portée statistique semblant difficilement atteignable, pour des raisons pragmatiques. Par ailleurs, l’importante recherche Lire – Écrire menée par l’Ifé en 2010-2013 (Goigoux, 2015) a ouvert la voie méthodologique à des études quantitatives dans le domaine de la didactique. C’est dans ce cadre que la recherche REAlang1 s’est donné comme objectif, entre autres, d’évaluer la performance des classes de CE2, CM1 et CM22 concernant des savoirs grammaticaux et ort…
Une méthodologie et un outil pour le prototypage rapide des entrepôts de données en utilisant le data mining : application à la biodiversité des oiseaux
International audience; Data Warehouses (DWs) are large repositories of data aimed at supporting the decision-making process by enabling flexible and interactive analyses via OLAP systems. Rapid prototyping of DWs is necessary when OLAP applications are complex. Some work about the integration of Data Mining and OLAP systems has been done to enhance OLAP operators with mined indicators, and/or to define the DW schema. However, to best of our knowledge, prototyping methods for DWs do not support this kind of integration. Then, in this paper we present a new prototyping methodology for DWs, extending [3], where DM methods are used to define the DW schema. We validate our approach on a real da…
Contributeurs au Grand Débat National demandant un développement des pistes cyclables dans l'aire urbaine de Dijon
Le Grand Débat National, décidé par Emmanuel Macron début 2019 pour répondre au mouvement social des Gilets Jaunes, a permis de collecter les contributions de citoyens sur la transition écologique via une plateforme en ligne. Dans cet article, nous exploitons le corpus constitué par ces contributions pour identifier des zones où les participants demandent le développement de pistes cyclables et d’équipements ferroviaires. Pour cela, nous avons créé un modèle de classification permettant d’identifier les contributions traitant de la thématique du transport et proposé une méthode d’extraction de motifs traduisant les propositions des contributeurs. A l’aide des codes postaux donnés par les co…
A Methodology and Tool for Rapid Prototyping of Data Warehouses Using Data Mining: Application to Birds Biodiversity
Data Warehouses (DWs) are large repositories of data aimed at supporting the decision-making process by enabling flexible and interactive analyses via OLAP systems. Rapid prototyping of DWs is necessary when OLAP applications are complex. Some work about the integration of Data Mining and OLAP systems has been done to enhance OLAP operators with mined indicators, and/or to define the DW schema. However, to best of our knowledge, prototyping methods for DWs do not support this kind of integration. Then, in this paper we present a new prototyping methodology for DWs, extending [3], where DM methods are used to define the DW schema. We validate our approach on a real data set concerning bird b…
The Tucker tensor decomposition for data analysis: capabilities and advantages
Tensors are powerful multi-dimensional mathematical objects, that easily embed various data models such as relational, graph, time series, etc. Furthermore, tensor decomposition operators are of great utility to reveal hidden patterns and complex relationships in data. In this article, we propose to study the analytical capabilities of the Tucker decomposition, as well as the differences brought by its major algorithms. We demonstrate these differences through practical examples on several datasets having a ground truth. It is a preliminary work to add the Tucker decomposition to the Tensor Data Model, a model aiming to make tensors data-centric, and to optimize operators in order to enable…