From LaBRI - Laboratoire Bordelais de Recherche en Informatique

Theses: 2013Maabout

Analyse de données temporelles multi-dimensionnelles et détection de corrélations

Récemment, les requêtes «à préférence» ont reçu un grand intérêt de la part de la communauté de chercheurs, notamment en bases de données et fouille de données. Intuitivement, étant donné un ensemble d’objets décrits chacun par un ensemble de variables (attributs), une requête à préférence permet à l’utilisateur d’exprimer un critère (généralement, une fonction sur les attributs) permettant de décrire une relation d’ordre sur les objets qu’il s’agira ensuite d’exploiter pour ne retourner que les « meilleurs » objets selon ce critère. L’exemple simple est le résultat d’une recherche par mots clés sur un moteur de recherche tel que Google. Le résultat est trié en respectant une mesure de pertinence qui le résultat de la combinaison de plusieurs critères. Les requêtes Skyline en sont une autre illustration : Soit un ensemble de véhicules décrits chacun par le nombre de kilomètres parcourus, la consommation moyenne et l’année d’immatriculation. Sélectionner les meilleurs véhicules à partir de cet ensemble en utilisant une combinaison des 3 critères n’est pas aisé. Par contre, on peut savoir quels sont ceux qui ne feront certainement pas partie des meilleurs, i.e., ceux pour qui il existe un autre véhicule avec moins de kilométrage, moins de consommation et une année d’immatriculation plus récente. La structure de Skycube a été proposée pour analyser les objets en fonction de toute combinaison de critères (2n combinaisons possibles si les objets sont décrits par n variables). Il n’est cependant pas envisageable de calculer toutes les combinaisons vu le temps et l’espace que cela consommera.

La première partie du travail de la thèse consiste à étudier l’apport que peut avoir la connaissance de l’existence de corrélations entre attributs afin d’optimiser les requêtes sur les skycubes. Nous utiliserons dans un premier temps les dépendances fonctionnelles comme premier type de corrélations. Des résultats préliminaires obtenus au sein de l’équipe montrent déjà leur intérêt. Des algorithmes permettant d’implanter les solutions devront être développés et implémentés dans différentes configurations (données centralisées/distribuées/en colonne) afin de s’adapter aux nouvelles architectures des systèmes.

En deuxième lieu, les solutions devront être étendues à la détection de coréllations de données temporelles émanant de différentes sources (flux, séries temporelles). Le croisement de différentes sources de données, éventuellement de type hétérogène, nécessite un important travail algorithmique afin d'obtenir des temps de réponse acceptables.

Récupéré sur http://www.labri.u-bordeaux.fr/index.php?n=Theses.2013Maabout
Page mise à jour le 24/05/2013 à 16:22