TRENDMINER

Large-scale, Cross-lingual Trend Mining and Summarization of Real-time Media Streams

TrendMiner (Large-scale, Cross-lingual Trend Mining and Summarization of Real-time Media Streams) est un projet européen, d’une durée de trois ans, financé par la Commission européenne dans le cadre du septième programme-cadre (FP7-ICT) ; numéro de projet n ° 287863. Le projet a débuté en novembre 2011 et depuis mai 2012, il est porté pour la société Internet Memory Research, au travers de la plate-forme mignify (en savoir plus).

La croissance massive et récente des médias en ligne et la montée en puissance des utilisateurs-auteurs de contenu (par exemple les weblogs, Twitter, Facebook) posent aujourd’hui des défis cruciaux quant à la manière d’accéder et d’interpréter ces données fortement multilingues, et ce, d’une manière efficace et abordable. Les médias en ligne et en streaming (en flux continu) posent de nouveaux défis d’ordre scientifique, en raison de leur courte durée de vie, du bruit qu’ils génèrent et de leur niveau de langue (familier). Par ailleurs, ils forment un flux temporel fortement ancré dans des événements et leur contexte. Les technologies linguistiques existantes sont dès lors en deçà en terme d’exactitude, de montée en charge et de transfert.
L’objectif de ce projet est de fournir des méthodes innovantes, en temps réel, open source et transférables d’exploration linguistiques transverses et de synthèse de média en streaming à grande échelle.

Pour ce faire, TrendMiner utilisera une approche interdisciplinaire, associant des méthodes linguistiques avancées provenant du traitement de texte, des raisonnements basés sur la connaissance des sciences du web, les méthodes de l’apprentissage automatique, ainsi que des sciences économiques et politiques. Aucune intervention humaine, coûteuse par ailleurs, ne sera nécessaire pour annoter les données en raison de l’utilisation comme un proxy des données des séries chronologiques (marchés financiers, sondages politiques). Un des éléments-clés vient d’une faible supervision des algorithmes d’apprentissage automatique pour une découverte automatique des nouvelles tendances et corrélations. L’évolutivité et l’accessibilité seront abordées à travers une infrastructure en cloud computing pour la fouille de données textuelles en temps réel à partir de médias en streaming.

Les résultats seront validés selon deux cas d’étude : l’aide à la décision financière (avec des analystes, traders, régulateurs et économistes) et l’analyse et le suivi politique (avec des politiciens, économistes et journalistes politiques).
Les techniques seront génériques avec de nombreuses applications business : business intelligence, gestion des relations clients, soutien communautaire. Le projet bénéficiera également aux sociétés et aux citoyens ordinaires en permettant un meilleur accès aux archives de données du gouvernement, des synthèses d’informations en ligne sur des sujets comme la santé, et le suivi des affaires sociales phares.

Dans ce projet, Internet Memory contribue à la plate-forme de collecte, d’analyse et de stockage de médias en temps réel, ainsi elle
- Fournit des infrastructures évolutives aux partenaires, avec un soutien pour l’intégration et expérimentation.
- Conçoit et développe un crawler intelligent (qui adapte automatiquement paramètres et règles selon les données capturées) pour les médias sociaux.
Le projet TrendMiner est coordonné par le Deutsches Forschungszentrum für künstliche GmbH Intelligenz (Allemagne).
A Internet Memory s’ajoutent l’Université de Sheffield (Royaume Uni), Ontotext AD (Bulgarie), l’Université de Southampton (Royaume-Uni), Eurokleis SRL (Italie), Sora & Ogris Hofinger GmbH (Autriche) et Hardik Fintrade Pvt Ltd (Inde).

Trendminer_kickoff

Pour plus d’informations sur TrendMiner, visitez le site Web du projet.