LAWA

Longitudinal Analytics of Web Archive data

La Fondation Internet Memory est engagée depuis Septembre 2010 dans un nouveau projet européen, LAWA (Longitudinal Analytics of Web Archive data). Ce projet fait partie du Septième Programme Cadre de la Commission Européenne (FP7) sous la thématique [ICT-2009.1.6] Future Internet experimental facility and experimentally-driven research, projet N°258105.

L’objectif de LAWA est de construire une plateforme expérimentale destinée à l’analyse de données à grande échelle. Le projet met l’accent sur le développement d’une infrastructure et de méthodes pour l’analyse et l’interrogation de grandes collections de documents hétérogènes collectés sur le Web. Les efforts des partenaires LAWA convergeront vers la conception, le développement, le déploiement et l’exploitation d’un Observatoire virtuel de données destiné à l’analyse des données issues du Web.

Cet observatoire hébergera de grandes collections et les rendra disponibles à la communauté scientifique. Il offrira également un service d’acquisition permettant d’effectuer des recherches ciblées sur une thématique spécifique, constituant ainsi de nouvelles collections de documents publiés sur le Web pendant une période donnée et couvrant des événements de nature politique, sociale, culturelle, économique, etc.

Le projet doit aboutir à des résultats bénéficiant à la communauté des utilisateurs intéressés par le contenu du Web et son évolution, en fournissant un support sur l’ensemble de la chaîne de production et d’analyse, et notamment:
- amélioration de la collecte des données et de leur stockage
- mise en place d’un système passant à l’échelle et d’une indexation pertinente des collections
- exploration, exploitation et découverte de connaissances à partir des données agrégées
- développement d’outils d’analyse graphique avancée et évaluation de la qualité des données Web

La fondation Internet Memory est particulièrement impliquée dans les tâches d’acquisition de documents, avec l’objectif ambitieux et original de conserver leur versions successives et d’ouvrir ainsi la possibilité d’étudier leur évolution.

Un objectif majeur est le développement d’une nouvelle architecture supportant les collectes à l’échelle du Web (soit des milliards de ressources), et le stockage de données dans des systèmes sophistiqués aptes à répondre efficacement à des requêtes analytiques.

Le projet est coordonné par l’Institut Max Planck à Saarbrücken (Allemagne). Outre la Fondation Interrnet Memory, seront impliqués la Hebrew University of Jerusalem (Israèl), Hanzo Archives Limited (Royaume Uni), Université de Patras (Grèce), Computer and Automation Research Institutee de Hongrie et l’Academie des Sciences de Budapest, Hongrie (SZTAKI).

Si vous souhaitez davantage d’informations, visitez le site du projet.
Lawa Logo