Successful end of LAWA project

 

The LAWA project ended successfully in October 2013.
LAWA (Longitudinal Analytics of Web Archive) conducted an ambitious, focused research and development on Big Data analytics for very large Web collections.


In LAWA project, a particular emphasis has been put on temporal aspects, including change analysis, trend detection, and data aggregation over time periods.
Internet Memory participated to the project as the main data provider and software integrator.

The projects outcome consist of many top-level research contributions, published in major conferences of the field (SIGMOD, VLDB, ICDE to name a few), as well as industrial achievements now incorporated in Internet Memory software. MemoryBot, the Internet Memory crawler, has been designed and implemented as part of the LAWA effort. The LAWA architecture, based on the Hadoop/HBase suite, and featuring a high-level analytic framework, is largely inspired from IM R&D activity, and has been adopted for the Mignify platform, provided by Internet Memory Research.
Overall, LAWA, whose results have been deemed “excellent” by the European Commission, is an representative example of a fruitful cooperation between high-level research group and innovative SMEs.

We thank the European Commission for its support, and hope that the LAWA components integrated in our products will demonstrate their effectiveness.

 

 

How to fit in? Integrating a web archiving program in your organization

 

Internet Memory will be part of IIPC-sponsored workshop held at the Bibliothèque nationale de France, Paris, on Friday, November 30, 2012.

IIPC New Logo
Ten National Libraries from all over the world will be attending the workshop and will have the opportunity, on Friday 30th November to learn more about Internet Memory activities:
- Our Partnerships with heritage institutions and research centers
- Web archiving services: Production, Quality Assurance and tools we developed to improve crawl, access, and usage
- Research projects which enables Internet Memory to collaborate on innovative projects with prestigious labs.

List of participants:
Bibliotheca Alexandrina
British Library
Library of Congress
National and University Library of Slovenia
National Library and Archives of Québec
National Library of Estonia
National Library of Germany
National Library of the Netherlands
National Library of Singapore
National Library of Spain

More information

 

 

Workshop on Big-Data Analytics for the Temporal Web, Paris, November 13, 2012

 

The LAWA project organizes an International Workshop on Big-Data Analytics for the Temporal Web, Paris, November 13, 2012.
Keynotes by Yahoo! Research, Barcelona (R. Baeza-Yates) and L3S Research Center, Hanover (W. Nejdl).

Lawa Logo

The LAWA project organizes an one-day workshop with researchers using (or planning to use) the Web as a corpus for their studies.

The focus is on methods, tools, and platforms for big-data analytics, including requirements on and experiences with such technologies.
Topics of interest include but are not limited to:
- Web dynamics, history, and archives;
- Text mining and contents classification,
- Temporal/longitudinal studies
- Scalable methods (e.g., cloud-based map-reduce),
- Large scale data storage,
- Community detection and evolution.

The workshop will have presentations by participating researchers and big-data users, including the LAWA project team.

Keynotes by:
- Ricardo Baeza-Yates from Yahoo! Research, Barcelona
- Wolfgang Nejdl from L3S Research Center, Hanover

Emphasis will be on experience-sharing and discussing mutual interests in big-data analytics for the temporal Web.

The workshop is free of charge and open to public, but registration is compulsory by sending an email to:
.(JavaScript must be enabled to view this email address)

Be Welcome!

More Information about LAWA project

 

 

Archivage du Web : quelle mise en oeuvre ? (ADBS, Paris, 25/09/12)

 

L'Association des professionnels de l'information et de la documentation (ADBS) ouvre ses portes à l'archivage du Web et à Internet Memory, au travers d'une manifestation qui donnera lieu à une vidéo en ligne.

Archivage du Web : quelle mise en oeuvre ?

A l’heure où le Web est devenu le média de notre temps, la question de son archivage et de sa préservation pour les générations présentes et à venir émerge lentement mais sûrement. Dès lors, diverses mises en œuvre s’offrent à toute organisation souhaitant s’engager dans un projet d’archivage Web.

Après avoir dressé un état des lieux des initiatives et des aspects plus techniques, Internet Memory abordera les perspectives, en terme d’usage, en s’appuyant sur ses nombreuses expériences et collaborations dans ce domaine, avec des organisations de toute taille.

Intervenantes

Leila Medjkoune et Chloé Martin

Informations pratiques

Archivage du Web : quelle mise en oeuvre ?
Mardi 25 septembre 2012, 17h-19h
ADBS
25, rue Claude Tillier
75012 Paris

La vidéo sera bientôt accessible depuis le site de l’ADBS, Rubrique 5 à 7

 

 

Archivage Web pour des collectivités territoriales anglaises

 

Internet Memory Foundation a participé, en collaboration avec les Archives Nationales du Royaume-Uni à l'élaboration d'un projet pilote d'archivage du Web destiné à sept collectivités territoriales Outre-Manche. L'opération a été un grand succès !

Depuis plusieurs années, Internet Memory collabore avec les Archives Nationales du Royaume-Uni et ce, dans le but de collecter et préserver des contenus Web en provenance de sites gouvernementaux du Royaume-Uni. Dans ce cadre, plusieurs téraoctets de documents en ligne sont archivés chaque année, générant des millions de visites par semaine sur le site Web des Archives Nationales Britanniques.

Afin d’encourager les services d’archives locales à créer leur propre archive Web, les Archives Nationales ont décidé, il y a un an, d’organiser un projet pilote d’archivage du Web avec sept services d’archivage représentant 20 collectivités territoriales.

Internet Memory a eu le privilège de faire partie de ce projet pilote durant les phases de formation et d’exploitation, incluant :

- Session de formation ayant pour objet les processus, les outils et les défis de l’archivage Web.
- Sélection des sites Web : chaque service devait sélectionner trois sites Web à archiver.
- Lancement des captures en janvier 2012, suivi et contrôle qualité impliquant chaque service.
Au terme de ce projet pilote, les participants ont été satisfaits par l’expérience et les résultats.
Ils envisagent maintenant les options futures pour développer leurs propres archives Web.
Affaire à suivre …

Résultats du projet pilote d’archivage Web pour les collectivités territoriales

Greater Manchester Archives Group

- Manchester International Film Festival  
- Football Club United of Manchester
- Greater Manchester Coalition of Disabled People

North Yorkshire County Record Office

- Taylors of Harrogate
- Northallerton Town Football Club
- UNISON North Yorkshire Local Government

Sheffield

- Nick Clegg, MP for Sheffield Hallam
- Sheffield Pride
- South Yorkshire Housing Association   

Staffordshire

- Diocese of Lichfield
- Stoke on Trent, Pottery and Ceramics
- Staffordshire Hoard

Surrey

- Hambledon
- Painshill Park
- Surrey Wildlife Trust

West Yorkshire Archives Service

- Wakefield Anglican Diocese
- Incredible Edible Todmorden
- The Culture Vulture

Dorset History Centre

- Bournemouth Holidays and Tourist Information
- Visit Dorset
- Poole Tourism

Liens vers les Archives nationales du Royaume-Uni
- News story
- Press Release

 

 

41e conférence annuelle LIBER en Estonie

 

Internet Memory s’attache à être présente, lors de conférences internationales, pour promouvoir l'archivage Web. Ne dérogeant pas à cette règle, notre institution participe à la 41e conférence annuelle LIBER qui se déroule cette année dans la ville estonienne de Tartu.

Archivage Web, ou le défi de la sauvegarde d’un précieux patrimoine

Cette conférence LIBER représente un rendez-vous incontournable pour les bibliothèques de recherche afin d’échanger et collaborer sur les problématiques qui leur sont propres, dont la collecte et la préservation. Dès lors, il s’agit pour Internet Memory de partager, informer sur ses nouveaux savoir-faire techniques dans l’univers de la collecte numérique et de l’archivage Web.

L’intervention d’Internet Memory sera assurée par Chloé Martin le mercredi 27 juin qui dressera, en partenariat avec la Bibliothèque national d’Irlande, un cas d’usage pour la mise en place de campagnes d’archivage. Les deux intervenantes se pencheront sur les différentes étapes de la création d’un projet d’archivage Web, de la définition du projet à l’accès aux collections d’archives Web en passant par les étapes de la sélection, des autorisations, du Crawl et du Contrôle Qualité.

Ce cas de la Bibliothèque nationale d’Irlande illustre parfaitement la mission d’Internet Memory : développer de nouvelles collaborations et partenariats pour étendre les initiatives en faveur de la préservation du Web.

Dans le cas présent, il s’agit de collecter, préserver et donner accès à des contenus Web à haute valeur ajoutée, (données politiques lors de plusieurs élections en Irlande).

 

 

SCAPE, un an déjà...

 

Une année d'activité de l'Internet Memory Foundation sur le projet SCAPE, le bilan.

Au bout d’une année d’activité sur le projet SCAPE, l’Internet Memory Foundation, partenaire actif de ce projet d’envergure, a pu apporter sa contribution aux efforts déployés afin de mettre en place des solutions et innovations techniques nécessaires à la réussite de ce projet.

Concrètement, la pierre angulaire du projet SCAPE est désormais en place. Les ingénieurs et les chercheurs de l’Internet Memory Foundation ont participé, en effet, à la conception de l’architecture d’une plate-forme de préservation évolutive. L’IMF a aussi apporté son expertise dans la conception de bancs d’essai de la plateforme en question, tout en contribuant aussi à la conception des scénarios de préservation et à l’apport de données. D’ailleurs, au sein d’IMF et dans un souci de partage des connaissances et innovations, une première itération de la plateforme a été déployée, comme une instance centrale, disponible à l’ensemble des partenaires du projet.

En à peine un an, le projet SCAPE compte déjà six réalisations - dont cinq publiques - délivrées dans les délais impartis par la Communauté européenne. Lors du premier rapport de la CE, toutes les réalisations ont été acceptées. Mieux encore, le site dédié au projet SCAPE s’enrichit de trois nouveaux rapports ainsi que d’une quinzaine de publications scientifiques, centrés sur les derniers résultats développés dans le projet SCAPE, publiées dans des revues et dans le cadre de conférences.

Cette première année d’activité SCAPE a été prolifique en hauts-faits techniques dont :
- Sur la plate-forme de préservation, le déploiement d’un cluster expérimental pour des travaux de développement.
- La mise au point de plusieurs composants et applications (à titre d’exemple la réalisation d’un prototype pour l’exécution de ligne de commande d’applications Hadoop, d’un catalogue d’action SCAPE, et de l’adaptateur Akubra HDFS).
- L’élaboration de 22 scénarios SCAPE où sont documentés des jeux de données, enjeux et solutions provenant des fournisseurs de contenus SCAPE.
- De nombreux Workflows expérimentaux Taverna ont été développés et testés.
- Ce même Workflow Taverna compte 52 actions, disponibles en ligne.

Pour en savoir plus sur le projet SCAPE n’hésitez pas à vous inscrire pour suivre l’actualité du projet ou consulter la Newsletter déjà en ligne.

 

 

Web Archiving at the College de France

 

On March 28th, at 11.00 am, a Web archiving Seminar held by Julien Masanès

At the College de France, Chair of Information Technology and Digital Sciences

Information technology has revolutionized our lives. Computers are traditionally seen as computing machines, although their main purpose is now to manage data. This course will cover essential aspects of data management, including its close relationship with mathematical logic and complexity theory. The Web can be seen as a huge distributed database: its most exciting aspects will also be studied, such as its scale or the challenges of distributed computing and the Semantic Web.

Wednesday, March 28th, from 10.00 to 12.00 am: Semantic Web, Open Data and Web Archiving

Serge Abiteboul opens the conference with a lecture about the Semantic Web and invites François Bancilhon, Director of DataPublica to talk and Julien Masanès, Director of the Internet Memory Foundation to talk about Open Data and Web archiving.

Feel free to join!

Address:
Amphithéâtre Maurice Halbwachs
Collège de France
11, place Marcelin Berthelot
75231 Paris Cedex 05
France

 

 

Atelier Temporal Web Analytics (TempWeb02) au WWW2012 à Lyon le 17 avril 2012

 

TempWeb02 aura lieu le 17 avril 2012 en conjonction avec International World Wide Web Conference à Lyon, France.

En tant que coordinateur de projet et organisateur, l’Internet Memory Foundation vous informe que la date limite pour soumettre un article est fixée au 24 février 2012.

Objectifs

Cet atelier représente une excellente occasion pour rencontrer des chercheurs de tous domaines (IE / IR, Web mining, etc) où la dimension temporelle ouvre une toute nouvelle gamme de défis et de possibilités. L’ambition de l’Atelier est de favoriser la création d’une communauté d’intérêts sur les défis et possibilités de recherche résultant de la dimension temporelle dans l’analyse du Web.

TempWeb se concentre sur l’analyse des données temporelles et sur la dimension temporelle des données en provenance du Web, collectées sur le long terme. Dans cette optique, la taille des données et la capacité à leur donner du sens d’une manière utile et significative pour ses utilisateurs en représentent le défi majeur. De plus, l’analyse de données à l’échelle du Web nécessite le développement d’infrastructures et outils d’analyse innovants pour leur donner du sens.

Les thèmes de l’Atelier

• Web scale data analytics
• Temporal Web analytics
• Distributed data analytics
• Web science
• Web dynamics
• Data quality metrics
• Web spam
• Knowledge evolution on the Web
• Systematic exploitation of Web archives
• Large scale data storage
• Large scale data processing
• Data aggregation
• Web trends
• Topic mining
• Terminology evolution
• Community detection and evolution

Dates importantes

• Date limite de soumission pour un article: 24 février 2012
• Notification d’acceptation: 5 mars 2012
• Date limite pour l’article: 16 mars 2012
• Atelier: 17 avril 2012
Nous vous prions d’envoyer votre publication (max 8 pages) en utilisant le modèle ACM:
http://www.acm.org/sigs/publications/proceedings-templates
au :
https://www.easychair.org/account/signin.cgi?conf=tempweb2012

Veuillez noter que les travaux de l’atelier seront publiés dans ACM DL (ISBN 978-1-4503-1188-5)

Support

Cet atelier est organisé avec le soutien du 7e Programme Cadre de la Commission européenne (Catégorie ICT STREP) avec le projet Longitudinal Analytics of Web Archive data (LAWA) (numéro de projet 258105).

Membres officiels de l’Atelier

Précidence :
Présidents-Coordinateurs de projet et et organisateurs:

Ricardo Baeza-­Yates (Yahoo! Research, Espagne)
Julien Masanès (Internet Memory Foundation, France et Pays-Bas)
Marc Spaniol (Max Planck Institute for Informatics, Allemagne)

Membres du Comité du programme:

Eytan Adar (University of Michigan, USA)
Omar Alonso (Microsoft Bing, USA)
Srikanta Bedathur (IIIT-Delhi, Inde)
Andras Benczur (Hungarian Academy of Science)
Klaus Berberich (Max Planck Institute for Informatics, Allemagne)
Roi Blanco (Yahoo! Research, Espagne)
Adam Jatowt (Kyoto University, Japon)
Scott Kirkpatrick (Hebrew University Jerusalem, Israël)
Christian König (Microsoft Research, USA)
Frank McCown (Harding University, USA)
Michael Nelson (Old Dominion University, USA)
Nikos Ntarmos (University of Patras, Grèce)
Kjetil Norvag (Norwegian University of Science and Technology, Norvège)
Philippe Rigaux (Internet Memory Foundation, France et Pays-Bas)
Thomas Risse (L3S Research Center, Allemagne)
Pierre Senellart (Télécom ParisTech, France)
Torsten Suel (NYU Polytechnic, USA)
Masashi Toyoda (Tokyo University, Japon)
Peter Triantafillou (University of Patras, Grèce)
Michalis Vazirgiannis (Athens University of Economics and Business & École Polytechnique)
Gerhard Weikum (Max Planck Institute for Informatics, Allemagne)

 

 

La version open source de la plateforme d’essai de LivingKnowledge rendue publique sur SourceForge

 

Depuis sa mise en ligne sur SourceForge en août 2011, sous le nom de la Diversity Engine, plusieurs téléchargements ont été effectués. Certains composants utilisés dans la plateforme d'essai seront réutilisés dans d'autres projets de recherche du FP7 tel que le projet TrendMiner.

Le projet LivingKnowledge

Le projet LivingKnowledge(LK) améliore les possibilités techniques de la récupération d’informations à partir du Web en formalisant les notions de tendances et de diversité, la création d’outils d’analyse, le résumé et la visualisation des tendances dans les documents textuels et les images et enfin, par la création d’applications qui exploitent cette technologie.

Plateforme d’essai LivingKnowledge

La plateforme d’essai intègre les composants suivants, qui tous contribuent à améliorer les outils de recherche et de navigation face aux effets du temps et de la diversité:
- Collections de documents choisis pour refléter une diversité de types et contenus de document,
- Des outils d’analyse d’images et de texte sont mis à profit pour analyser la diversité dans les documents textuels et les images,
- Outils d’indexation et de recherche soutenant la recherche en matière de diversité et tendance, incluant de nouvelles méthodes de visualisation.

Le traitement de la plateforme commence avec les collections de documents qui sont disponibles sur demande auprès de l’Internet Memory Foundation, incluant 280 sites d’informations et 750 blogs.
En outre, la plateforme d’essai prend en charge un certain nombre de formats de contenus permettant aux utilisateurs d’intégrer leurs propres collections.

Une Hands-On session avec plus de 30 participants (Symposium on Bias and Diversity) a eu lieu lors de la 8th International Summer School on Information Retrieval (ESSIR), qui s’est tenue cette année à Coblence (Allemagne) en août/septembre 2011.

Pour plus d’informations

Living Knowledge Project
SourceForge
Diversity Engine
Symposium on Bias and Diversity in IR (ESSIR 2011)

 

 

Open source version of the LivingKnowledge testbed publicly released on SourceForge

 

Since its public release on SourceForge in August 2011 under the name of Diversity Engine, many downloads were made and some of the testbed components will be reused in other FP7 research projects such as TrendMiner.

LivingKnowledge Project

The LivingKnowledge project (LK) enhances the state of the art of retrieving information from the Web by formalizing the notions of bias and diversity, creating tools that analyze, summarize and visualize bias in textual and image documents and finally, by creating applications that exploit this technology.

LivingKnowledge Testbed

The testbed integrates the following components, all of which contribute to diversity and bias aware search:
- document collections chosen to reflect a diversity of document types and content,
- image and text analysis tools supporting the analysis of diversity in text and image documents,
- indexing and search tools supporting the bias and diversity aware search including novel visualization methods,

The testbed processing starts with document collections that are available upon request from the Internet Memory Foundation, including 280 News sites and 750 blogs.
Furthermore, the testbed supports a number of collection formats allowing users to incorporate their own collections.

Hands-On session with over 30 participants (Symposium on Bias and Diversity) was held during the 8th International Summer School on Information Retrieval (ESSIR), which tooks place in Koblenz (Germany) in August/September 2011.

More info

Living Knowledge Project
SourceForge
Diversity Engine
Symposium on Bias and Diversity in IR (ESSIR 2011)

 

 

Temporal Web Analytics Workshop (TempWeb02) at WWW2012 in Lyon on April 17,

 

TempWeb02 will take place April 17th, 2012 in conjunction with International World Wide Web Conference in Lyon, France.

As PC-Chair and Organizer, Internet Memory Foundation informs you that the submission deadline for paper is fixed to February 24, 2012.

Objectives

The objective of this workshop is to provide a venue for researchers of all domains (IE/IR, Web mining etc.) where the temporal dimension opens up an entirely new range of challenges and possibilities. The workshops ambition is to help shaping a community of interest on the research challenges and possibilities resulting from the introduction of the time dimension in Web analysis.

TempWeb focuses on temporal data analysis along the time dimension for Web data that has been collected over extended time periods. A major challenge in this regard is the sheer size of the data it exposes and the ability to make sense of it in a useful and meaningful manner for its users. Web scale data analytics therefore needs to develop infrastructures and extended analytical tools to make sense of these.

Workshop topics

• Web scale data analytics
• Temporal Web analytics
• Distributed data analytics
• Web science
• Web dynamics
• Data quality metrics
• Web spam
• Knowledge evolution on the Web
• Systematic exploitation of Web archives
• Large scale data storage
• Large scale data processing
• Data aggregation
• Web trends
• Topic mining
• Terminology evolution
• Community detection and evolution

Important Dates

• Paper submission deadline: February 24, 2012
• Notification of acceptance: March 5, 2012
• Camera ready copy deadline: March 16, 2012
• Workshop: April 17, 2012

Please post your submission (up to 8 pages) using the ACM template:
http://www.acm.org/sigs/publications/proceedings-templates
at:
https://www.easychair.org/account/signin.cgi?conf=tempweb2012

Note that the workshop proceedings will be published in ACM DL (ISBN 978-1-4503-1188-5)

Support

This workshop is organized with the support of the EU 7th Framework ICT STREP on Longitudinal Analytics of Web Archive data (LAWA) under contract no. 258105.

Workshop Officials

Chair:

PC-Chairs and Organizers:

Ricardo Baeza-­Yates (Yahoo! Research, Spain)
Julien Masanès (Internet Memory Foundation, France and Netherlands)
Marc Spaniol (Max Planck Institute for Informatics, Germany)

Program Committee:

Eytan Adar (University of Michigan, USA)
Omar Alonso (Microsoft Bing, USA)
Srikanta Bedathur (IIIT-Delhi, India)
Andras Benczur (Hungarian Academy of Science)
Klaus Berberich (Max Planck Institute for Informatics, Germany)
Roi Blanco (Yahoo! Research, Spain)
Adam Jatowt (Kyoto University, Japan)
Scott Kirkpatrick (Hebrew University Jerusalem, Israel)
Christian König (Microsoft Research, USA)
Frank McCown (Harding University, USA)
Michael Nelson (Old Dominion University, USA)
Nikos Ntarmos (University of Patras, Greece)
Kjetil Norvag (Norwegian University of Science and Technology, Norway)
Philippe Rigaux (Internet Memory Foundation, France and Netherlands)
Thomas Risse (L3S Research Center, Germany)
Pierre Senellart (Télécom ParisTech, France)
Torsten Suel (NYU Polytechnic, USA)
Masashi Toyoda (Tokyo University, Japan)
Peter Triantafillou (University of Patras, Greece)
Michalis Vazirgiannis (Athens University of Economics and Business & École Polytechnique)
Gerhard Weikum (Max Planck Institute for Informatics, Germany)

 

 

Emission : « La mémoire de toile » ou les défis de l’archivage Web

 

Regardez le reportage de France 24 sur l'archivage Web.

Reportage de France 24 sur l’archivage du Web

Dire que l’Internet est un des principaux supports d’information est un fait incontestable. Tout aussi incontestable est la nécessité de préserver ces contenus Web et de promouvoir l’archivage Web à grande échelle. L’idée fait son chemin et s’impose comme un des grands défis actuel du Web.

Les médias s’intéressent au sujet, et pour preuve, France24, la chaîne d’information internationale, diffuse un reportage sur la collecte de sites Web en France en raison du dépôt légal de l’Internet, sur l’archivage du Web en général et sur l’accès aux collections d’archives Web.
Une rapide vue d’ensemble des initiatives et technologies propres à l’archivage Web en France avec la participation de la Bibliothèque nationale de France, de l’Institut National de l’Audiovisuel et de l’Internet Memory Foundation (interview de Julien Masanès, par Natalia Gallois, dans nos bureaux de Paris)

Pour visionner l’émission et découvrir les défis de l’archivage Web cliquez ici.
Emission « Sur le Net », l’actualité vue par le net et l’actualité du net, décembre 2011

 

 

Le 7 et 8 novembre, lancement d’un nouveau projet de Recherche : TrendMiner

 

Internet Memory a le plaisir d'annoncer le lancement du projet de recherche européen TrendMiner (Large-scale, Cross-lingual Trend Mining and Summarization of Real-time Media Streams).

Aujourd’hui, commence le projet TrendMiner au Luxembourg. Il s’agit d’un projet européen de trois ans, financé par la Commission européenne dans le cadre du septième programme-cadre (FP7-ICT) sous le n ° 287863.

Aux côtés d’Internet Memory Foundation, on retrouve :
- Deutsches Forschungszentrum für künstliche GmbH Intelligenz (Allemagne) en tant que coordonnateur,
- L’Université de Sheffield (Royaume Uni),
- Ontotext AD (Bulgarie),
- L’Université de Southampton (Royaume-Uni),
- Eurokleis SRL (Italie),
- Sora & Ogris Hofinger GmbH (Autriche)
- Hardik Fintrade Pvt Ltd (Inde).

Ce projet vise à fournir des méthodes innovantes, en temps réel, open source et transférables d’exploration linguistiques transverses et de synthèse de média en streaming à grande échelle.

Dans ce projet, l’Internet Memory Foundation contribue à la plate-forme de collecte, d’analyse et de stockage de médias en temps réel, ainsi elle
- Fournit des infrastructures évolutives aux partenaires, avec un soutien pour l’intégration et expérimentation.
- Conçoit et développe un crawler intelligent (qui adapte automotiquement paramètres et règles selon les données capturées) pour les médias sociaux.

Pour plus d’informations sur TrendMiner, visitez le site Web du projet (en construction).

 

 

Interview avec France Lasfargues après la FIAT 2011

 

France Lasfargues, project manager à la fondation, gère deux projets de recherche sur l'archivage du web ainsi qu'un portefeuille de partenaires d'Internet Memory. Elle nous confie le bilan de sa participation à la conférence de la Fédération Internationale des Archives de Télévision (FIAT) à Turin, en septembre dernier, où elle a animé un workshop sur l'archivage du web et les archives audiovisuelles avec deux partenaires : la SWR (Télévision allemande) et Beeld en Geluid (Institut pour l’Audiovisuel, Pays-Bas)

FIATIFTA_2011


Était-ce votre première participation à la FIAT ?

France Lasfargues : Personnellement, oui. Mais, de par son statut de membre adhérent de la FIAT, ce n’est pas la première participation d’Internet Memory Foundation. L’année dernière, Chloé Martin, Business Developer à la Fondation, avait présenté un poster axé sur notre plateforme d’archivage web, Archivethe.net (ATN) et sur les problématiques liés à la collecte et l’accès des vidéos qui sont diffusées sur le Web.

Est-ce aisé pour Internet Memory de participer à une telle conférence internationale ?

F.L. : Pour intervenir à la FIAT, il faut tout d’abord répondre à l’appel à participation qui a lieu au moins 3 mois avant. Il s’agit alors de décider d’un angle d’attaque, des participants que nous souhaiterions intégrer et de la forme de la présentation (poster, atelier, conférence plénière,…). Puis nous soumettons notre proposition et attendons un retour de la FIAT. Nous avons donc décidé de nous concentrer sur des problématiques qui associent les attentes et besoins des archives audiovisuelles et nos compétences et axes de développement. La forme du workshop nous semblait la plus adéquate, afin d’ouvrir également un espace de parole et d’échange avec l’audience.

Cela nous amène justement à parler plus amplement du motif de la présence d’ Internet Memory à la FIAT.

F.L. : Notre objectif est relativement simple : faire prendre conscience de la nécessité de l’archivage du web pour les archives audiovisuelles et, par là même, faire connaître nos compétences en la matière. Internet Memory souhaite impulser des projets, motiver les institutions à se lancer dans l’archivage du web, maintenant, afin de stopper l’hémorragie de la perte de contenus pertinents et à haute valeur ajoutée.


Quel est l’angle choisi par Internet Memory pour cet atelier ?

F.L. : Le workshop a surtout été l’occasion d’inviter des archives audiovisuelles à partager sur leurs problématiques actuelles en terme d’archivage du web et de parler des solutions que nous avons développées, en terme de capture et d’accès. Et il faut dire que nous avons de solides arguments en la matière. Cela nous a donné l’occasion de communiquer sur l’ensemble de nos projets LIWA, LK, LAWA, SCAPE, et tout particulièrement, ARCOMEM, qui s’avèrent être des projets européens de grande envergure et une excellente référence pour démontrer l’étendue de nos technologies et compétences. Dans le détail, étant donné que nous nous adressions alors à des archives audiovisuelles, nous avons mis l’accent sur le challenge technique qu’est la capture vidéo dans les sites web (LIWA). Autre point important, le web social et les défis qu’il représente pour les archivistes (ARCOMEM). Nous avons bien entendu parlé des divers outils que nous développons (entre autres Application Aware Crawling, API Crawls, etc…) pour résoudre les problèmes d’archivage et améliorer la collecte de données.


Cette conférence internationale devait compter beaucoup de participants ? Votre atelier a-t-il été plébiscité ?

La conférence a réuni plus de 300 archivistes.
Quant au workshop que nous avons animé, la salle était comble avec plus 120 participants. J’avoue que nous ne nous attendions pas à un tel succès car l’année dernière, le workshop sur l’archivage du web avait mobilisé tout au plus 40 personnes ! D’ailleurs, les organisateurs de la conférence ont souligné notre « score d’audience ». Cela montre que l’archivage du web et les archives audiovisuelles intéressent de plus en plus les archivistes et nous en voilà ravis. Les services d’Internet Memory pourraient donc être amenés à se développer dans un avenir proche et nous sommes toujours partants pour renouveler cette expérience à la FIAT.

 

 

Présentations du Temporal Web Analytics Workshop (TWAW 2011)

 

Les présentations du 1er Temporal Web Analytics Workshop (TWAW 2011) sont maintenant en ligne.

Les présentations tenues le 28 mars 2011, en conjonction avec la 20e Conférence internationale du World Wide Web (www2011) à Hyderabad en Inde sont à présent en ligne.
Le Workshop a été co-organisé par le projet LAWA et présidé par R. Baeza-Yates (Yahoo! Research Barcelona), J. Masanès (Internet Memory Foundation) et M. Spaniol (Max-Planck-Institut für Informatik).

 

 

Réunion ARCOMEM à Paris les 9,10 et 11 mai

 

Le consortium ARCOMEM est accueilli par Télécom ParisTech.
Les différents groupes de travail sont réunis pour discuter et fixer les prochaines échéances des work packages dont l'Architecture Système.

Le sujet principal de cette rencontre porte sur l’architecture système des différents modules (crawl, analyse du Web social, enrichissement de l’archive, module de stockage…).
ARCOMEM publiera les résultats de cette réunion sur le site web dédié.

 

 

Le projet SCAPE sur le Web

 

Nous avons le plaisir de vous annoncer que le site Web officiel du projet SCAPE est à présent en ligne !

De quoi s’agit-il ?
Le projet SCAPE à pour objectif de développer des services évolutifs pour permettre aux institutions patrimoniales de planifier et d’exécuter leur stratégie de préservation grâce à une plateforme open source qui orchestrera des flux de travail semi-automatisés adaptés à des collections numériques complexes, hétérogènes et de grande échelle. SCAPE permettra d’améliorer de trois façons l’état de l’art de la conservation du numérique:
- par le développement d’infrastructures et d’outils pour des actions de préservation à grande échelle,
- en fournissant un cadre pour des processus de conservation automatisés et avec une assurance-qualité,
- par l’intégration de ces composants dans une planification et un système de veille.
Les résultats concrets de ce projet seront validés sur les divers domaines d’application, et ce, au sein de trois plateformes d’essai à grande échelle.

SCAPE a aussi son compte Twitter : @SCAPEproject.
Les Tweet avec le hashtag #SCAPEproject (ou qui pointent vers @SCAPEproject) seront retweetés et apparaîtront des les flux.

 

 

Museums and the Web

 

Internet Memory participera à la conférence Museums & the Web à Philadelphie les 6-9 avril 2011.

Les principaux aspects de l’archivage du Web seront abordés lors d’un workshop.
Si vous ne pouvez y participer, suivez le Tag #mw2011 sur Twitter !

 

 

1re Newsletter LAWA

 

Retrouvez la première Newsletter du projet Longitudinal Analytics of Web Archive Data !

Cette newsletter présente le cadre général du projet ainsi que les principaux axes de recherche.
A ce stade du projet, IM se concentre sur les spécifications d’une architecture distribuée (p.2).

Bonne lecture!

 

 

Conférence de Brewster Kahle à Paris

 

La Fondation organise une conférence avec Brewster Kahle le mercredi 16 mars à La Cantine

« Towards Universal Access to Human Knowledge» Brewster Kahle

Alors que les problématiques liées aux Big Data émergent de toute part, l’Internet Memory Foundation, en partenariat avec La Cantine, invite Brewster Kahle, co-fondateur d’Internet Archive, de l’Open Access Foundation et de l’Internet Memory Foundation, à nous parler de l’accès ouvert et universel aux données et aux connaissances, de la numérisation de masse et des archives de l’Internet.

Cette conférence aura lieu à La Cantine, premier espace de travail collaboratif en réseau (http://lacantine.org/), le mercredi 16 mars à partir de 19h30.
Elle sera suivie d’une discussion avec les participants, modérée par Julien Masanès, directeur de l’Internet Memory Foundation.

L’Internet Memory Foundation (anciennement European Archive) est, à l’image d’Internet Archive, une institution à but non lucratif qui, depuis 2005, soutient activement la préservation de l’Internet comme nouveau média. (http://internetmemory.org)

Au programme
19h     Accueil des participants par l’Internet Memory Foundation
19h30 Brewster Kahle, intervenant : «Towards Universal Access to Human Knowledge»
20h15 Julien Masanès, modérateur : discussions autour des thématiques abordées

Nous vous remercions de nous informer de votre participation en nous envoyant un email à event /at/ internetmemory.org


Mercredi 16 mars 2011, à partir de 19h
La Cantine, 12 Galerie Montmartre (151 rue Montmartre) - 75002 Paris

 

 

Lancement de SCAPE

 

La réunion de lancement du projet européen SCAPE se déroule actuellement à Vienne, Autriche.

SCAPE (SCAlable Preservation Environments) est un projet de recherche européen du 7è programme cadre sur 3 ans, financé par la Commission Européenne. En savoir plus

 

 

Proposer un site Web: Printemps arabe

 

Nous collectons actuellement des sites Web traitant du Printemps arabe.

Nous vous invitons à participer en nous suggérant des sites à archiver.
Merci de remplir ce formulaire.

 

 

Job position: Development engineer

 

We are currently hiring an Erlang experienced developer. See job post and do not hesitate to forward this job announcement. Thanks!

 

 

Projet LivingKnowledge

 

Assemblée générale à Bangalore

Internet Memory assiste actuellement à l’Assemblée générale du projet LivingKnowledge qui a lieu à Bangalore (Inde) du 31 janvier au 2 février 2011. En savoir plus !

 

 

Lancement d’ARCOMEM

 

Le lancement du projet européen ARCOMEM a eu lieu à l'Université de Sheffield les 24, 25 et 26 janvier 2011. En perspective, des participants et développements intéressants !

ARCOMEM (Collect-All ARchives to COmmunity MEMories) est un projet européen de trois ans financé par la commission européenne dans le cadre du Septième Programme Cadre. En savoir plus!

 

 

Bonne année 2011 !

 

Nous vous présentons nos meilleurs vœux pour cette nouvelle année 2011 !

 

 

Enquête Living Web Archives

 

Participez à l'enquête sur l'archivage du Web !

Dans le cadre du projet Living Web Archives (LiWA) subventionné par la Commission européenne (Projet n° 216267), la Fondation réalise une enquête sur l’archivage du Web au sein d’institutions européennes et internationales (archives, bibliothèques, institutions ou départements à vocation patrimoniale).
Participez !

 

 

Un nouveau site pour la Fondation Internet Memory

 

Nous avons le plaisir de vous annoncer la mise en ligne de notre nouveau site !
Bonne navigation et suivez-nous sur Twitter !

 

 

More News…