<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0"
    xmlns:dc="http://purl.org/dc/elements/1.1/"
    xmlns:atom="http://www.w3.org/2005/Atom">

    <channel>
    
    <title><![CDATA[internet Memory Foundation]]></title>
    <link>http://internetmemory.org/fr</link>
    <description>Internet Memory Foundation est une fondation européenne dédiée à l'archivage du web.</description>
    <dc:language>fr</dc:language>
    <dc:creator>http://internetmemory.org/fr</dc:creator>
    <dc:rights>Copyright 2012</dc:rights>
    <pubDate>Wed, 07 Nov 2012 10:46:23 GMT</pubDate>
    <atom:link href="http://internetmemory.org/fr/index.php/RSS" rel="self" type="application/rss+xml" />

    

    <item>
      <title>L&#8217;égalité des femmes au travail, où en est-on à Internet Memory ?</title>
      <link>http://internetmemory.org/fr/index.php/Memoranda/legalite_des_femmes_au_travail_ou_en_est_on_a_internet_memory</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/Memoranda/legalite_des_femmes_au_travail_ou_en_est_on_a_internet_memory#id:239#date:00:26</guid>
      <description><![CDATA[<p>C&#8217;est la journée internationale des femmes aujourd&#8217;hui et on entend beaucoup de discours pleins de bonnes intentions. Mais nous savons tous que l&#8217;égalité des femmes n&#8217;est pas encore une réalité et que les progrès sont peu rapides. Nous nous sommes dit qu&#8217;il serait bon de vérifier où nous en sommes sur ce sujet et que plutôt de que des discours, nous allions regarder les chiffres et les ratios qui comptent. Nous avons également compilé des chiffres de référence du secteur informatique en France en guise de référence.</p>

<p>Dans l&#8217;ensemble, la situation dans ce domaine n&#8217;est pas très bonne comme le benchmark le montre. C&#8217;est peut-être une des raisons pour lesquelles les femmes, réussissant pourtant brillamment dans les études supérieures, ne rejoignent pas suffisamment ce domaine. </p>

<p>A IM, nous pensons que, comme ces quelques chiffres vous le montreront, ce n&#8217;est pas une fatalité. Nous vous laissons juges !</p>

<p><img src="http://internetmemory.org/images/uploads/8march-facts.jpg" alt="8 March  Facts" width="630" style="border: 0;" /></p>]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Sat, 09 Mar 2013 00:26 GMT</pubDate>
    </item>

    <item>
      <title>Reducing Energy consumption for large web archives</title>
      <link>http://internetmemory.org/fr/index.php/Memoranda/reducing_energy_consumption_for_large_web_archives</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/Memoranda/reducing_energy_consumption_for_large_web_archives#id:227#date:10:58</guid>
      <description><![CDATA[By hosting hundreds of Terabytes of Web data, Internet Memory considers its energy footprint as an important challenge to address. In this present post, we focus on green and innovative solutions we decide to implement on Internet Memory infrastructure.  <h1>Hosting infrastructure, a strategic question for a Web archive</h1>

<p>On the one hand, IM is conscious that Web archiving field (as ICT in general) is part of the problem with the resources and energy it consumes (such as the majority of datacenters). On the other, we believe that the Web deserves a memory, because this media is pervasive in our society, and certainly today one of its most important representation. As we now store data in the Petabyte ranges, we had to do something about this.</p>

<h1>Green IT for a Web archive? Yes, it is possible.</h1>

<p>Since it’s inception in 2005, Internet Memory (then called <a href="http://europarchive.org">European Archive</a>), has been working on reducing its energy footprint, by using servers built from low power consumption parts (the so-called red boxes, also used by <a href="http://archive.org">The Internet Archive</a>). Although used in a traditional datacenter, they contribute significantly to the overall energy efficiency of the datacenter where they are hosted in Amsterdam. This already puts the first IM Datacenter above the standard of the industry in this regard.</p>

<p>But IM wanted to go one step further, and this required leaving behind traditional datacenters, which are, by design, heavy users of energy and cooling resources. In collaboration with <a href="http://www.no-rack.com/">No Rack</a> which is specialized in Green IT, we went on to use a new generation of servers and infrastructures, dedicated to massive storage, with a highly scalable architecture, a very low consumption and… without cooling.<br />
Today, this new infrastructure is operational in our Paris ‘Datacenter’ and it can support up to 1,2 Petabytes of data.</p>

<h1>New Internet Memory Datacenter</h1>

<p>That’s the result of improvements at several levels, including a new design of cylindrical ‘rack’, which enables a free cooling system and a lower energy consumption at all levels (servers, disks and motherboards). </p>

<p>The free-cooling system has been made possible due to a very low thermic diffusion (for 72 nodes, IM datacenter is set between 5300 W and 6300 W depending on the configuration of server class) and due to an innovative design, which enables natural heat extraction.</p>

<p>Here’s a comparison between a regular datacenter and IM datacenter:<br />
<img src="http://internetmemory.org/images/uploads/energy_thumb.png" alt="Energy" width="600" height="155"  style="border: 0;" /><br />
These figures highlight an economy of kW, which represents a carbon footprint 8 times lower (22,000 kg CO2, instead of 180,000 kg CO2). </p>

<h1>Internet Memory Architecture and process</h1>

<p>Internet Memory has implemented an efficient distributed architecture, which enables virtualization, better performances and faster processes. <br />
Thus, all Archive users share Internet Memory infrastructure and applications, which ensures maximization of storage utilisation and reduction in the number of devices required, saving energy and costs.</p>

<p><strong>If you are interested to know more, drop us a line, or come and we will organize a visit for you!</strong></p>

<p>&nbsp;</p>]]></description>
      <dc:subject><![CDATA[English, French,]]></dc:subject>
      <pubDate>Mon, 12 Nov 2012 10:58 GMT</pubDate>
    </item>

    <item>
      <title>How to fit in? Integrating a web archiving program in your organization</title>
      <link>http://internetmemory.org/fr/index.php/News/how_to_fit_in_integrating_a_web_archiving_program_in_your_organization</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/how_to_fit_in_integrating_a_web_archiving_program_in_your_organization#id:225#date:12:59</guid>
      <description><![CDATA[Internet Memory will be part of IIPC-sponsored workshop held at the Bibliothèque nationale de France, Paris, on Friday, November 30, 2012.<p><img src="http://internetmemory.org/images/uploads/IIPC_new_Logo_thumb.png" alt="IIPC New Logo" width="321" height="103"  style="border: 0;" /><br />
Ten National Libraries from all over the world will be attending the <a href="http://netpreserve.org/events/how-fit-integrating-web-archiving-program-your-organization">workshop</a> and will have the opportunity, on Friday 30th November to learn more about Internet Memory activities:<br />
- Our Partnerships with heritage institutions and research centers<br />
- Web archiving services: Production, Quality Assurance and tools we developed to improve crawl, access, and usage<br />
- Research projects which enables Internet Memory to collaborate on innovative projects with prestigious labs. </p>

<p><strong>List of participants:</strong><br />
Bibliotheca Alexandrina<br />
British Library<br />
Library of Congress<br />
National and University Library of Slovenia<br />
National Library and Archives of Québec<br />
National Library of Estonia<br />
National Library of Germany<br />
National Library of the Netherlands <br />
National Library of Singapore<br />
National Library of Spain</p>

<p><a href="http://netpreserve.org/events/how-fit-integrating-web-archiving-program-your-organization">More information</a></p>]]></description>
      <dc:subject><![CDATA[English, French,]]></dc:subject>
      <pubDate>Wed, 31 Oct 2012 12:59 GMT</pubDate>
    </item>

    <item>
      <title>Workshop on Big-Data Analytics for the Temporal Web, Paris, November 13, 2012</title>
      <link>http://internetmemory.org/fr/index.php/News/workshop_on_big_data_analytics_for_the_temporal_web_paris_november_13_2012</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/workshop_on_big_data_analytics_for_the_temporal_web_paris_november_13_2012#id:220#date:12:04</guid>
      <description><![CDATA[The <a href="http://www.lawa-project.eu/">LAWA project</a> organizes an International Workshop on Big-Data Analytics for the Temporal Web, Paris, November 13, 2012. <br />
Keynotes by Yahoo! Research, Barcelona (R. Baeza-Yates) and L3S Research Center, Hanover (W. Nejdl).<p><img src="http://internetmemory.org/images/uploads/LAWA_Logo.png" alt="Lawa Logo" width="160" height="60" style="border: 0;" /></p>

<p>The <a href="http://www.lawa-project.eu/">LAWA project</a> organizes an one-day workshop with researchers using (or planning to use) the Web as a corpus for their studies. </p>

<p>The focus is on methods, tools, and platforms for big-data analytics, including requirements on and experiences with such technologies. <br />
Topics of interest include but are not limited to: <br />
- Web dynamics, history, and archives; <br />
- Text mining and contents classification, <br />
- Temporal/longitudinal studies<br />
- Scalable methods (e.g., cloud-based map-reduce),<br />
- Large scale data storage, <br />
- Community detection and evolution.</p>

<p>The workshop will have presentations by participating researchers and big-data users, including the LAWA project team. </p>

<p>Keynotes by: <br />
- Ricardo Baeza-Yates from Yahoo! Research, Barcelona<br />
- Wolfgang Nejdl from L3S Research Center, Hanover</p>

<p>Emphasis will be on experience-sharing and discussing mutual interests in big-data analytics for the temporal Web. </p>

<p>The workshop is free of charge and open to public, but registration is compulsory by sending an email to:<br />
<strong>lawa@mpi-inf.mpg.de</strong></p>

<p>Be Welcome!</p>

<p><a href="http://internetmemory.org/en/index.php/projects/lawa">More Information about LAWA project</a></p>]]></description>
      <dc:subject><![CDATA[English, French,]]></dc:subject>
      <pubDate>Wed, 10 Oct 2012 12:04 GMT</pubDate>
    </item>

    <item>
      <title>Archivage du Web : quelle mise en oeuvre ? (ADBS, Paris, 25/09/12)</title>
      <link>http://internetmemory.org/fr/index.php/News/archivage_du_web_quelle_mise_en_oeuvre</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/archivage_du_web_quelle_mise_en_oeuvre#id:211#date:11:44</guid>
      <description><![CDATA[L'Association des professionnels de l'information et de la documentation (ADBS) ouvre ses portes à l'archivage du Web et à Internet Memory, au travers d'une manifestation qui donnera lieu à une vidéo en ligne. <h1>Archivage du Web : quelle mise en oeuvre ? </h1>

<p>A l&#8217;heure où le Web est devenu le média de notre temps, la question de son archivage et de sa préservation pour les générations présentes et à venir émerge lentement mais sûrement. Dès lors, diverses mises en œuvre s&#8217;offrent à toute organisation souhaitant s&#8217;engager dans un projet d&#8217;archivage Web.</p>

<p>Après avoir dressé un état des lieux des initiatives et des aspects plus techniques, Internet Memory abordera les perspectives, en terme d&#8217;usage, en s&#8217;appuyant sur ses nombreuses expériences et collaborations dans ce domaine, avec des organisations de toute taille.</p>

<h3>Intervenantes</h3>
<p>Leila Medjkoune et Chloé Martin</p>

<h1>Informations pratiques</h1>
<p><a href="http://www.adbs.fr/archivage-du-web-quelle-mise-en-oeuvre--120861.htm?RH=AGENDA_JETUDE">Archivage du Web : quelle mise en oeuvre ?</a><br />
Mardi 25 septembre 2012, 17h-19h<br />
ADBS<br />
25, rue Claude Tillier<br />
75012 Paris</p>

<p>La vidéo sera bientôt accessible depuis le site de l&#8217;ADBS, <a href="http://www.adbs.fr/les-5-a-7-en-video-80564.htm?RH=AGENDA_JETUDE&amp;RF=1266334869518">Rubrique 5 à 7</a></p>]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Fri, 21 Sep 2012 11:44 GMT</pubDate>
    </item>

    <item>
      <title>Archivage Web pour des collectivités territoriales anglaises</title>
      <link>http://internetmemory.org/fr/index.php/News/projet_pilote_de_larchivage_web_avec_les_autorites_locales_anglaises</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/projet_pilote_de_larchivage_web_avec_les_autorites_locales_anglaises#id:196#date:08:32</guid>
      <description><![CDATA[Internet Memory Foundation a participé, en collaboration avec les Archives Nationales du Royaume-Uni à l'élaboration d'un projet pilote d'archivage du Web destiné à sept collectivités territoriales Outre-Manche. L'opération a été un grand succès !<p>Depuis plusieurs années, Internet Memory collabore avec les Archives Nationales du Royaume-Uni et ce, dans le but de collecter et préserver des contenus Web en provenance de sites gouvernementaux du Royaume-Uni. Dans ce cadre, plusieurs téraoctets de documents en ligne sont archivés chaque année, générant des millions de visites par semaine sur le site Web des Archives Nationales Britanniques.</p>

<p>Afin d&#8217;encourager les services d&#8217;archives locales à créer leur propre archive Web, les Archives Nationales ont décidé, il y a un an, d&#8217;organiser un projet pilote d&#8217;archivage du Web avec sept services d&#8217;archivage représentant 20 collectivités territoriales.</p>

<p>Internet Memory a eu le privilège de faire partie de ce projet pilote durant les phases de formation et d&#8217;exploitation, incluant :</p>

<p>- Session de formation ayant pour objet les processus, les outils et les défis de l&#8217;archivage Web.<br />
- Sélection des sites Web : chaque service devait sélectionner trois sites Web à archiver.<br />
- Lancement des captures en janvier 2012, suivi et contrôle qualité impliquant chaque service.<br />
Au terme de ce projet pilote, les participants ont été satisfaits par l&#8217;expérience et les résultats.<br />
Ils envisagent maintenant les options futures pour développer leurs propres archives Web.<br />
Affaire à suivre …</p>

<h2>Résultats du projet pilote d&#8217;archivage Web pour les collectivités territoriales</h2>

<h3>Greater Manchester Archives Group</h3>

<p>- <a href="http://webarchive.nationalarchives.gov.uk/20120126111754/http://mif.co.uk/ ">Manchester International Film Festival </a>&nbsp;  <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120126115910/http://fc-utd.co.uk/">Football Club United of Manchester</a> <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120126113204/http://www.gmcdp.com/about.html">Greater Manchester Coalition of Disabled People</a> </p>

<h3>North Yorkshire County Record Office</h3>

<p>- <a href="http://webarchive.nationalarchives.gov.uk/20120126114451/taylorsofharrogate.co.uk">Taylors of Harrogate</a> <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120126135617/http://www.northallertontownfc.net/home/home.asp">Northallerton Town Football Club</a> <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120126085641/http://www.northyorks-unison.org.uk/">UNISON North Yorkshire Local Government</a></p>

<h3>Sheffield</h3>

<p>- <a href="http://webarchive.nationalarchives.gov.uk/20120126140628/http://www.nickclegg.org.uk">Nick Clegg, MP for Sheffield Hallam</a> <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120126145547/http://www.sheffieldpride.org.uk/">Sheffield Pride</a> <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120125174104/http://www.syha.co.uk">South Yorkshire Housing Association</a>&nbsp;  &nbsp; </p>

<h3>Staffordshire</h3>

<p>- <a href="http://webarchive.nationalarchives.gov.uk/20120126151447/http://www.lichfield.anglican.org/">Diocese of Lichfield</a> <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120126160758/http://www.thepotteries.org/index.html">Stoke on Trent, Pottery and Ceramics</a> <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120126162001/http://www.staffordshirehoard.org.uk/">Staffordshire Hoard </a></p>

<h3>Surrey</h3>

<p>- <a href="http://webarchive.nationalarchives.gov.uk/20120126101656/http://www.hambledonsurrey.co.uk">Hambledon</a> <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120126135144/http://www.painshill.co.uk">Painshill Park</a> <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120126092333/http://www.surreywildlifetrust.org/">Surrey Wildlife Trust</a> </p>

<h3>West Yorkshire Archives Service</h3>

<p>- <a href="http://webarchive.nationalarchives.gov.uk/20120126085231/http://www.wakefield.anglican.org">Wakefield Anglican Diocese</a> <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120125174026/http://www.incredible-edible-todmorden.co.uk/">Incredible Edible Todmorden </a><br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120125180150/http://theculturevulture.co.uk/">The Culture Vulture </a></p>

<h3>Dorset History Centre</h3>

<p>- <a href="http://webarchive.nationalarchives.gov.uk/20120126090607/http://www.bournemouth.co.uk">Bournemouth Holidays and Tourist Information</a> <br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120126091858/http://www.visit-dorset.com/">Visit Dorset </a><br />
- <a href="http://webarchive.nationalarchives.gov.uk/20120126113947/http://www.pooletourism.com/">Poole Tourism </a></p>

<p><strong>Liens vers les Archives nationales du Royaume-Uni</strong><br />
- <a href="http://www.nationalarchives.gov.uk/news/734.htm">News story</a><br />
- <a href="http://www.nationalarchives.gov.uk/documents/web-archiving-final.pdf">Press Release</a></p>]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Tue, 10 Jul 2012 08:32 GMT</pubDate>
    </item>

    <item>
      <title>41e conférence annuelle LIBER en Estonie</title>
      <link>http://internetmemory.org/fr/index.php/News/41e_conference_annuelle_liber_en_estonie</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/41e_conference_annuelle_liber_en_estonie#id:171#date:13:18</guid>
      <description><![CDATA[Internet Memory s’attache à être présente, lors de conférences internationales, pour promouvoir l'archivage Web. Ne dérogeant pas à cette règle, notre institution participe à la <a href="http://www.utlib.ee/liber2012/index.php">41e conférence annuelle LIBER</a> qui se déroule cette année dans la ville estonienne de Tartu.<h2>Archivage Web, ou le défi de la sauvegarde d&#8217;un précieux patrimoine</h2>

<p><img src="http://internetmemory.org/images/uploads/LIBER.png" alt="" width="162" height="106" style="border: 0;" /></p>

<p>Cette <a href="http://www.utlib.ee/liber2012/index.php" title="">conférence LIBER</a> représente un rendez-vous incontournable pour les bibliothèques de recherche afin d’échanger et collaborer sur les problématiques qui leur sont propres, dont la collecte et la préservation. Dès lors, il s’agit pour Internet Memory de partager, informer sur ses nouveaux savoir-faire techniques dans l&#8217;univers de la collecte numérique et de l&#8217;archivage Web.</p>

<p>L&#8217;intervention d&#8217;Internet Memory sera assurée par Chloé Martin le <a href="http://www.utlib.ee/liber2012/index.php?id=prog_main">mercredi 27 juin</a> qui dressera, en partenariat avec la <a href="http://www.nli.ie/" title="">Bibliothèque national d’Irlande</a>, un cas d’usage pour la mise en place de campagnes d’archivage. Les deux intervenantes se pencheront sur les différentes étapes de la création d’un projet d&#8217;archivage Web, de la définition du projet à l&#8217;accès aux <a href="http://internetmemory.org/fr/index.php/about/collections" title="">collections d&#8217;archives Web</a> en passant par les étapes de la sélection, des autorisations, du Crawl et du Contrôle Qualité.	</p>

<p>Ce cas de la Bibliothèque nationale d&#8217;Irlande illustre parfaitement la mission d&#8217;Internet Memory : développer de nouvelles collaborations et partenariats pour étendre les initiatives en faveur de la préservation du Web. </p>

<p>Dans le cas présent, il s’agit de collecter, préserver et donner accès à des contenus Web à haute valeur ajoutée, (données politiques lors de plusieurs élections en Irlande).</p>]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Mon, 25 Jun 2012 13:18 GMT</pubDate>
    </item>

    <item>
      <title>SCAPE, un an déjà...</title>
      <link>http://internetmemory.org/fr/index.php/News/scape_un_an_deja</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/scape_un_an_deja#id:159#date:14:14</guid>
      <description><![CDATA[Une année d'activité de l'Internet Memory Foundation sur le projet SCAPE, le bilan.<p><img src="http://internetmemory.org/images/uploads/SCAPE_logo_thumb.jpg" alt="" width="598" height="243"  style="border: 0;" /></p>

<p>Au bout d&#8217;une année d&#8217;activité sur le <a href="http://internetmemory.org/fr/index.php/projects/scape1">projet SCAPE</a>, l’Internet Memory Foundation, partenaire actif de ce projet d&#8217;envergure, a pu apporter sa contribution aux efforts déployés afin de mettre en place des solutions et innovations techniques nécessaires à la réussite de ce projet.</p>

<p>Concrètement, la pierre angulaire du projet SCAPE est désormais en place. Les ingénieurs et les chercheurs de l&#8217;Internet Memory Foundation ont participé, en effet, à la conception de l&#8217;architecture d&#8217;une plate-forme de préservation évolutive. L&#8217;IMF a aussi apporté son expertise dans la conception de bancs d&#8217;essai de la plateforme en question, tout en contribuant aussi à la conception des scénarios de préservation et à l’apport de données. D&#8217;ailleurs, au sein d’IMF et dans un souci de partage des connaissances et innovations, une première itération de la plateforme a été déployée, comme une instance centrale, disponible à l’ensemble des partenaires du projet.</p>

<p>En à peine un an, le projet SCAPE compte déjà six <a href="http://www.scape-project.eu/category/deliverable">réalisations</a> - dont cinq publiques - délivrées dans les délais impartis par la Communauté européenne. Lors du premier rapport de la CE, toutes les réalisations ont été acceptées. Mieux encore, le site dédié au projet SCAPE s&#8217;enrichit de <a href="http://www.scape-project.eu/category/deliverable">trois nouveaux rapports</a> ainsi que d&#8217;une quinzaine de <a href="http://www.scape-project.eu/category/publication">publications scientifiques</a>, centrés sur les derniers résultats développés dans le projet SCAPE, publiées dans des revues et dans le cadre de conférences.</p>

<p>Cette première année d&#8217;activité SCAPE a été prolifique en hauts-faits techniques dont :<br />
- Sur la plate-forme de préservation, le déploiement d&#8217;un cluster expérimental pour des travaux de développement.<br />
- La mise au point de plusieurs composants et applications (à titre d&#8217;exemple la réalisation d&#8217;un <a href="https://github.com/openplanets/scape/tree/master/pt-mapred">prototype pour l’exécution de ligne de commande d&#8217;applications Hadoop</a>, d&#8217;un <a href="http://catalogue.scape-project.eu/">catalogue d&#8217;action SCAPE</a>, et de l&#8217;<a href="https://github.com/fasseg/akubra-hdfs" title="">adaptateur Akubra HDFS</a>).<br />
- L&#8217;élaboration de <a href="http://wiki.opf-labs.org/display/SP/SCAPE+Scenarios+-+Datasets,+Issues+and+Solutions">22 scénarios SCAPE</a> où sont documentés des jeux de données, enjeux et solutions provenant des fournisseurs de contenus SCAPE.<br />
- De nombreux <a href="http://www.myexperiment.org/search?query=SCAPE&amp;type=all&amp;commit=Search">Workflows expérimentaux Taverna</a> ont été développés et testés.<br />
- Ce même Workflow Taverna compte 52 actions, disponibles en ligne.</p>

<p>Pour en savoir plus sur le projet SCAPE n&#8217;hésitez pas à vous <a href="http://scape-project.us4.list-manage1.com/subscribe?u=20cef0f757e3840df2769745b&amp;id=a9d1929cac">inscrire</a> pour suivre l&#8217;actualité du projet ou consulter la <a href="http://www.scape-project.eu/news/scape-newsletter-1">Newsletter</a> déjà en ligne.</p>]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Thu, 31 May 2012 14:14 GMT</pubDate>
    </item>

    <item>
      <title>Web Archiving at the College de France</title>
      <link>http://internetmemory.org/fr/index.php/News/web_archiving_at_the_college_de_france</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/web_archiving_at_the_college_de_france#id:139#date:17:06</guid>
      <description><![CDATA[On March 28th, at 11.00 am, a <a href="http://www.college-de-france.fr/site/serge-abiteboul/ouverture-des-donnees-publiques-archivage-du-web-.htm">Web archiving Seminar</a> held by Julien Masanès<h3>At the College de France, Chair of Information Technology and Digital Sciences</h3>

<p>Information technology has revolutionized our lives. Computers are traditionally seen as computing machines, although their main purpose is now to manage data. This course will cover essential aspects of data management, including its close relationship with mathematical logic and complexity theory. The Web can be seen as a huge distributed database: its most exciting aspects will also be studied, such as its scale or the challenges of distributed computing and the Semantic Web.</p>

<h3>Wednesday, March 28th, from 10.00 to 12.00 am: Semantic Web, Open Data and Web Archiving</h3>
<p><a href="http://www.college-de-france.fr/site/en-serge-abiteboul/index.htm">Serge Abiteboul</a> opens the conference with a lecture about the Semantic Web and invites François Bancilhon, Director of DataPublica to talk and Julien Masanès, Director of the Internet Memory Foundation to talk about Open Data and Web archiving.</p>

<h3>Feel free to join!</h3>
<p>Address:<br />
Amphithéâtre Maurice Halbwachs <br />
Collège de France<br />
11, place Marcelin Berthelot<br />
75231 Paris Cedex 05<br />
France</p>]]></description>
      <dc:subject><![CDATA[English, French,]]></dc:subject>
      <pubDate>Tue, 27 Mar 2012 17:06 GMT</pubDate>
    </item>

    <item>
      <title>Atelier Temporal Web Analytics (TempWeb02) au WWW2012 à Lyon le 17 avril 2012</title>
      <link>http://internetmemory.org/fr/index.php/News/atelier_temporal_web_analytics_tempweb02_au_www2012_a_lyon_le_17_avril_2012</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/atelier_temporal_web_analytics_tempweb02_au_www2012_a_lyon_le_17_avril_2012#id:133#date:11:37</guid>
      <description><![CDATA[<a href="http://temporalweb.net/" target="new">TempWeb02</a> aura lieu le 17 avril 2012 en conjonction avec <a href="http://www2012.wwwconference.org/" target="new">International World Wide Web Conference</a> à Lyon, France. <p><strong>En tant que coordinateur de projet et organisateur, l’Internet Memory Foundation vous informe que la date limite pour soumettre un article est fixée au 24 février 2012.</strong></p>

<h2>Objectifs</h2>

<p>Cet atelier représente une excellente occasion pour rencontrer des chercheurs de tous domaines (IE / IR, Web mining, etc) où la dimension temporelle ouvre une toute nouvelle gamme de défis et de possibilités. L&#8217;ambition de l&#8217;Atelier est de favoriser la création d&#8217;une communauté d&#8217;intérêts sur les défis et possibilités de recherche résultant de la dimension temporelle dans l&#8217;analyse du Web.</p>

<p>TempWeb se concentre sur l&#8217;analyse des données temporelles et sur la dimension temporelle des données en provenance du Web, collectées sur le long terme. Dans cette optique, la taille des données et la capacité à leur donner du sens d&#8217;une manière utile et significative pour ses utilisateurs en représentent le défi majeur. De plus, l&#8217;analyse de données à l’échelle du Web nécessite le développement d’infrastructures et outils d&#8217;analyse innovants pour leur donner du sens.</p>

<h2>Les thèmes de l&#8217;Atelier</h2>

<p>• Web scale data analytics<br />
• Temporal Web analytics<br />
• Distributed data analytics<br />
• Web science<br />
• Web dynamics<br />
• Data quality metrics<br />
• Web spam<br />
• Knowledge evolution on the Web<br />
• Systematic exploitation of Web archives<br />
• Large scale data storage<br />
• Large scale data processing<br />
• Data aggregation<br />
• Web trends<br />
• Topic mining<br />
• Terminology evolution<br />
• Community detection and evolution</p>

<h2>Dates importantes</h2>

<p>• Date limite de soumission pour un article: 24 février 2012<br />
• Notification d&#8217;acceptation: 5 mars 2012<br />
• Date limite pour l’article: 16 mars 2012<br />
• Atelier: 17 avril 2012<br />
Nous vous prions d&#8217;envoyer votre publication (max 8 pages) en utilisant le modèle ACM:<br />
<a href="http://www.acm.org/sigs/publications/proceedings-templates">http://www.acm.org/sigs/publications/proceedings-templates</a><br />
au :<br />
<a href="https://www.easychair.org/account/signin.cgi?conf=tempweb2012">https://www.easychair.org/account/signin.cgi?conf=tempweb2012</a> </p>

<p>Veuillez noter que les travaux de l&#8217;atelier seront publiés dans ACM DL (ISBN 978-1-4503-1188-5)</p>

<h2>Support</h2>

<p>Cet atelier est organisé avec le soutien du 7e Programme Cadre de la Commission européenne (Catégorie ICT STREP) avec le projet Longitudinal Analytics of Web Archive data (<a href="http://www.lawa-project.eu/" target="new">LAWA</a>) (numéro de projet 258105).</p>

<h2>Membres officiels de l&#8217;Atelier</h2>

<p><strong>Précidence :<br />
Présidents-Coordinateurs de projet et et organisateurs:</strong></p>

<p>Ricardo Baeza-­Yates (<a href="http://research.yahoo.com/Ricardo_Baeza-Yates">Yahoo! Research</a>, Espagne)<br />
Julien Masanès (<a href="http://internetmemory.org/en/index.php/about/the_board">Internet Memory Foundation</a>, France et Pays-Bas)<br />
Marc Spaniol (<a href="http://www.mpi-inf.mpg.de/~mspaniol/">Max Planck Institute for Informatics</a>, Allemagne)</p>

<p><strong>Membres du Comité du programme:</strong></p>

<p>Eytan Adar (University of Michigan, USA)<br />
Omar Alonso (Microsoft Bing, USA)<br />
Srikanta Bedathur (IIIT-Delhi, Inde)<br />
Andras Benczur (Hungarian Academy of Science)<br />
Klaus Berberich (Max Planck Institute for Informatics, Allemagne)<br />
Roi Blanco (Yahoo! Research, Espagne)<br />
Adam Jatowt (Kyoto University, Japon)<br />
Scott Kirkpatrick (Hebrew University Jerusalem, Israël)<br />
Christian König (Microsoft Research, USA)<br />
Frank McCown (Harding University, USA)<br />
Michael Nelson (Old Dominion University, USA)<br />
Nikos Ntarmos (University of Patras, Grèce)<br />
Kjetil Norvag (Norwegian University of Science and Technology, Norvège)<br />
Philippe Rigaux (Internet Memory Foundation, France et Pays-Bas)<br />
Thomas Risse (L3S Research Center, Allemagne)<br />
Pierre Senellart (Télécom ParisTech, France)<br />
Torsten Suel (NYU Polytechnic, USA)<br />
Masashi Toyoda (Tokyo University, Japon)<br />
Peter Triantafillou (University of Patras, Grèce)<br />
Michalis Vazirgiannis (Athens University of Economics and Business &amp; École Polytechnique)<br />
Gerhard Weikum (Max Planck Institute for Informatics, Allemagne)</p>]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Fri, 24 Feb 2012 11:37 GMT</pubDate>
    </item>

    <item>
      <title>La version open source de la plateforme d&#8217;essai de LivingKnowledge rendue publique sur SourceForge</title>
      <link>http://internetmemory.org/fr/index.php/News/la_version_open_source_de_la_plateforme_dessai_de_livingknowledge_rendue_pu</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/la_version_open_source_de_la_plateforme_dessai_de_livingknowledge_rendue_pu#id:132#date:11:11</guid>
      <description><![CDATA[Depuis sa mise en ligne sur <a href="http://sourceforge.net/p/diversityengine/wiki/Home/" target="new">SourceForge</a> en août 2011, sous le nom de la Diversity Engine, plusieurs téléchargements ont été effectués. Certains composants utilisés dans la plateforme d'essai seront réutilisés dans d'autres projets de recherche du FP7 tel que le projet <a href="http://internetmemory.org/en/index.php/projects/trendminer" target="new">TrendMiner</a>.<h2>Le projet LivingKnowledge</h2><p> </p>

<p>Le projet <a href="http://livingknowledge.europarchive.org/" target="new">LivingKnowledge</a>(LK) améliore les possibilités techniques de la récupération d&#8217;informations à partir du Web en formalisant les notions de tendances et de diversité, la création d&#8217;outils d&#8217;analyse, le résumé et la visualisation des tendances dans les documents textuels et les images et enfin, par la création d&#8217;applications qui exploitent cette technologie. </p>

<h2>Plateforme d’essai LivingKnowledge</h2><p> </p>

<p>La plateforme d&#8217;essai intègre les composants suivants, qui tous contribuent à améliorer les outils de recherche et de navigation face aux effets du temps et de la diversité:<br />
- <strong>Collections de documents</strong> choisis pour refléter une diversité de types et contenus de document,<br />
- <strong>Des outils d&#8217;analyse d&#8217;images et de texte</strong> sont mis à profit pour analyser la diversité dans les documents textuels et les images,<br />
- <strong>Outils d&#8217;indexation et de recherche</strong> soutenant la recherche en matière de diversité et tendance, incluant de nouvelles méthodes de visualisation.</p>

<p>Le traitement de la plateforme commence avec les collections de documents qui sont disponibles sur demande auprès de l’<a href="http://internetmemory.org/fr/index.php/projects/livingknowledge1" target="new">Internet Memory Foundation</a>, incluant 280 sites d&#8217;informations et 750 blogs.<br />
En outre, la plateforme d’essai prend en charge un certain nombre de formats de contenus permettant aux utilisateurs d&#8217;intégrer leurs propres collections.</p>

<p>Une Hands-On session avec plus de 30 participants (Symposium on Bias and Diversity) a eu lieu lors de la 8th <a href="http://essir.uni-koblenz.de/" target="new">International Summer School on Information Retrieval</a> (ESSIR), qui s’est tenue cette année à Coblence (Allemagne) en août/septembre 2011.</p>

<h2>Pour plus d&#8217;informations</h2>

<p><a href="http://livingknowledge.europarchive.org/">Living Knowledge Project</a> <br />
<a href="http://sourceforge.net/p/diversityengine/wiki/Home/">SourceForge</a><br />
<a href="http://www.diversityengine.org">Diversity Engine</a><br />
<a href="http://essir.uni-koblenz.de/">Symposium on Bias and Diversity in IR (ESSIR 2011) </a></p>]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Fri, 24 Feb 2012 11:11 GMT</pubDate>
    </item>

    <item>
      <title>Preserving Research Projects&#8217; websites</title>
      <link>http://internetmemory.org/fr/index.php/Memoranda/preserving_research_projects_websites</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/Memoranda/preserving_research_projects_websites#id:131#date:13:04</guid>
      <description><![CDATA[The quality research project management often requires creation and maintenance of the research project’s website that is used to make available the new developments and results. But what happens to such website when the project and its funding end?<h3>Inside Installations use case</h3>

<p><img src="http://internetmemory.org/images/uploads/InsideInstallation_thumb.png" alt="InsideInstallation" width="600" height="339"  style="border: 0;" /></p>

<p>Few months ago, the <a href="http://www.cultureelerfgoed.nl/"><strong>Cultural Heritage Agency of the Netherlands</strong></a> (RCE) contacted us to expose its situation:</p>

<p><strong>Inside Installations Project</strong>, Preservation and Presentation of Installation Art, was a research project (2004-2007) into the management and conservation of installations and was supported by the European Commission’s Culture 2000 programme. <br />
Rapid obsolescence of media technologies, interactivity and, for instance, the site specific character of many installations are a challenge for prevailing views about long-term conservation, documentation and presentation. Thirty complex installations (many multimedia) were re-installed, investigated and documented. <br />
By sharing their experience partners worked together to develop guidelines for conservation, re-installation and documentation of installation art. </p>

<p>The Cultural Heritage Agency of the Netherlands was the coordinator of the project, which was co-organised by: <br />
- <a href="http://www.tate.org.uk/">Tate</a>, London; <br />
- <a href="http://www.duesseldorf.de/restaurierungszentrum/index.shtml">Restaurierungszentrum</a>, Düsseldorf; <br />
- <a href="http://www.smak.be/">Stedelijk Museum for Modern Art (S.M.A.K.)</a>, Ghent; <br />
- <a href="http://www.museoreinasofia.es/portada/portada.php">Museo Nacional Centro de Arte Reina Sofia</a>, Madrid <br />
- and the <a href="http://www.sbmk.nl/">Foundation for the Conservation of Modern Art (SBMK)</a> in The Netherlands.</p>

<p>In this framework, they developed a <a href="http://www.inside-installations.org/">high content website</a> (Online Version). (<a href="http://collections.europarchive.org/rce/20120208162002/http://www.inside-installations.org/"><em>Archived Version</em>)</p>

<p>More than four years after finishing the project, maintaining this website means a certain annual expense for the coordinator, who does not have specific funding for this. <br />
Which alternatives did he have? <br />
- To continue to fund the website himself, or ask for contributions to other institutions,<br />
- To close the website, remove all content and make it unavailable,<br />
- Or to archive it and ensure an open access to its Web archive.</p>

<h3>Internet Memory proposes solutions</h3>

<p>The consortium decided to follow Cultural Heritage Agency of the Netherlands (RCE) initiative: to buy the archival of the project website “www.inside-installations.org” once and for good and thus <strong>to preserve results of the European project</strong> Inside Installations. <br />
The process of Web archiving and preservation was delegated to Internet Memory Foundation. </p>

<p>See <a href="http://collections.europarchive.org/rce/20120208162002/http://www.inside-installations.org/">archived version</a> captured in February 2012.</p>

<h3>Results of such Web archiving initiatives</h3>

<p><strong>* Websites are preserved and therefore they might remain a part of the cultural heritage for decades.<br />
* They are publicly available <a href="http://internetmemory.org/en/index.php/about/collections1">online</a>.<br />
* This solution is less expensive than maintaining websites that are not any more updated.</strong></p>

<h6><em><strong>Web archiving as an efficient solution to offer a second life to your project websites!</strong></em></h6>

<p>Internet Memory proposes solutions to archive and preserve high quality websites such are research projects’ websites thanks to its automated Web archiving platform, <a href="http://archivethe.net"><strong>ArchivetheNet</strong></a>.</p>

<p>&nbsp;</p>]]></description>
      <dc:subject><![CDATA[English, French,]]></dc:subject>
      <pubDate>Mon, 20 Feb 2012 13:04 GMT</pubDate>
    </item>

    <item>
      <title>Open source version of the LivingKnowledge testbed publicly released on SourceForge</title>
      <link>http://internetmemory.org/fr/index.php/News/open_source_version_of_the_livingknowledge_testbed</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/open_source_version_of_the_livingknowledge_testbed#id:129#date:17:49</guid>
      <description><![CDATA[Since its public release on <a href="http://sourceforge.net/p/diversityengine/wiki/Home/">SourceForge</a> in August 2011 under the name of Diversity Engine, many downloads were made and some of the testbed components will be reused in other FP7 research projects such as <a href="http://internetmemory.org/en/index.php/projects/trendminer">TrendMiner</a>.<h2>LivingKnowledge Project</h2>

<p>The <a href="http://livingknowledge.europarchive.org/">LivingKnowledge</a> project (LK) enhances the state of the art of retrieving information from the Web by formalizing the notions of bias and diversity, creating tools that analyze, summarize and visualize bias in textual and image documents and finally, by creating applications that exploit this technology.</p>

<h2>LivingKnowledge Testbed</h2>

<p>The testbed integrates the following components, all of which contribute to diversity and bias aware search:<br />
- <strong>document collections</strong> chosen to reflect a diversity of document types and content,<br />
- <strong>image and text analysis tools</strong> supporting the analysis of diversity in text and image documents,<br />
- <strong>indexing and search tools</strong> supporting the bias and diversity aware search including novel visualization methods,</p>

<p>The testbed processing starts with document collections that are available upon request from the <a href="http://internetmemory.org/en/index.php/projects/livingknowledge">Internet Memory Foundation</a>, including 280 News sites and 750 blogs.<br />
Furthermore, the testbed supports a number of collection formats allowing users to incorporate their own collections.</p>

<p>Hands-On session with over 30 participants (Symposium on Bias and Diversity) was held during the 8th <a href="http://essir.uni-koblenz.de/">International Summer School on Information Retrieval</a> (ESSIR), which tooks place in Koblenz (Germany) in August/September 2011.</p>

<h2>More info</h2>
<p><a href="http://livingknowledge.europarchive.org/">Living Knowledge Project</a> <br />
<a href="http://sourceforge.net/p/diversityengine/wiki/Home/">SourceForge</a><br />
<a href="www.diversityengine.org">Diversity Engine</a><br />
<a href="http://essir.uni-koblenz.de/">Symposium on Bias and Diversity in IR (ESSIR 2011) </a></p>]]></description>
      <dc:subject><![CDATA[English, French,]]></dc:subject>
      <pubDate>Thu, 02 Feb 2012 17:49 GMT</pubDate>
    </item>

    <item>
      <title>Temporal Web Analytics Workshop (TempWeb02) at WWW2012 in Lyon on April 17,</title>
      <link>http://internetmemory.org/fr/index.php/News/temporal_web_analytics_workshop</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/temporal_web_analytics_workshop#id:128#date:10:23</guid>
      <description><![CDATA[<a href="http://temporalweb.net/">TempWeb02</a> will take place April 17th, 2012 in conjunction with <a href="http://www2012.wwwconference.org/">International World Wide Web Conference</a> in Lyon, France. <br />
<p><strong>As PC-Chair and Organizer, Internet Memory Foundation informs you that the submission deadline for paper is fixed to February 24, 2012.</strong></p>

<h2>Objectives</h2>

<p>The objective of this workshop is to provide a venue for researchers of all domains (IE/IR, Web mining etc.) where the temporal dimension opens up an entirely new range of challenges and possibilities. The workshops ambition is to help shaping a community of interest on the research challenges and possibilities resulting from the introduction of the time dimension in Web analysis.</p>

<p>TempWeb focuses on temporal data analysis along the time dimension for Web data that has been collected over extended time periods. A major challenge in this regard is the sheer size of the data it exposes and the ability to make sense of it in a useful and meaningful manner for its users. Web scale data analytics therefore needs to develop infrastructures and extended analytical tools to make sense of these. </p>

<h2>Workshop topics</h2>

<p>• Web scale data analytics<br />
• Temporal Web analytics<br />
• Distributed data analytics<br />
• Web science<br />
• Web dynamics<br />
• Data quality metrics<br />
• Web spam<br />
• Knowledge evolution on the Web<br />
• Systematic exploitation of Web archives<br />
• Large scale data storage<br />
• Large scale data processing<br />
• Data aggregation<br />
• Web trends<br />
• Topic mining<br />
• Terminology evolution<br />
• Community detection and evolution</p>

<h2>Important Dates</h2>

<p>• Paper submission deadline: February 24, 2012<br />
• Notification of acceptance: March 5, 2012<br />
• Camera ready copy deadline: March 16, 2012<br />
• Workshop: April 17, 2012</p>

<p>Please post your submission (up to 8 pages) using the ACM template:<br />
<a href="http://www.acm.org/sigs/publications/proceedings-templates">http://www.acm.org/sigs/publications/proceedings-templates</a><br />
at:<br />
<a href="https://www.easychair.org/account/signin.cgi?conf=tempweb2012">https://www.easychair.org/account/signin.cgi?conf=tempweb2012</a></p>

<p>Note that the workshop proceedings will be published in ACM DL (ISBN 978-1-4503-1188-5)</p>

<h2>Support</h2>

<p>This workshop is organized with the support of the EU 7th Framework ICT STREP on Longitudinal Analytics of Web Archive data (<a href="http://www.lawa-project.eu/">LAWA</a>) under contract no. 258105.</p>

<h2>Workshop Officials</h2>

<p><strong>Chair:</p>

<p>PC-Chairs and Organizers:</strong></p>

<p>Ricardo Baeza-­Yates (<a href="http://research.yahoo.com/Ricardo_Baeza-Yates">Yahoo! Research</a>, Spain)<br />
Julien Masanès (<a href="http://internetmemory.org/en/index.php/about/the_board">Internet Memory Foundation</a>, France and Netherlands)<br />
Marc Spaniol (<a href="http://www.mpi-inf.mpg.de/~mspaniol/">Max Planck Institute for Informatics</a>, Germany)</p>

<p><strong>Program Committee:</strong></p>

<p>Eytan Adar (University of Michigan, USA)<br />
Omar Alonso (Microsoft Bing, USA)<br />
Srikanta Bedathur (IIIT-Delhi, India)<br />
Andras Benczur (Hungarian Academy of Science)<br />
Klaus Berberich (Max Planck Institute for Informatics, Germany)<br />
Roi Blanco (Yahoo! Research, Spain)<br />
Adam Jatowt (Kyoto University, Japan)<br />
Scott Kirkpatrick (Hebrew University Jerusalem, Israel)<br />
Christian König (Microsoft Research, USA)<br />
Frank McCown (Harding University, USA)<br />
Michael Nelson (Old Dominion University, USA)<br />
Nikos Ntarmos (University of Patras, Greece)<br />
Kjetil Norvag (Norwegian University of Science and Technology, Norway)<br />
Philippe Rigaux (Internet Memory Foundation, France and Netherlands)<br />
Thomas Risse (L3S Research Center, Germany)<br />
Pierre Senellart (Télécom ParisTech, France)<br />
Torsten Suel (NYU Polytechnic, USA)<br />
Masashi Toyoda (Tokyo University, Japan)<br />
Peter Triantafillou (University of Patras, Greece)<br />
Michalis Vazirgiannis (Athens University of Economics and Business &amp; École Polytechnique)<br />
Gerhard Weikum (Max Planck Institute for Informatics, Germany)</p>]]></description>
      <dc:subject><![CDATA[English, French,]]></dc:subject>
      <pubDate>Thu, 02 Feb 2012 10:23 GMT</pubDate>
    </item>

    <item>
      <title>Emission : « La mémoire de toile » ou les défis de l&#8217;archivage Web</title>
      <link>http://internetmemory.org/fr/index.php/News/emission_la_memoire_de_toile_ou_les_defis_de_larchivage_web</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/emission_la_memoire_de_toile_ou_les_defis_de_larchivage_web#id:125#date:17:13</guid>
      <description><![CDATA[Regardez le reportage de France 24 sur l'archivage Web.<p><img src="http://internetmemory.org/images/uploads/memoiredelatoile_thumb.png" alt="" width="300" height="228" style="border: 0;" alt="image" /></p>

<p><strong>Reportage de France 24 sur l’<a href="http://internetmemory.org/fr/index.php/about/archivage_du_web" title="">archivage du Web</a></strong></p>

<p>Dire que l&#8217;Internet est un des principaux supports d’information est un fait incontestable. Tout aussi incontestable est la nécessité de préserver ces contenus Web et de promouvoir l&#8217;archivage Web à grande échelle. L&#8217;idée fait son chemin et s&#8217;impose comme un des grands défis actuel du Web. </p>

<p>Les médias s&#8217;intéressent au sujet, et pour preuve, France24, la chaîne d&#8217;information internationale, diffuse un <a href="http://www.france24.com/fr/20111231-memoire-internet-archivage">reportage</a> sur la collecte de sites Web en France en raison du dépôt légal de l’Internet, sur l&#8217;archivage du Web en général et sur l’accès aux <a href="http://internetmemory.org/fr/index.php/about/collections" title="">collections d&#8217;archives Web</a>. <br />
Une rapide vue d’ensemble des initiatives et <a href="http://internetmemory.org/fr/index.php/IM/blogs">technologies propres à l&#8217;archivage Web</a> en France avec la participation de la <a href="http://www.bnf.fr/fr/collections_et_services/livre_presse_medias/a.archives_internet.html" title="">Bibliothèque nationale de France</a>, de l’Institut National de l&#8217;Audiovisuel et de l’Internet Memory Foundation (interview de Julien Masanès, par Natalia Gallois, dans nos bureaux de Paris)</p>

<p>Pour visionner l&#8217;émission et découvrir les défis de l&#8217;archivage Web <a href="http://www.france24.com/fr/20111231-memoire-internet-archivage"><strong>cliquez ici</strong></a>.<br />
Emission « <a href="http://www.france24.com/fr/taxonomy/emission/16758" title="">Sur le Net</a> », l’actualité vue par le net et l’actualité du net, décembre 2011</p>]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Tue, 03 Jan 2012 17:13 GMT</pubDate>
    </item>

    <item>
      <title>Le 7 et 8 novembre, lancement d&#8217;un nouveau projet de Recherche : TrendMiner</title>
      <link>http://internetmemory.org/fr/index.php/News/le_7_et_8_novembre_lancement_du_nouveau_pole_de_r_d_du_projet_trendminer</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/le_7_et_8_novembre_lancement_du_nouveau_pole_de_r_d_du_projet_trendminer#id:120#date:15:25</guid>
      <description><![CDATA[Internet Memory a le plaisir d'annoncer le lancement du projet de recherche européen TrendMiner (Large-scale, Cross-lingual Trend Mining and Summarization of Real-time Media Streams).<p>Aujourd&#8217;hui, commence le projet TrendMiner au Luxembourg. Il s&#8217;agit d&#8217;un projet européen de trois ans, financé par la Commission européenne dans le cadre du septième programme-cadre (FP7-ICT) sous le n ° 287863.</p>

<p>Aux côtés d’Internet Memory Foundation, on retrouve :<br />
- <a href="http://www.dfki.de/web/welcome?set_language=en&amp;cl=en" target="new">Deutsches Forschungszentrum für künstliche GmbH Intelligenz (Allemagne)</a> en tant que coordonnateur,<br />
- <a href="http://www.shef.ac.uk/" target="new">L&#8217;Université de Sheffield (Royaume Uni)</a>,<br />
- <a href="http://www.ontotext.com/" target="new">Ontotext AD (Bulgarie)</a>,<br />
- <a href="http://www.soton.ac.uk/" target="new">L&#8217;Université de Southampton (Royaume-Uni)</a>,<br />
- <a href="http://en.eurokleis.com/" target="new">Eurokleis SRL (Italie)</a>,<br />
- <a href="http://www.sora.at/index.php?id=72&amp;L=1" target="new">Sora &amp; Ogris Hofinger GmbH (Autriche)</a><br />
- <a href="http://hardikgroup.com/" target="new">Hardik Fintrade Pvt Ltd (Inde)</a>.</p>

<p>Ce projet vise à fournir des méthodes innovantes, en temps réel, open source et transférables d&#8217;exploration linguistiques transverses et de synthèse de média en streaming à grande échelle.</p>

<p>Dans ce projet, l’Internet Memory Foundation contribue à la plate-forme de collecte, d&#8217;analyse et de stockage de médias en temps réel, ainsi elle <br />
- Fournit des infrastructures évolutives aux partenaires, avec un soutien pour l&#8217;intégration et expérimentation.<br />
- Conçoit et développe un crawler intelligent (qui adapte automotiquement paramètres et règles selon les données capturées) pour les médias sociaux.</p>

<p>Pour plus d&#8217;informations sur TrendMiner, visitez le <a href="http://www.trendminer-project.eu/" target="new">site Web du projet</a> (en construction).<br />
<img src="http://internetmemory.org/images/uploads/fp7logoban1.jpg" alt="" width="60" height="56" style="border: 0;" alt="image" /> <img src="http://internetmemory.org/images/uploads/Eur-flag.jpg" alt="" width="63" height="44" style="border: 0;" alt="image" /></p>]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Tue, 08 Nov 2011 15:25 GMT</pubDate>
    </item>

    <item>
      <title>Interview avec France Lasfargues après la FIAT 2011</title>
      <link>http://internetmemory.org/fr/index.php/News/interview_avec_france_lasfargues_apres_la_fiat_2011</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/interview_avec_france_lasfargues_apres_la_fiat_2011#id:115#date:07:59</guid>
      <description><![CDATA[France Lasfargues, project manager à la fondation, gère deux projets de recherche sur l'archivage du web ainsi qu'un portefeuille de partenaires d'<a href="http://internetmemory.org">Internet Memory</a>. Elle nous confie le bilan de sa participation à la conférence de la <a href="http://www.fiatifta.org/">Fédération Internationale des Archives de Télévision (FIAT)</a> à Turin, en septembre dernier, où elle a animé un workshop sur l'archivage du web et les archives audiovisuelles avec deux partenaires : la <a href="http://www.swr.de/">SWR</a> (Télévision allemande) et <a href="http://portal.beeldengeluid.nl/">Beeld en Geluid</a> (Institut pour l’Audiovisuel, Pays-Bas)<p><img src="http://internetmemory.org/images/uploads/conference-fiatifta_thumb.png" alt="FIATIFTA_2011" width="400" height="227"  style="border: 0;" alt="image" /></p>

<p><br />
<strong>Était-ce votre première participation à la FIAT ?</strong></p>

<p>France Lasfargues : Personnellement, oui. Mais, de par son statut de membre adhérent de la FIAT, ce n&#8217;est pas la première participation d&#8217;Internet Memory Foundation. L&#8217;année dernière, Chloé Martin, Business Developer à la Fondation, avait présenté un poster axé sur notre plateforme d’archivage web, <a href="http://archivethe.net">Archivethe.net (ATN)</a> et sur les problématiques liés à la collecte et l’accès des vidéos qui sont diffusées sur le Web. </p>

<p><strong>Est-ce aisé pour Internet Memory de participer à une telle conférence internationale ? </strong></p>

<p>F.L. : Pour intervenir à la FIAT, il faut tout d’abord répondre à l’appel à participation qui a lieu au moins 3 mois avant. Il s’agit alors de décider d’un angle d&#8217;attaque, des participants que nous souhaiterions intégrer et de la forme de la présentation (poster, atelier, conférence plénière,…). Puis nous soumettons notre proposition et attendons un retour de la FIAT. Nous avons donc décidé de nous concentrer sur des problématiques qui associent les attentes et besoins des archives audiovisuelles et nos compétences et axes de développement. La forme du workshop nous semblait la plus adéquate, afin d’ouvrir également un espace de parole et d’échange avec l’audience. </p>

<p><strong>Cela nous amène justement à parler plus amplement du motif de la présence d’ Internet Memory à la FIAT.</strong></p>

<p>F.L. : Notre objectif est relativement simple : faire prendre conscience de la nécessité de l&#8217;archivage du web pour les archives audiovisuelles et, par là même, faire connaître nos compétences en la matière. Internet Memory souhaite impulser des projets, motiver les institutions à se lancer dans l’archivage du web, maintenant, afin de stopper l’hémorragie de la perte de contenus pertinents et à haute valeur ajoutée. </p>

<p><br />
<strong>Quel est l’angle choisi par Internet Memory pour cet atelier ? </strong></p>

<p>F.L. : Le workshop a surtout été l&#8217;occasion d&#8217;inviter des archives audiovisuelles à partager sur leurs problématiques actuelles en terme d&#8217;archivage du web et de parler des solutions que nous avons développées, en terme de capture et d’accès. Et il faut dire que nous avons de solides arguments en la matière. Cela nous a donné l’occasion de communiquer sur l’ensemble de nos projets <a href="http://www.liwa-project.eu/index.php">LIWA</a>, <a href="http://livingknowledge-project.eu/">LK</a>, <a href="http://www.lawa-project.eu/">LAWA</a>, <a href="http://www.scape-project.eu/">SCAPE</a>, et tout particulièrement, <a href="http://www.arcomem.eu/">ARCOMEM</a>, qui s’avèrent être des projets européens de grande envergure et une excellente référence pour démontrer l&#8217;étendue de nos technologies et compétences. Dans le détail, étant donné que nous nous adressions alors à des archives audiovisuelles, nous avons mis l&#8217;accent sur le challenge technique  qu’est la capture vidéo dans les sites web (<a href="http://www.liwa-project.eu/index.php">LIWA</a>). Autre point important, le web social et les défis qu&#8217;il représente pour les archivistes (<a href="http://www.arcomem.eu/">ARCOMEM</a>). Nous avons bien entendu parlé des divers outils que nous développons (entre autres Application Aware Crawling, API Crawls, etc&#8230;) pour résoudre les problèmes d&#8217;archivage et améliorer la collecte de données.</p>

<p><br />
<strong>Cette conférence internationale devait compter beaucoup de participants ? Votre atelier a-t-il été plébiscité ?</strong></p>

<p>La conférence a réuni plus de 300 archivistes. <br />
Quant au workshop que nous avons animé, la salle était comble avec plus 120 participants. J’avoue que nous ne nous attendions pas à un tel succès car l’année dernière, le workshop sur l’archivage du web avait mobilisé tout au plus 40 personnes ! D&#8217;ailleurs, les organisateurs de la conférence ont souligné notre « score d&#8217;audience ». Cela montre que l’archivage du web et les archives audiovisuelles intéressent de plus en plus les archivistes et nous en voilà ravis. Les services d’Internet Memory pourraient donc être amenés à se développer dans un avenir proche et nous sommes toujours partants pour renouveler cette expérience à la FIAT.</p>

]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Fri, 14 Oct 2011 07:59 GMT</pubDate>
    </item>

    <item>
      <title>Understanding HBase&#8212;1 The data model</title>
      <link>http://internetmemory.org/fr/index.php/Synapse/understanding_the_hbase_data_model</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/Synapse/understanding_the_hbase_data_model#id:98#date:13:45</guid>
      <description><![CDATA[At Internet Memory, we use HBase as a large-scale repository for our collections, holding terabytes of web documents in a distributed cluster.  This article presents the data model of HBase, and explains how it stands between relational DBs and the "No Schema" approach.<h2>Understanding the HBase data model</h2>

In 2006, the Google Labs team published a paper entitled  <a href='http://labs.google.com/papers/bigtable.html'>BigTable: A Distributed Storage System for Structured Data</a>. It describes a distributed index designed to manage very large datasets (``petabytes of data") in a cluster of data servers. BigTable supports key search, range search and high-throughput file scans, and also provides a flexible storage for structured data. HBase is an open-source clone of BigTable, and closely mimics its design.

At  Internet Memory, we use HBase as a large-scale repository for our collections, holding terabytes of web documents in a distributed cluster. HBase is often assimilated to a large, distributed relational database. It actually presents many aspects common to "NoSQL" systems: distribution, fault tolerance, flexible modeling, absence of some features deemed essential in centralized DBMS (e.g., concurrency), etc. This article presents the data model of HBase, and explains how it stands between relational DBs and the "No Schema" approach. It will be completed by an introduction to both the Java and REST APIs, and a final article on system aspects.

<h3>The <i>map</i> structure: representing data with key/value pairs</h3>

We start with an idea familiar to Lisp programmers of <em>association lists</em>, which are nothing more than key-value pairs. They constitute a simple and convenient way of representing the properties of an object. We use as a running example the description of a Web document. For instance, using the JSON notation:

<pre>
&#123;  
   'url': 'http://internetmemory.org', type: 'text/html', content: 'my document content' 
&#125;
</pre>

One obtains what is commonly called an associative array, a dictionary, or a <em>map</em>. Given a context (the object/document), the structure associates <em>values</em> to <em>keys</em>.

We can represent such data  as a graph, as shown by the figure below. The key information is captured by  edges,whereas data values reside at leaves. 

<center>
<img src="http://internetmemory.org/images/uploads/instance6.png" alt="Key value" width="334" height="150" style="border: 0;" alt="image" />
</center>
There exists many possible representations for a <em>map</em>. We showed a JSON example above, but XML is of course an appropriate choice.  At first glance, a <i>map</i> can also be represented by a table. The above example is equivalently viewed as

<center>
<table border="1">
<tr bgcolor="lightgrey"><th>url</th><th>type</th><th>content</th></tr>
<tr><td>http://internetmemory.org</td><td>text/html</td><td>my document content</td></tr>
</table>
</center>

However, this often introduces some confusion. It is worth understanding several important differences that make a <em>map</em> much more flexible than the strict (relational) <em>table</em> structure. In particular,
<ul>
  <li>there is no <em>schema</em> that constrains the list of keys (unlike relational table where the schema is fixed and uniform for all rows),</li>
  <li>the <em>value</em> may itself be some complex structure.  
</ul>

HBase, following BigTable, builds on this flexibility. First, we can add new key-value pair to describe an object, if needed.This does not require any pre-declaration at the 'schema' level, and the new key remains local. Other objects stored in the same HBase instance remain unaffected by the change.

Second, a value can be another <em>map</em>, yielding a <em>multi-map</em> structure which is exemplified below.

<h3>An HBase "table" is a <i>multi-map</i> structure</h3>

Instead of keeping one value for each property of an object, HBases allows the storage of several <em>versions</em>. Each version is identified by a timestamp. How can we represent such a multi-versions, key-value structure? HBase simply replaces atomic values by a <em>map</em>  where the key is the timestamp. 

The extended representation for our example is shown below. It helps to figure out the power and flexibility of the data representation. Now, our document is built from two nested maps, 
  <ul>
    <li>a first one, called "<em>column"</em> in HBase terminology (an unfortunate choice, since this is hardly related to the column relational concept),</li>
    <li>a second "<em>timestamp</em>" (each map is named after its key).</li>
</ul>
Our document is globally viewed  as a <em>column</em> map. If  we choose a <em>column</em> key, say, <em>type</em>, we obtain a value which is itself a second <em>map</em> featuring as many keys as there are timestamps for this specific column. In our example,  there is only one timestamp for <i>url</i> (well, we can assume that the URL of the document does not change much).  Looking at, respectively,  <em>type</em> and <em>content</em>, we find the former has two versions and the latter three. Moreover, they only have one timestamp (<em>t<sub>1</sub></em>) in common. Actually, the "<em>timestamp</em>" maps are completely independent from one another.
  <center>
    <img src="http://internetmemory.org/images/uploads/multimap.png" alt="Multi-map" width="244" height="230" style="border: 0;" alt="Key value" />
  </center>
Note that we can add as many <i>timestamps</i> (hence, as many keys in one of the second-level maps) as we wish. And, in fact, this is true for the first-level map as well: we can add as many <i>columns</i> as we wish, at the document level, without having to impose such a change to <i>all</i> other documents in a same HBase instance.  In essence, each object is just a self-described piece of information (think again to the flexible representation of semi-structured data formats like XML or JSON). In this respect, HBase is in the wake of other 'NoSQL' systems, and its data model shares many aspects that characterize this trend: no schema and self-description of objects. 


We are not completely done with the multi-map levels of HBase. Columns are grouped in <i>column families</i>, and a family is actually a key in a new map level, referring to a group of columns. In the Figure below, we define two families:  <em>meta</em>, grouping <em>url</em> and <em>type</em>, and <em>data</em> representing the content of a document.
  <center>
    <img src="http://internetmemory.org/images/uploads/fullmultimap.png" alt="Full multi map " width="251" height="205" style="border: 0;" alt="image" />
  </center>

<b>Important</b>: Unlike the <em>column</em> and <em>timestamp</em> maps, the keys if a <em>family</em> map is <em>fixed</em>. We cannot add new families to a table once it is created. The <em>family</em> level constitutes therefore the equivalent of a relational schema, although, as we saw, the content of a family value may be a quite complex structure.

<h3>The full picture: rows and tables</h3>

So, now, we know how to represent our objects with the HBase data model. It remains to describe how we can put many objects (potentially, millions or even billions of object) in HBase. This is where HBase borrows some terminology to relational databases: objects are called "<em>rows</em>", and rows are stored in a "<em>table</em>". Although one could find some superficial similarities, this comparison is a likely source of confusion. Let us try to list the differences:
<ol>
<li>a "table" is actually a <i>map</i> where each row is a value, and the key is chosen by the table designer.</li>
   <li>we already explained that the structure of a "row" has little to do with the flat representation of relational row.</li>
    <li>regarding data manipulation, the nature of a "table" implies that two basic operations are available: <i>put(key, row)</i> and <i>get(key): row</i>. Nothing comparable to SQL here!</li>
</ol>

Finally, it is worth noting that the "table" map is a <em>sorted</em> map: rows are grouped on the key value, and two rows close from one another (with respect to the keys  order) are stored is the same physical area. This make possible (and efficient) <i>range queries</i> of keys. We further explore this feature is the article devoted to the system aspects of HBase.

The following Figures summarize our structure for an hypothetical <i>webdoc</i> HBase table storing a large collection of web documents. Each document is indexed by its url (which is therefore the key of the highest level map). A <i>row</i> is itself a local map featuring a fixed number of  keys defined by the family names (<em>f<sub>1</sub></em>, <em>f<sub>2</sub></em>, etc.), associated to values which are themselves maps indexed by columns. Finally, column values are versioned, and represented by a timestamp-index map. Columns and timestamps do no obey to a global schema: they are defined on a row basis. The columns may vary arbitrarily from one row to another, and so do the timestamps for columns.
 
  <center>
<img src="http://internetmemory.org/images/uploads/table.png" alt="HBase table" width="285" height="208" style="border: 0;" alt="image" />
   </center>
 The multi-map structure of  a HBase table can thus be summarized as
<center>
<tt>key -> family -> column -> timestamp -> value</tt>
</center>

It should be clear that the intuitive meaning of common concepts such as "table", "row", and "column" must be revisited when dealing with HBase data. In particular, considering HBase as a kind of large relational database is clearly a misleading option.  HBase is essentially a key-value store with efficient indexing on key access, a semi-structured data model for value representation, and range-search capabilities supported by key ordering.

<h3>References</h3>

<ul>
  <li><a href="http://jimbojw.com/wiki/index.php?title=Understanding_Hbase_and_BigTable">Understanding HBase and BigTable</a></li>
  <li><a href="http://wiki.apache.org/hadoop/Hbase/DataModel">The HBase Wiki page</a></li>
</ul>]]></description>
      <dc:subject><![CDATA[English, French, Hbase,]]></dc:subject>
      <pubDate>Wed, 01 Jun 2011 13:45 GMT</pubDate>
    </item>

    <item>
      <title>Présentations du Temporal Web Analytics Workshop (TWAW 2011)</title>
      <link>http://internetmemory.org/fr/index.php/News/presentations_du_temporal_web_analytics_workshop_twaw_2011</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/presentations_du_temporal_web_analytics_workshop_twaw_2011#id:97#date:09:21</guid>
      <description><![CDATA[Les présentations du 1er Temporal Web Analytics Workshop (TWAW 2011) sont maintenant en ligne.<p>Les <a href="http://www.temporalweb.net/" target="new">présentations</a> tenues le 28 mars 2011, en conjonction avec la 20e Conférence internationale du World Wide Web (www2011) à Hyderabad en Inde sont à présent en ligne.<br />
Le <em>Workshop</em> a été co-organisé par le <a href="http://www.lawa-project.eu/" target="new">projet LAWA</a> et présidé par R. Baeza-Yates (Yahoo! Research Barcelona), J. Masanès (Internet Memory Foundation) et M. Spaniol (Max-Planck-Institut für Informatik).</p>]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Tue, 24 May 2011 09:21 GMT</pubDate>
    </item>

    <item>
      <title>Réunion ARCOMEM à Paris les 9,10 et 11 mai</title>
      <link>http://internetmemory.org/fr/index.php/News/reunion_arcomem_a_paris_les_910_et_11_mai</link>
      <guid isPermaLink="true">http://internetmemory.org/fr/index.php/News/reunion_arcomem_a_paris_les_910_et_11_mai#id:92#date:11:53</guid>
      <description><![CDATA[Le consortium ARCOMEM est accueilli par Télécom ParisTech. <br />
Les différents groupes de travail sont réunis pour discuter et fixer les prochaines échéances des work packages dont l'Architecture Système.<p>Le sujet principal de cette rencontre porte sur l&#8217;architecture système des différents modules (crawl, analyse du Web social, enrichissement de l&#8217;archive, module de stockage&#8230;).<br />
ARCOMEM publiera les résultats de cette réunion sur le <a href="http://www.arcomem.eu/">site web dédié</a>.</p>]]></description>
      <dc:subject><![CDATA[French,]]></dc:subject>
      <pubDate>Fri, 06 May 2011 11:53 GMT</pubDate>
    </item>

    
    </channel>
</rss>