Archives ; La Dépêche en numérique

En octobre 2004, Google, le trublion de l’internet, lance un pavé dans la mare de l’édition en dévoilant son projet Google print for publisher, c’est-à-dire offrir la possibilité aux internautes de feuilleter en ligne sur le net et de lire des extraits ou des résumés de livres numérisés. Deux mois plus tard, Google lance son projet Google print library avec un objectif : 15 millions de livres numérisés issus de cinq grandes bibliothèques universitaires. Cette annonce – qui a depuis donné des idées à d’autres, notamment Microsoft et Yahoo – avait ému les Européens, familiers de l’exception culturelle et du droit d’auteur.
En avril 2005, 23 bibliothèques demandent alors à l’Union européenne de réfléchir à la création d’une « bibliothèque numérique européenne. »
En mars 2006, après un appel à idées, la Commission européenne lance enfin cette bibliothèque numérique. Au cœur de celle-ci se trouveront des livres, des revues et des journaux. Pour ces derniers, la bibliothèque nationale de France (BNF) dispose d’un plan de numérisation de la presse ambitieux dont le financement de 3,5 m€ permettra le traitement de 2,1 millions de pages. Et parmi ces pages se trouveront celles de « La Dépêche du Midi. »
2,5 millions de pages
Le PDG du groupe Dépêche, Jean-Michel Baylet, et le président de la BNF, Jean-Noël Jeanneney, ont signé mercredi 17 janvier une convention de partenariat au terme de laquelle plus de 800000 pages de « La Dépêche » issues de l’édition toulousaine entre 1870 et 2003 seront hébergées et conservées en haute définition pour une consultation sur les sites internet de la BNF (Gallica) et de notre journal.
« La Dépêche » assure de son côté, à partir de son centre de documentation, de recherche éditoriale et d’édition (Cedre) la numérisation en mode texte et image de ses pages générales et de ses éditions locales éditées depuis 1870 soit… 2,5 millions de pages !
La coopération entre la BNF et « La Dépêche du Midi » s’accompagnera d’une réflexion commune sur l’expérimentation du dépôt légal de notre journal sous forme numérique.
Philippe Rioux

Les étapes de la numérisation
Après une préparation du document (débrochage, décollement, dépoussiérage), il est numérisé en niveau de gris au format Tiff. Ces fichiers numériques très lourds (15 à 40 Mo) sont ensuite compressés au format Jpeg (0,7 Mo). L’image est recadrée selon des normes strictes et des données sont intégrées au fichier. Quand le document est validé, il peut être mis en consultation sur Gallica. Là où cela devient plus intéressant, c’est que les images numérisées peuvent être analysées par un logiciel de reconnaissance optique de caractères (OCR) qui fournira du texte brut. Sur ce texte, mis en ligne sur internet, l’on pourra effectuer des recherches par titre, date, ou un simple mot-clé. Bref, toute La Dépêche au bout de votre souris d’ici 2010.

0 commentaires: