Un million de livres
Malgré sa récente création, ISIS a déjà plusieurs projets numériques en cours. Le projet du million de livres est un projet réunissant la Bibliotheca Alexandrina et plus de vingt unités informatiques internationales (comprenant des universités et des instituts d’informations). La coopération dans ce domaine a eu lieu principalement avec les USA, la Chine et l’Inde. Le projet permet d’accéder à une collection d’un million d'ouvrages, collection en continuelle évolution et consultable à tout moment. L’objectif étant de devenir une bibliothèque numérique universelle.
A long terme, il s'agirait de disposer de la bibliographie de tous les livres publiés sous forme numérique ; l’objectif à court terme étant de numériser un million de livres vers l’année 2005. Ce projet implique que l’on emploie un procédé d’identification puis de sélection des livres à scanner. On choisit les livres selon des critères précis : indisponibilité à grande échelle (documents non réimprimés, sans copyright et documents du gouvernement), des livres pour enfants, des ouvrages scientifiques. La seconde étape concerne le procédé du scanning, qui inclut le véritable scanning, le processus d’images, le contrôle de qualité et le procédé de reconnaissance à caractère optique. Un million de livres équivaut approximativement à 200 ou 300 millions de pages, alors qu’on ne peut scanner que 4000 ou 6000 pages par jour. En résumé, un million de livres étant scannés sur une période de 500 jours ouvrés (soit deux ans de trois séries de scanning par jour).
Le processus d’images et du contrôle de qualité opère principalement l’extraction du fond sonore, la réduction de la taille du dossier, le retrait de tout espace blanc, de marges et d’annotations supplémentaires.
La reconnaissance à caractère optique représente la troisième étape du procédé de scanning ; il facilitera l’indexation du texte ainsi que la reconnaissance des caractères programmés de recherche et de localisation d’un texte précédemment scanné. L’étape finale du projet consiste dans la publication de ces ouvrages, publication supervisée par l’Institut International des Technologies de l’Information (IITI). Au cours de ce travail les centres de scanning prendront contact avec les auteurs et les éditeurs afin d’obtenir leur accord pour la publication de leurs ouvrages sur Internet.
|