Le C2i est mort, vive le PIX !

ATTENTION !
En juin 2019, le C2i niveau 1 a connu sa dernière session.
PIX prend le relais pour certifier vos compétences numériques.
Affichage des articles dont le libellé est Domaine D4 : Organiser la recherche d'informations à l'ère du numérique. Afficher tous les articles
Affichage des articles dont le libellé est Domaine D4 : Organiser la recherche d'informations à l'ère du numérique. Afficher tous les articles

jeudi 25 septembre 2014

Chapitre 4. Les rouages d’Internet et des moteurs de recherche




Data center de Google à Council Bluffs, dans l'Iowa






 You've got mail - 1998 (bande annonce VO)


Des connaissances minimales sur le fonctionnement d’Internet et des moteurs de recherche paraissent nécessaires pour exploiter de manière optimale le potentiel de ce formidable outil.



Le principe de fonctionnement d’Internet et ses services





Internet, pour tout savoir ! sur NetPublic



Définition d’Internet




Le terme d’Internet provient de la contraction de l’expression Interconnected networks qui signifie « réseaux interconnectés ».

Ainsi, Internet est un réseau informatique mondial constitué d'un ensemble de réseaux publics et privés utilisant un même protocole de communication : TCP/IP (Transmission Control Protocol / Internet Protocol).



Le protocole TCP/IP




Le protocole TCP/IP est la manière dont les ordinateurs s'échangent de l'information sur Internet.



  • Pour sa connexion à Internet, chaque ordinateur se voit attribuer une adresse, l’adresse IP

  • L'information (des fichiers) est envoyée de l’adresse d’un ordinateur vers celle d’un autre (par exemple de celle où est hébergé un site, vers celle de l’ordinateur qui a demandé à en voir une page). Cette information est divisée en petits paquets pour son transport et elle est rassemblée à son arrivée (par exemple l’affichage de la page du site).









En bleu : des routeurs





La vitesse d’échanges de données entre deux ordinateurs du réseau dépend de l’état de la bande passante disponible. La bande passante mesure le débit d'informations transitant via le réseau en bits par seconde. Meilleure est la bande passante, plus est rapide l’interconnexion.



Les principaux services d’Internet




Internet propose quatre types de services fondamentaux :



  • de communication : le courrier électronique (email ou courriel), liste de diffusion, forums, messagerie instantanée, téléphone, visioconférence (Skype...) ;

  • la recherche d’information sur le World Wide Web (la toile mondiale), communément appelée Web ou parfois toile, à savoir l’ensemble des pages avec liens et contenus multimédia des sites Web ;

  • la transmission de vidéos et de contenu audio en direct (ou en streaming), c'est-à-dire à la manière d'un téléviseur ou d'un récepteur radio, ou l'échange de fichiers par FTP (File Transfer Protocol), par exemple lors de téléchargement de vidéos ;

  • la production et diffusion de contenu sur la toile : depuis l’avènement du Web 2.0, il a été mis à la disposition des internautes des outils conviviaux permettant à tout un chacun de produire et diffuser du contenu sur la toile, notamment via les plateformes de blogs (weblog, journal sur la toile) puis les réseaux sociaux tel que Facebook.



Naviguer sur la toile grâce aux liens




Avec la banalisation d’Internet, les termes « surfer » ou « naviguer » sur Internet sont désormais peu usités, seul demeure le terme de « navigateur », catégorie de logiciel requis pour consulter le Web, tel que Firefox (Mozilla), Chrome (Google) ou Safari (Apple).



Naviguer sur la toile revient à aller, grâce à des liens hypertextes ou hyperliens cliquables, de page en page de documents rassemblés sur des sites stockés sur des serveurs.



C’est la mise au point du langage HTML dès 1991, qui a permis de créer et d’éditer ces pages sur le Web grâce à des logiciels d’édition de pages HTML.




Camille  Henrot vidéo Grosse fatigue 
Lion d'argent de la 55ème Biennale de Venise
Il Palazzo Enciclopedico (The Encyclopedic Palace) 2013







Se connecter à Internet




Que ce soit avec un ordinateur (portable ou non, à domicile ou en déplacement), avec un téléphone intelligent ou une tablette, accéder à Internet requiert :


- un abonnement à un Fournisseur d’Accès Internet ou F.A.I (en anglais Internet Service Provider ou I.S.P.)

- un navigateur ou logiciel de navigation (en anglais browser)

Il est toutefois possible en certains endroits d’obtenir une connexion gratuite en déplacement grâce à des bornes Wifi ou « hot spots » gratuits fournis par les pouvoirs publics (mairie de Paris au parc des Buttes-Chaumont par exemple) ou par des entreprises (cafés, hôtels...).





Il convient d’avoir une ligne téléphonique (pour une liaison haut débit Internet, par ADSL) ou une liaison câblée, ou encore une parabole (pour une liaison par satellite), ainsi qu’une Box (boite) constituée d’un modem-routeur et d’une borne Wi-fi fournie par le FAI.

L’abonnement peut être partagé entre plusieurs matériels grâce à la mise en place d’un réseau domestique Wi-fi, à moins que soit préférée une solution via un réseau domestique « Courant Porteur en Ligne » (CPL) qui utilise le réseau électrique : un boitier CPL branché sur une prise électrique étant connecté à la « Box », on accédera à Internet depuis tout autre matériel connecté à un boitier CPL branché sur une autre prise électrique du même réseau électrique.



 réseau domestique avec CPL 


   
  



Il est possible d’obtenir une connexion Internet à proximité d’une borne Wi-fi de son FAI (portables, Smartphones et tablettes sont équipés de modem wifi), mais aussi à proximité d’un hot spot wi-fi, gratuitement ou non.        

Pour un usage professionnel requérant davantage de garanties de confidentialité, la clé 3G et plus récemment 4G est une solution (coûteuse) offerte par les opérateurs pour un accès Internet via le réseau Internet mobile.





Les outils de recherche d’information sur la toile




Dans les années 1990, il était d’usage de distinguer deux outils concurrents de recherche sur le web : les moteurs de recherche et les annuaires. Depuis, la puissance des moteurs de recherche, en premier lieu celle du leader Google (91 % des requêtes en France) fait que les annuaires sont en voie de disparition pour les recherches du grand public.

Ainsi, Yahoo qui proposait initialement des recherches dans son arborescence d’annuaires s’affiche désormais comme moteur de recherche.




Marre du monopole de Google ?

Choisissez QWANT, le moteur de recherche français.
Il est suffisant pour la plupart de vos recherches.
 En cas de besoin de plus de résultats, 
vous pourrez toujours utiliser Google.




 

Distinguer les moteurs de recherche des annuaires




Pour pouvoir être proposées comme résultat de recherche, les ressources d’Internet (textes, photos, document audio, vidéo) doivent être indexées et classées.



L’indexation des ressources d’Internet



L’index de ce cours est par exemple une liste de mots sélectionnés pour être des mots-clés des sujets traités, classé par ordre alphabétique et renvoyant aux pages où ils apparaissent (Voir le TD Word Plan - créer un index). Ainsi, l’index permet pour un mot recherché de retrouver tout ce qui est écrit à son sujet.


Les annuaires : une indexation manuelle de sites



Dans un annuaire sur Internet, des documentalistes définissent une arborescence de catégories de classement (par exemple géographique puis activités) et sélectionnent ensuite les sites jugés intéressants. Les résultats ne sont par conséquent ni exhaustifs, ni mis à jour en permanence.



Exemples : http://www.top-annuaire.com/ (généraliste), http://www.sanitaire-social.com/annuaire (spécialisé)








Second Life et les mondes virtuels sur Soir 3 - déc. 2006




Les moteurs de recherche : exploration, indexation et classement par des robots



Lorsqu’on fait une requête sur le site d’un moteur de recherche comme Google (en anglais search engine), on fait une requête sur sa base de données de ressources indexées. Le site affiche alors pour résultats la liste des adresses des ressources comportant le(s) mot(s) de la requête par ordre décroissant de pertinence.

Pour constituer sa base de données le moteur de recherche fait de manière permanente un triple travail d’exploration et d’indexation des ressources du web, ainsi que de classement.



L’exploration (en anglais crawling = qui rampe) et l’indexation (indexing) sont effectuées grâce à des programmes informatiques, des robots d’indexation qui parcourent en permanence les ressources du Web, les analysent et les indexent automatiquement (tel mot renvoie à telle page/ressource de tel site).



Les pages elles-mêmes peuvent ou non être enregistrées dans la base de données. Le lien « en cache »  en marge du résultat lorsqu’il apparaît permet d’accéder à la capture de la page lors du dernier passage du robot.










Les critères de classement (en anglais ranking) des ressources Internet trouvées par ordre de pertinence décroissante par rapport à la requête sont largement tenus secrets pour éviter que les sites ne les instrumentalisent afin d’améliorer leur classement. Google utiliserait une centaine de règles pour classer les pages.



Pour autant, on sait que le classement d’une ressource (pagerank en anglais) est évalué en fonction de certains critères tels que la popularité de la ressource, à savoir que plus une page est pointée par d’autres sites (ils font un lien vers cette page), mieux elle est classée (ainsi une page pointée par trois sites, est mieux classée qu’une page qui est pointée par un seul).



De même, une ressource pourra être jugée plus pertinente par rapport aux mots de la requête et obtenir un meilleur classement si ces mots se trouvent dans des titres et qu’ils sont répétés plusieurs fois dans la ressource.

Attention toutefois à la chasse que fait un moteur comme Google à la pratique du spamdexing (contraction de spam indexing), qui consiste à disséminer des mots clés dans les pages pour améliorer son classement sur ces mots. Google en accepterait au maximum 15 %, au-delà le site court le risque de se retrouver déréférencé ou en fin de classement des pages.






The Matrix 1999

 






Tout site bien conçu a son propre moteur de recherche qui explore et indexe seulement les pages du site et notamment ses archives.






L’efficacité d’un moteur de recherche tel que Google a réduit à néant le besoin d’utiliser pour ses recherches un métamoteur  (en anglais metacrawler) tel que Copernic.

Un métamoteur est un logiciel qui permet d’interroger en même temps plusieurs moteurs de recherche et annuaires pour fournir la réponse la plus exhaustive possible à une requête.





Le Web invisible : le Web non indexé par les moteurs de recherche 




Il faut avoir conscience que les moteurs de recherche ne permettent d’accéder qu’à une petite partie de la toile, la partie émergée de l’iceberg du Web, à savoir les ressources indexées par les moteurs de recherche ou annuaires. Or la plus grande partie du Web ne l’est pas et constitue ce qu’on appelle le Web invisible (ou caché ou encore profond).

Les ressources du Web invisible comprennent, entre autres, les sites Web construits autour d'une base de données interrogeable uniquement par un moteur de recherche interne, les pages interdites aux robots d'indexation, les pages protégées par un mot de passe, les pages écrites dans des formats propriétaires, les intranets...


Le Web profond ne doit pas être confondu avec le Dark Net



Le réseau Tor, un outil d'accès au Dark Net




Décrypter une URL 









L’adresse d’une page Web ou d’un fichier quelconque qui s’affiche dans la fenêtre de votre navigateur est une URL  (en anglais Universal Ressource Labor ou localisateur universel de ressource), traduite en français par  « adresse réticulaire ».







Une URL indique à la fois sur quel ordinateur (serveur) se trouve la ressource et la route à suivre pour l'atteindre.

L'URL spécifie également le protocole Internet approprié sur le réseau TCP/IP, tel que http pour l’affichage de page web ou FTP pour l’envoi de fichiers. 



Exemple de l’url de la page d’accueil d’un site : http://www.educnet.education.fr/





http://
Le protocole d'Internet
www
World Wide Web (on est sur la toile)
educnet.education.fr/
Le nom de domaine (l’identifiant de l’ordinateur hébergeant le site)
.fr
Extension ou suffixe du nom de domaine



Certains incluent le www. dans le nom de domaine.



L’adresse d’une ressource sur ce site : http://www.educnet.education.fr/documentation/guide/sigles.htm



  http://www.educnet.education.fr/
 adresse du site Educnet
  documentation/
 nom d'un dossier du site Educnet
  guide/
 nom d'un sous-dossier
  sigles
 nom du document
  .htm
 page en langage html





URL Shortener(raccourcisseur d'URL)

sur NetPublic





Un nom de domaine (domain name) dans l’adresse d’une ressource du web  est la traduction d'une adresse IP (Internet Protocol) en une suite de caractères plus facile à retenir tels qu'un nom propre, une marque ou une association de mots clés.

En toute rigueur, on distingue les noms de domaine de premier niveau tel que le .fr et les domaines de second niveau comme dans notre exemple educnet.education.fr.

Comme nous l’avons vu, ce sont des serveurs spécialisés, les routeurs qui vont vous permettre d’accéder à la ressource recherchée.

Sur Internet d’autres serveurs spécialisés, des « serveurs de noms de domaine » (en anglais Domain Name Server), après consultation d'une base de données, font correspondre les noms de domaine aux adresses IP (numériques) et inversement : il traduit par exemple microsoft.com en adresse IP de la forme 140.186.81.2.




 Data center de Google à Council Bluffs, dans l'Iowa



Produire du contenu pour le Web




Avant l’avènement des technologies du Web 2.0, pour publier un contenu, on devait créer un site.

 

Créer un site



Créer un site requiert :


  • de penser son architecture, son plan,

  • d’apprendre à utiliser un logiciel d’édition HTML,

  • d’acheter un nom de domaine et de le déposer,


  • de télécharger les fichiers Web sur le serveur qui héberge votre site

  • de mettre en ligne les pages,...



Toute chose qui n’était pas à la portée de n’importe qui et qui demandait pas mal de temps.

Avec l’avènement des technologies du Web 2.0, créer et mettre en ligne un petit site « vitrine » est devenu beaucoup plus simple : des sociétés proposent désormais pour une somme modique des packs permettant de réserver un nom de domaine et de construire facilement un site vitrine hébergé.

PLOUP Expliquer le hasthag sur Arte creative



Tous producteurs de contenus avec les blogs et les réseaux sociaux




Avec les plateformes de blogs, de microblogging (Twitter, Tumblr), de partage de vidéos (Youtube,…) ou de photos (Flickr, Instagram…), ou des deux (Snapchat...) et des réseaux sociaux (Facebook, Viadeo...), publier un texte, une musique, des photos ou une vidéo, ou tout cela en même temps est devenu un jeu d’enfant.


Le tout gratuitement (même s’il existe des formules payantes), interactif (les commentaires), avec un référencement/indexation par les moteurs accéléré et avec une bonne protection par la plateforme contre la cybercriminalité.





 Web par Brian Eno (Nerve Net 1992)



Chapitre 5. La collecte d’informations sur Internet






Des professeurs du lycée de Los Alamitos (Californie) lisent des tweets écrits à leur propos par des élèves




La masse d’informations pléthoriques disponible sur Internet, leur gratuité majoritaire et la facilité d’y transgresser le droit d’auteur, font que les jeunes générations [le terme  « enfants du numérique » (« digital natives ») est utilisé pour les générations née après 1980] ont souvent du mal à concevoir que l’on puisse s’informer, faire une recherche documentaire ailleurs que sur Internet.

Or la plus grande partie de ces informations est produite et diffusée par « n’importe qui » sans intermédiation de spécialistes. Par conséquent, il revient à chacun d’adopter les bons réflexes, tant dans la démarche de collecte que dans l’évaluation des informations fournies par ce media. 

Rechercher une information sur un moteur de recherche




Google, astuces de recherche sur NetPublic


Des mots-clés plutôt qu’une requête en langage naturel

Formuler une requête sur un moteur de recherche comme Google est devenu un jeu d’enfant.

S’il est possible de formuler sa demande d’information « en langage naturel », à savoir une phrase interrogative du type « Qu'est-ce qu'une requête en langage naturel ? », dans un souci de rapidité, on la formule plutôt sous la forme d’une suite de mots-clés séparés par un espace : « requête langage naturel », ce qui donnera la même liste de résultats.


Le moteur de recherche recherchera puis affichera toutes les ressources classées par ordre de pertinence décroissant comportant ces trois mots « requête », « langage », « naturel » dans le même ordre que celui de la requête, autrement dit comportant le premier terme ET le second ET le troisième, dans l’ordre de la requête.



 Le moteur de recherche de la BnF numérisée : Gallica




Pour trouver une expression exacte, par exemple pour savoir qui a dit, chanté, écrit, ou simplement avoir le texte dans son intégralité ou le contexte de la phrase, il suffit de mettre cette expression exacte entre guillemets : exemple la formule de Boileau « ce qui se conçoit bien ».

Dans la mesure où ce type de requête est souvent faite, Google pourra vous la proposer avant que vous ayez le temps de fermer les guillemets







Lorsque la formulation de la requête aboutit à trop de « bruit documentaire », à savoir un trop grand nombre de résultats de faible qualité, il est nécessaire d’affiner les critères de recherche d'abord avec "outils de recherche" en filtrant par exemple les résultats sur les critères mise à jour de "moins d'un an" et uniquement "les pages en français".





Si nécessaire, on peut encore filtrer les résultats en cliquant sur recherche avancée (l’icône d’engrenage sur la droite de l’écran), puis en indiquant le ou les mots ne devant pas se trouver dans les résultats dans la rubrique "aucun des mots suivants". Par exemple ici "Oregon" : on veut les pages comportant Portland mais pas la ville se trouvant dans l'Oregon.




Parmi ces critères de filtrage, certains sont des opérateurs booléens.



En algèbre de Boole, une branche des mathématiques, Et, ou, sauf sont appelés opérateurs booléens.



On utilise systématiquement l’opérateur ET lorsqu’on formule une requête par mots-clés, en effet, l’espace entre les mots sous-entend le premier mot ET le deuxième...

En recherche avancée, il est sous-entendu dans la ligne « tous les mots ».



SAUF (« aucun des mots suivants ») est très pratique pour affiner une recherche.



OU (« l’un des mots suivants ») est plutôt de nature à augmenter le « bruit » puisque A OU B dans une requête est inclusif, il signifie que seront retenue comme résultats satisfaisants les ressources comportant A ou B ou les deux (affichage en premier dans les résultats). Cette option est à utiliser lorsque la requête fournit trop peu de résultats.





En théorie des ensembles, le A ET B correspond à l’intersection (qui comporte le mot A et le mot B), le A OU B à l’union (comportant le mot A, le mot B, ou les deux), le A SAUF B correspond à la soustraction (qui comporte le mot A sauf s’il a aussi le mot B).

Enfin la disjonction correspond à une situation où la ressource Internet doit avoir A ou B mais pas les deux.



 Barbara Kruger 2008 Belief + Doubt = Sanity (croyance + doute = santé mentale)





On peut d’un simple clic trouver tout et n’importe quoi sur Internet ou dans sa boite mèl (voir les canulars du chapitre 3), il est par conséquent essentiel d’évaluer la qualité de l’information trouvée.


Par principe, toute source Internet qui n’étaye pas ses affirmations par d’autres sources de qualité et vérifiables (notamment par renvoi via un lien hypertexte vers les sources), est suspecte et doit être rejetée. C’est d’ailleurs un des critères d’acceptation d’un article par l’encyclopédie collaborative Wikipédia[1] qu’elle appelle « la vérifiabilité des sources ».



Sur les sujets polémiques, Wikipédia requiert un deuxième critère d’admission d’un article : la neutralité du point de vue, autrement dit, l’auteur doit exposer les points de vue antagonistes et non un seul, ce qui est un parti pris d’opinion.

Comment reconnaître une fausse information sur Internet ? Quels sont les premiers réflexes à adopter ? 

Plusieurs éléments concrets et « tout bêtes » sont à vérifier. L'article est-il signé ? Les informations sont-elles datées ? Créditées ? Les sources sont-elles précises ? Les preuves que l'on peut nous montrer dans une vidéo par exemple, a-t-on le temps de les lire ? Qui gère le site qui diffuse cette information ? Il est par exemple facile de savoir à qui l'on a affaire sur un site, en regardant simplement l'onglet « qui sommes-nous ? » ou les mentions légales. Pour avoir une publication ou un site de publication en France, il faut un numéro officiel, une domiciliation en France, des mentions légales, etc. Ainsi, lorsqu'il ne figure pas sur le site des mentions légales et que l'onglet « qui sommes-nous ? » est soit inexistant, soit relatif à la volonté de « faire éclater la vérité par un groupe de citoyens éclairés », on doit se méfier. 
Lorsqu'on est face à une photo, il faut faire une recherche de photo en inversé par exemple, dans Google Images : on entre le fichier de la photo et on remonte jusqu'à celui qui l'a posté. Ensuite, on remonte jusqu'à la source, le profil de la source, etc.

Source : Thomas Huchon dans le Point du 5/2/2018







Bien entendu, la confiance ou défiance a priori qu’il convient d’avoir dans les différentes sources d’information dépendent aussi du type d’informations recherchées, de leur domaine (administratif, juridique, scientifique....)


Confiance a priori dans les informations publiées par :
PRUDENCE voire Défiance dans les informations publiées par :
Les administrations publiques (sauf dans des pays non démocratiques où l’information est contrôlée)
Des inconnus ou des auteurs non identifiables n’étayant pas les informations fournies par des liens vers des sources vérifiables et de qualité, ne respectant pas le principe de neutralité du point de vue (c’est souvent le cas des informations qui circulent via les réseaux sociaux, par messagerie électronique ou sur des forums de discussion)
Les universités, les centres de recherche indépendants (lieux de savoirs)
Les sites personnels (dont les blogs), les informations circulant sur les réseaux sociaux (Facebook, Twitter....), sauf si l’auteur est reconnu de confiance car ayant autorité dans la matière et s’il cite (fait des liens vers) d’autres sources fiables et vérifiables
Les médias de confiance en particulier de presse (sauf dans pays non démocratiques)
Les entreprises car il s’agit le plus souvent de communication – propagande – et non d’information objective (pas de neutralité du point de vue)

L’encyclopédie collaborative Wikipédia parce que son contenu est rédigé par une multiplicité d’auteurs à l’identité et à la compétence inconnues et que les articles peuvent être modifiés en permanence. Pour autant certains domaines de connaissances sont plus sûrs que d’autres, par exemple, les articles sur l’informatique sont de l’avis d’informaticiens très fiables.





France 2 - Complément d'enquête - "Fake news", rumeurs et média -avril 1917




Internet permet non seulement de trouver de l’information mais aussi d’être tenu au courant sur une sélection de sujets, autrement dit de faire de la veille informationnelle, grâce à trois outils : les lettres d’information, les alertes mèl et les fils d’actualité.


Les lettres d’information

Une lettre d’information (en anglais newsletter) est un document d'information envoyé de manière périodique par courrier électronique à une liste de diffusion regroupant l'ensemble des personnes qui y sont inscrites[2].



De même on peut demander sur Google des alertes par courriel sur un sujet donné. Le moteur de recherche envoie alors un courriel chaque fois qu’une nouvelle ressource sur ce sujet a été indexée.

Cet outil sera particulièrement pertinent pour le suivi de son e-réputation, à savoir de pouvoir être alerté chaque fois qu’un contenu nous concernant est indexé par le moteur de recherche, sans avoir à se googler systématiquement.

Les sites d’offres immobilières par exemple offrent un service identique pour un type de bien recherché, à louer ou à acheter.



S’abonner à un fil d’actualité (ou flux/fil RSS en anglais Real Simple Syndication) est un autre moyen de se tenir facilement informé des nouveautés sur des sites ou blogs dans les domaines qui nous intéressent.

Au lieu d’afficher l’url du site conduisant à sa page d’accueil, un fil d’actualité affichera la dernière mise à jour du ou des titres de la page d’accueil du site, sous la forme de liens hypertextes (Firefox parle de marque-pages dynamique).
Pour que cela soit possible, le site concerné doit avoir dans sa page d’accueil l’icône orange ci-dessous :

 






Vous pourrez lire ce fil d’actualité :

  • dans votre navigateur (menu marque-pages, ou signets ou favoris suivant les navigateurs),
  • dans votre logiciel de messagerie (par exemple Thunderbird, voir ci-après))
  • dans un compte créé sur un agrégateur en ligne tel que MyYahoo ou Netvibes, lequel permet d’avoir les fils d’actualités de tous les sites/blogs que vous suivez (vous ne lisez que ceux dont le contenu a changé depuis votre dernière consultation sans avoir à les consulter tous un par un),
  • ou encore sur votre blog ou sur le « mur » du réseau social sur lequel vous avez créé un compte.

La manière de le rendre actif dépend du lieu choisi pour l’affichage.






Paris par Martin Parr à la MEP





Si vous utilisez la fonction « enregistrer sous », vous allez enregistrer :


  • un fichier html

  • un dossier comportant tous les autres fichiers de la page, notamment les photos.


Quand vous voudrez relire cette page, il vous faudra ouvrir le fichier html (double clic), lequel appellera pour être lu votre navigateur par défaut.


Par conséquent, il peut être préférable d’enregistrer la page au format pdf incluant texte et images. Pour cela, faites une « impression » virtuelle au format pdf (fichier-imprimer- nom de l’imprimante : pdfcreator ou dopdf)

Si cette option n’est pas disponible, téléchargez  pdfcreator ou dopdf[3].



Si vous êtes équipés d’une version égale ou postérieure à Office 2007, vous pouvez aussi l’enregistrer au format .xps


Signalons l’existence de logiciels « aspirateur de sites web » qui télécharge toutes les données contenues par un site Web pour les sauvegarder sur un support de mémoire local tel que son disque dur, ce qui permet de consulter les pages correspondantes sans être connecté à Internet.



De nombreux sites et plateformes de blogs détectent et interdisent l’aspiration de sites. En dehors du fait que les aspirateurs de sites peuvent consommer abusivement les ressources du serveur web et faussent les statistiques de visite, ces logiciels peuvent contribuer à violer les droits d'auteurs et les droits liés à la propriété intellectuelle[4]




La série TV suédoise Real Humans




[1] Voir le chapitre 6
[2] Voir le chapitre suivant
[3] Voir chapitre 2
[4] Voir le Chapitre 7