Le C2i est mort, vive le PIX !

ATTENTION !
En juin 2019, le C2i niveau 1 a connu sa dernière session.
PIX prend le relais pour certifier vos compétences numériques.

jeudi 25 septembre 2014

Chapitre 4. Les rouages d’Internet et des moteurs de recherche




Data center de Google à Council Bluffs, dans l'Iowa






 You've got mail - 1998 (bande annonce VO)


Des connaissances minimales sur le fonctionnement d’Internet et des moteurs de recherche paraissent nécessaires pour exploiter de manière optimale le potentiel de ce formidable outil.



Le principe de fonctionnement d’Internet et ses services





Internet, pour tout savoir ! sur NetPublic



Définition d’Internet




Le terme d’Internet provient de la contraction de l’expression Interconnected networks qui signifie « réseaux interconnectés ».

Ainsi, Internet est un réseau informatique mondial constitué d'un ensemble de réseaux publics et privés utilisant un même protocole de communication : TCP/IP (Transmission Control Protocol / Internet Protocol).



Le protocole TCP/IP




Le protocole TCP/IP est la manière dont les ordinateurs s'échangent de l'information sur Internet.



  • Pour sa connexion à Internet, chaque ordinateur se voit attribuer une adresse, l’adresse IP

  • L'information (des fichiers) est envoyée de l’adresse d’un ordinateur vers celle d’un autre (par exemple de celle où est hébergé un site, vers celle de l’ordinateur qui a demandé à en voir une page). Cette information est divisée en petits paquets pour son transport et elle est rassemblée à son arrivée (par exemple l’affichage de la page du site).









En bleu : des routeurs





La vitesse d’échanges de données entre deux ordinateurs du réseau dépend de l’état de la bande passante disponible. La bande passante mesure le débit d'informations transitant via le réseau en bits par seconde. Meilleure est la bande passante, plus est rapide l’interconnexion.



Les principaux services d’Internet




Internet propose quatre types de services fondamentaux :



  • de communication : le courrier électronique (email ou courriel), liste de diffusion, forums, messagerie instantanée, téléphone, visioconférence (Skype...) ;

  • la recherche d’information sur le World Wide Web (la toile mondiale), communément appelée Web ou parfois toile, à savoir l’ensemble des pages avec liens et contenus multimédia des sites Web ;

  • la transmission de vidéos et de contenu audio en direct (ou en streaming), c'est-à-dire à la manière d'un téléviseur ou d'un récepteur radio, ou l'échange de fichiers par FTP (File Transfer Protocol), par exemple lors de téléchargement de vidéos ;

  • la production et diffusion de contenu sur la toile : depuis l’avènement du Web 2.0, il a été mis à la disposition des internautes des outils conviviaux permettant à tout un chacun de produire et diffuser du contenu sur la toile, notamment via les plateformes de blogs (weblog, journal sur la toile) puis les réseaux sociaux tel que Facebook.



Naviguer sur la toile grâce aux liens




Avec la banalisation d’Internet, les termes « surfer » ou « naviguer » sur Internet sont désormais peu usités, seul demeure le terme de « navigateur », catégorie de logiciel requis pour consulter le Web, tel que Firefox (Mozilla), Chrome (Google) ou Safari (Apple).



Naviguer sur la toile revient à aller, grâce à des liens hypertextes ou hyperliens cliquables, de page en page de documents rassemblés sur des sites stockés sur des serveurs.



C’est la mise au point du langage HTML dès 1991, qui a permis de créer et d’éditer ces pages sur le Web grâce à des logiciels d’édition de pages HTML.




Camille  Henrot vidéo Grosse fatigue 
Lion d'argent de la 55ème Biennale de Venise
Il Palazzo Enciclopedico (The Encyclopedic Palace) 2013







Se connecter à Internet




Que ce soit avec un ordinateur (portable ou non, à domicile ou en déplacement), avec un téléphone intelligent ou une tablette, accéder à Internet requiert :


- un abonnement à un Fournisseur d’Accès Internet ou F.A.I (en anglais Internet Service Provider ou I.S.P.)

- un navigateur ou logiciel de navigation (en anglais browser)

Il est toutefois possible en certains endroits d’obtenir une connexion gratuite en déplacement grâce à des bornes Wifi ou « hot spots » gratuits fournis par les pouvoirs publics (mairie de Paris au parc des Buttes-Chaumont par exemple) ou par des entreprises (cafés, hôtels...).





Il convient d’avoir une ligne téléphonique (pour une liaison haut débit Internet, par ADSL) ou une liaison câblée, ou encore une parabole (pour une liaison par satellite), ainsi qu’une Box (boite) constituée d’un modem-routeur et d’une borne Wi-fi fournie par le FAI.

L’abonnement peut être partagé entre plusieurs matériels grâce à la mise en place d’un réseau domestique Wi-fi, à moins que soit préférée une solution via un réseau domestique « Courant Porteur en Ligne » (CPL) qui utilise le réseau électrique : un boitier CPL branché sur une prise électrique étant connecté à la « Box », on accédera à Internet depuis tout autre matériel connecté à un boitier CPL branché sur une autre prise électrique du même réseau électrique.



 réseau domestique avec CPL 


   
  



Il est possible d’obtenir une connexion Internet à proximité d’une borne Wi-fi de son FAI (portables, Smartphones et tablettes sont équipés de modem wifi), mais aussi à proximité d’un hot spot wi-fi, gratuitement ou non.        

Pour un usage professionnel requérant davantage de garanties de confidentialité, la clé 3G et plus récemment 4G est une solution (coûteuse) offerte par les opérateurs pour un accès Internet via le réseau Internet mobile.





Les outils de recherche d’information sur la toile




Dans les années 1990, il était d’usage de distinguer deux outils concurrents de recherche sur le web : les moteurs de recherche et les annuaires. Depuis, la puissance des moteurs de recherche, en premier lieu celle du leader Google (91 % des requêtes en France) fait que les annuaires sont en voie de disparition pour les recherches du grand public.

Ainsi, Yahoo qui proposait initialement des recherches dans son arborescence d’annuaires s’affiche désormais comme moteur de recherche.




Marre du monopole de Google ?

Choisissez QWANT, le moteur de recherche français.
Il est suffisant pour la plupart de vos recherches.
 En cas de besoin de plus de résultats, 
vous pourrez toujours utiliser Google.




 

Distinguer les moteurs de recherche des annuaires




Pour pouvoir être proposées comme résultat de recherche, les ressources d’Internet (textes, photos, document audio, vidéo) doivent être indexées et classées.



L’indexation des ressources d’Internet



L’index de ce cours est par exemple une liste de mots sélectionnés pour être des mots-clés des sujets traités, classé par ordre alphabétique et renvoyant aux pages où ils apparaissent (Voir le TD Word Plan - créer un index). Ainsi, l’index permet pour un mot recherché de retrouver tout ce qui est écrit à son sujet.


Les annuaires : une indexation manuelle de sites



Dans un annuaire sur Internet, des documentalistes définissent une arborescence de catégories de classement (par exemple géographique puis activités) et sélectionnent ensuite les sites jugés intéressants. Les résultats ne sont par conséquent ni exhaustifs, ni mis à jour en permanence.



Exemples : http://www.top-annuaire.com/ (généraliste), http://www.sanitaire-social.com/annuaire (spécialisé)








Second Life et les mondes virtuels sur Soir 3 - déc. 2006




Les moteurs de recherche : exploration, indexation et classement par des robots



Lorsqu’on fait une requête sur le site d’un moteur de recherche comme Google (en anglais search engine), on fait une requête sur sa base de données de ressources indexées. Le site affiche alors pour résultats la liste des adresses des ressources comportant le(s) mot(s) de la requête par ordre décroissant de pertinence.

Pour constituer sa base de données le moteur de recherche fait de manière permanente un triple travail d’exploration et d’indexation des ressources du web, ainsi que de classement.



L’exploration (en anglais crawling = qui rampe) et l’indexation (indexing) sont effectuées grâce à des programmes informatiques, des robots d’indexation qui parcourent en permanence les ressources du Web, les analysent et les indexent automatiquement (tel mot renvoie à telle page/ressource de tel site).



Les pages elles-mêmes peuvent ou non être enregistrées dans la base de données. Le lien « en cache »  en marge du résultat lorsqu’il apparaît permet d’accéder à la capture de la page lors du dernier passage du robot.










Les critères de classement (en anglais ranking) des ressources Internet trouvées par ordre de pertinence décroissante par rapport à la requête sont largement tenus secrets pour éviter que les sites ne les instrumentalisent afin d’améliorer leur classement. Google utiliserait une centaine de règles pour classer les pages.



Pour autant, on sait que le classement d’une ressource (pagerank en anglais) est évalué en fonction de certains critères tels que la popularité de la ressource, à savoir que plus une page est pointée par d’autres sites (ils font un lien vers cette page), mieux elle est classée (ainsi une page pointée par trois sites, est mieux classée qu’une page qui est pointée par un seul).



De même, une ressource pourra être jugée plus pertinente par rapport aux mots de la requête et obtenir un meilleur classement si ces mots se trouvent dans des titres et qu’ils sont répétés plusieurs fois dans la ressource.

Attention toutefois à la chasse que fait un moteur comme Google à la pratique du spamdexing (contraction de spam indexing), qui consiste à disséminer des mots clés dans les pages pour améliorer son classement sur ces mots. Google en accepterait au maximum 15 %, au-delà le site court le risque de se retrouver déréférencé ou en fin de classement des pages.






The Matrix 1999

 






Tout site bien conçu a son propre moteur de recherche qui explore et indexe seulement les pages du site et notamment ses archives.






L’efficacité d’un moteur de recherche tel que Google a réduit à néant le besoin d’utiliser pour ses recherches un métamoteur  (en anglais metacrawler) tel que Copernic.

Un métamoteur est un logiciel qui permet d’interroger en même temps plusieurs moteurs de recherche et annuaires pour fournir la réponse la plus exhaustive possible à une requête.





Le Web invisible : le Web non indexé par les moteurs de recherche 




Il faut avoir conscience que les moteurs de recherche ne permettent d’accéder qu’à une petite partie de la toile, la partie émergée de l’iceberg du Web, à savoir les ressources indexées par les moteurs de recherche ou annuaires. Or la plus grande partie du Web ne l’est pas et constitue ce qu’on appelle le Web invisible (ou caché ou encore profond).

Les ressources du Web invisible comprennent, entre autres, les sites Web construits autour d'une base de données interrogeable uniquement par un moteur de recherche interne, les pages interdites aux robots d'indexation, les pages protégées par un mot de passe, les pages écrites dans des formats propriétaires, les intranets...


Le Web profond ne doit pas être confondu avec le Dark Net



Le réseau Tor, un outil d'accès au Dark Net




Décrypter une URL 









L’adresse d’une page Web ou d’un fichier quelconque qui s’affiche dans la fenêtre de votre navigateur est une URL  (en anglais Universal Ressource Labor ou localisateur universel de ressource), traduite en français par  « adresse réticulaire ».







Une URL indique à la fois sur quel ordinateur (serveur) se trouve la ressource et la route à suivre pour l'atteindre.

L'URL spécifie également le protocole Internet approprié sur le réseau TCP/IP, tel que http pour l’affichage de page web ou FTP pour l’envoi de fichiers. 



Exemple de l’url de la page d’accueil d’un site : http://www.educnet.education.fr/





http://
Le protocole d'Internet
www
World Wide Web (on est sur la toile)
educnet.education.fr/
Le nom de domaine (l’identifiant de l’ordinateur hébergeant le site)
.fr
Extension ou suffixe du nom de domaine



Certains incluent le www. dans le nom de domaine.



L’adresse d’une ressource sur ce site : http://www.educnet.education.fr/documentation/guide/sigles.htm



  http://www.educnet.education.fr/
 adresse du site Educnet
  documentation/
 nom d'un dossier du site Educnet
  guide/
 nom d'un sous-dossier
  sigles
 nom du document
  .htm
 page en langage html





URL Shortener(raccourcisseur d'URL)

sur NetPublic





Un nom de domaine (domain name) dans l’adresse d’une ressource du web  est la traduction d'une adresse IP (Internet Protocol) en une suite de caractères plus facile à retenir tels qu'un nom propre, une marque ou une association de mots clés.

En toute rigueur, on distingue les noms de domaine de premier niveau tel que le .fr et les domaines de second niveau comme dans notre exemple educnet.education.fr.

Comme nous l’avons vu, ce sont des serveurs spécialisés, les routeurs qui vont vous permettre d’accéder à la ressource recherchée.

Sur Internet d’autres serveurs spécialisés, des « serveurs de noms de domaine » (en anglais Domain Name Server), après consultation d'une base de données, font correspondre les noms de domaine aux adresses IP (numériques) et inversement : il traduit par exemple microsoft.com en adresse IP de la forme 140.186.81.2.




 Data center de Google à Council Bluffs, dans l'Iowa



Produire du contenu pour le Web




Avant l’avènement des technologies du Web 2.0, pour publier un contenu, on devait créer un site.

 

Créer un site



Créer un site requiert :


  • de penser son architecture, son plan,

  • d’apprendre à utiliser un logiciel d’édition HTML,

  • d’acheter un nom de domaine et de le déposer,


  • de télécharger les fichiers Web sur le serveur qui héberge votre site

  • de mettre en ligne les pages,...



Toute chose qui n’était pas à la portée de n’importe qui et qui demandait pas mal de temps.

Avec l’avènement des technologies du Web 2.0, créer et mettre en ligne un petit site « vitrine » est devenu beaucoup plus simple : des sociétés proposent désormais pour une somme modique des packs permettant de réserver un nom de domaine et de construire facilement un site vitrine hébergé.

PLOUP Expliquer le hasthag sur Arte creative



Tous producteurs de contenus avec les blogs et les réseaux sociaux




Avec les plateformes de blogs, de microblogging (Twitter, Tumblr), de partage de vidéos (Youtube,…) ou de photos (Flickr, Instagram…), ou des deux (Snapchat...) et des réseaux sociaux (Facebook, Viadeo...), publier un texte, une musique, des photos ou une vidéo, ou tout cela en même temps est devenu un jeu d’enfant.


Le tout gratuitement (même s’il existe des formules payantes), interactif (les commentaires), avec un référencement/indexation par les moteurs accéléré et avec une bonne protection par la plateforme contre la cybercriminalité.





 Web par Brian Eno (Nerve Net 1992)



Aucun commentaire:

Enregistrer un commentaire