Data center de Google à Council Bluffs, dans l'Iowa
You've got mail - 1998 (bande annonce VO)
Des connaissances minimales sur le fonctionnement d’Internet et des
moteurs de recherche paraissent nécessaires pour exploiter de
manière optimale le potentiel de ce formidable outil.
Le principe de fonctionnement d’Internet et ses services
Définition d’Internet
Le terme d’Internet provient
de la contraction de l’expression Interconnected networks qui signifie « réseaux
interconnectés ».
Ainsi, Internet est un
réseau informatique mondial constitué d'un ensemble de réseaux publics et
privés utilisant un même protocole de communication : TCP/IP (Transmission Control Protocol / Internet Protocol).
Le protocole TCP/IP
Le protocole TCP/IP est la manière dont les ordinateurs
s'échangent de l'information sur Internet.
- Pour sa connexion à Internet, chaque ordinateur se voit attribuer une adresse, l’adresse IP
- L'information (des fichiers) est envoyée de l’adresse d’un ordinateur vers celle d’un autre (par exemple de celle où est hébergé un site, vers celle de l’ordinateur qui a demandé à en voir une page). Cette information est divisée en petits paquets pour son transport et elle est rassemblée à son arrivée (par exemple l’affichage de la page du site).
- Ces petits paquets peuvent emprunter des chemins différents pour arriver à destination. L’acheminement des petits paquets d’une adresse IP à une autre (on parle de routing ou routage) se fait à l’aide de matériels, les routeurs qui les font transiter selon des chemins optimaux en fonction de l’infrastructure de télécommunication utilisable entre les deux ordinateurs et de son encombrement.
En
bleu : des routeurs
La vitesse d’échanges
de données entre deux ordinateurs du réseau dépend de l’état de la bande
passante disponible. La bande passante mesure le débit
d'informations transitant via le réseau en bits par seconde. Meilleure est la
bande passante, plus est rapide l’interconnexion.
Les principaux services d’Internet
Internet propose quatre types de services fondamentaux
:
- de communication : le courrier électronique (email ou courriel), liste de diffusion, forums, messagerie instantanée, téléphone, visioconférence (Skype...) ;
- la recherche d’information sur le World Wide Web (la toile mondiale), communément appelée Web ou parfois toile, à savoir l’ensemble des pages avec liens et contenus multimédia des sites Web ;
- la transmission de vidéos et de contenu audio en direct (ou en streaming), c'est-à-dire à la manière d'un téléviseur ou d'un récepteur radio, ou l'échange de fichiers par FTP (File Transfer Protocol), par exemple lors de téléchargement de vidéos ;
- la production et diffusion de contenu sur la toile : depuis l’avènement du Web 2.0, il a été mis à la disposition des internautes des outils conviviaux permettant à tout un chacun de produire et diffuser du contenu sur la toile, notamment via les plateformes de blogs (weblog, journal sur la toile) puis les réseaux sociaux tel que Facebook.
Naviguer sur la toile grâce aux liens
Avec la banalisation
d’Internet, les termes « surfer » ou
« naviguer » sur Internet sont désormais peu usités, seul demeure le
terme de « navigateur », catégorie de logiciel requis pour consulter
le Web, tel que Firefox (Mozilla), Chrome (Google) ou Safari (Apple).
Naviguer sur la toile
revient à aller, grâce à des liens hypertextes ou hyperliens cliquables, de page en page de documents
rassemblés sur des sites stockés sur
des serveurs.
C’est la mise au point
du langage HTML dès
1991, qui a permis de créer et d’éditer ces pages sur le Web grâce à des logiciels d’édition de pages HTML.
Camille Henrot vidéo Grosse fatigue
Lion d'argent de la 55ème Biennale de Venise
Il Palazzo Enciclopedico (The Encyclopedic Palace) 2013
Se connecter à Internet
Que ce soit avec un
ordinateur (portable ou non, à domicile ou en déplacement), avec un téléphone
intelligent ou une tablette, accéder à Internet requiert :
- un abonnement à un Fournisseur
d’Accès Internet ou F.A.I (en
anglais Internet Service Provider ou I.S.P.)
- un navigateur ou logiciel
de navigation (en anglais browser)
Il est toutefois
possible en certains endroits d’obtenir une connexion gratuite en déplacement
grâce à des bornes Wifi ou « hot spots » gratuits fournis par les pouvoirs
publics (mairie de Paris au parc des Buttes-Chaumont par exemple) ou par des
entreprises (cafés, hôtels...).
Il convient d’avoir une
ligne téléphonique (pour une liaison haut débit Internet, par ADSL) ou une liaison câblée, ou encore
une parabole (pour une liaison par satellite), ainsi qu’une Box (boite) constituée d’un modem-routeur
et d’une borne Wi-fi fournie par le FAI.
L’abonnement peut être
partagé entre plusieurs matériels grâce à la mise en place d’un réseau
domestique Wi-fi, à moins que soit préférée une solution via un réseau
domestique « Courant Porteur en Ligne » (CPL) qui utilise le réseau électrique : un boitier
CPL branché sur une prise électrique étant connecté à la « Box », on
accédera à Internet depuis
tout autre matériel connecté à un boitier CPL branché sur une autre prise
électrique du même réseau électrique.
réseau domestique avec CPL |
Il est possible
d’obtenir une connexion Internet à
proximité d’une borne Wi-fi de son FAI (portables, Smartphones et tablettes
sont équipés de modem wifi), mais aussi à proximité d’un hot spot wi-fi,
gratuitement ou non.
Pour un usage professionnel
requérant davantage de garanties de confidentialité, la clé 3G et plus récemment 4G est une solution (coûteuse) offerte
par les opérateurs pour un accès Internet via le réseau Internet mobile.
Les outils de recherche d’information sur la toile
Dans les années 1990,
il était d’usage de distinguer deux outils concurrents de recherche sur le
web : les moteurs de recherche et les
annuaires. Depuis, la puissance des
moteurs de recherche, en premier lieu celle du leader Google (91 % des requêtes
en France) fait que les annuaires sont en voie de disparition pour les
recherches du grand public.
Ainsi, Yahoo qui proposait
initialement des recherches dans son arborescence d’annuaires s’affiche désormais
comme moteur de recherche.
Marre du monopole de Google ?
Choisissez QWANT, le moteur de recherche français.
Il est suffisant pour la plupart de vos recherches.
En cas de besoin de plus de résultats,
vous pourrez toujours utiliser Google.
vous pourrez toujours utiliser Google.
Distinguer les moteurs de recherche des annuaires
Pour pouvoir être
proposées comme résultat de recherche, les ressources d’Internet (textes,
photos, document audio, vidéo) doivent être indexées et classées.
L’indexation des
ressources d’Internet
L’index de ce cours est par exemple une liste
de mots sélectionnés pour être des mots-clés des sujets traités, classé par
ordre alphabétique et renvoyant aux pages où ils apparaissent (Voir le TD Word Plan - créer un index). Ainsi, l’index permet
pour un mot recherché de retrouver tout ce qui est écrit à son sujet.
Dans un annuaire sur
Internet, des documentalistes définissent une
arborescence de catégories de classement (par exemple géographique puis
activités) et sélectionnent ensuite les sites jugés intéressants. Les résultats
ne sont par conséquent ni exhaustifs, ni mis à jour en permanence.
Exemples : http://www.top-annuaire.com/
(généraliste), http://www.sanitaire-social.com/annuaire
(spécialisé)
Second Life et les mondes virtuels sur Soir 3 - déc. 2006
Lorsqu’on fait une
requête sur le site d’un moteur de recherche comme Google (en anglais search engine), on fait une requête sur sa
base de données de ressources
indexées. Le site affiche alors pour résultats la liste des adresses des ressources
comportant le(s) mot(s) de la requête par ordre décroissant de pertinence.
Pour constituer sa
base de données le moteur de recherche fait de manière permanente un
triple travail d’exploration et d’indexation des
ressources du web, ainsi que de classement.
L’exploration (en anglais crawling = qui rampe) et l’indexation (indexing) sont effectuées grâce à des programmes informatiques, des robots
d’indexation qui parcourent en permanence les ressources du Web, les analysent et les indexent automatiquement (tel mot renvoie à
telle page/ressource de tel site).
Les pages elles-mêmes
peuvent ou non être enregistrées dans la base de données. Le lien « en
cache »
en marge du résultat lorsqu’il apparaît permet d’accéder à la capture de
la page lors du dernier passage du robot.
Les critères de
classement (en anglais ranking) des
ressources Internet trouvées
par ordre de pertinence décroissante par rapport à la requête sont largement
tenus secrets pour éviter que les sites ne les instrumentalisent afin
d’améliorer leur classement. Google utiliserait une centaine de règles pour
classer les pages.
Pour autant, on sait
que le classement d’une ressource (pagerank en
anglais) est évalué en fonction de certains critères tels que la popularité de
la ressource, à savoir que plus une page est pointée par d’autres sites (ils
font un lien vers cette page), mieux elle est classée (ainsi une page pointée
par trois sites, est mieux classée qu’une page qui est pointée par un seul).
De même, une ressource
pourra être jugée plus pertinente par rapport aux mots de la requête et obtenir
un meilleur classement si ces mots se trouvent dans des titres et qu’ils sont
répétés plusieurs fois dans la ressource.
Attention toutefois à la
chasse que fait un moteur comme Google à la pratique du spamdexing (contraction
de spam indexing), qui consiste à disséminer
des mots clés dans les pages pour améliorer son classement sur ces mots. Google
en accepterait au maximum 15 %, au-delà le site court le risque de se retrouver
déréférencé ou en fin de classement des pages.
The Matrix 1999
Les moteurs de recherche de sites
Tout site bien conçu a son propre moteur de recherche qui explore et indexe seulement les pages du
site et notamment ses archives.
L’efficacité d’un moteur de recherche tel que Google a réduit à néant le
besoin d’utiliser pour ses recherches un métamoteur (en
anglais metacrawler) tel que Copernic.
Un métamoteur est un logiciel qui permet d’interroger
en même temps plusieurs moteurs de recherche et
annuaires pour
fournir la réponse la plus exhaustive possible à une requête.
Le Web invisible : le Web non indexé par les moteurs de recherche
Il faut avoir conscience que les moteurs de
recherche ne permettent d’accéder qu’à une petite partie
de la toile, la partie émergée de l’iceberg du Web, à
savoir les ressources indexées par les moteurs de recherche ou annuaires. Or la plus grande partie
du Web ne l’est pas et constitue ce qu’on appelle le Web invisible (ou caché ou
encore profond).
Les ressources du Web invisible comprennent, entre autres, les sites
Web construits autour d'une base de données interrogeable uniquement par un
moteur de recherche interne, les pages interdites aux robots d'indexation, les pages protégées par
un mot de passe, les pages écrites dans des formats propriétaires, les intranets...
Le Web profond ne doit
pas être confondu avec le Dark Net.
Le réseau Tor, un outil d'accès au Dark Net
Décrypter une URL
L’adresse d’une page
Web ou d’un
fichier quelconque qui s’affiche dans la fenêtre de votre navigateur est une
URL (en anglais Universal Ressource Labor
ou localisateur universel de ressource), traduite en français par « adresse réticulaire ».
Une URL indique à la fois sur quel
ordinateur (serveur) se trouve la ressource et la route à suivre pour
l'atteindre.
L'URL spécifie
également le protocole Internet approprié sur le réseau TCP/IP, tel que http
pour l’affichage de page web ou FTP pour l’envoi de fichiers.
Exemple de l’url de la
page d’accueil d’un site : http://www.educnet.education.fr/
http://
|
Le protocole
d'Internet
|
www
|
World Wide Web (on
est sur la toile)
|
educnet.education.fr/
|
Le nom de domaine (l’identifiant de l’ordinateur hébergeant le
site)
|
.fr
|
Extension ou suffixe
du nom de domaine
|
Certains incluent le
www. dans le nom de domaine.
L’adresse d’une
ressource sur ce site : http://www.educnet.education.fr/documentation/guide/sigles.htm
http://www.educnet.education.fr/
|
adresse du
site Educnet
|
documentation/
|
nom d'un
dossier du site Educnet
|
guide/
|
nom d'un
sous-dossier
|
sigles
|
nom du
document
|
.htm
|
page en
langage html
|
Un nom de domaine (domain
name) dans l’adresse d’une ressource du web
est la traduction d'une adresse IP (Internet Protocol) en une suite de caractères plus facile à
retenir tels qu'un nom propre, une marque ou une association de mots clés.
En toute rigueur, on
distingue les noms de domaine de premier niveau tel que le .fr et les domaines de second niveau comme dans notre exemple educnet.education.fr.
Comme nous l’avons vu,
ce sont des serveurs spécialisés, les routeurs qui vont vous permettre
d’accéder à la ressource recherchée.
Sur Internet d’autres
serveurs spécialisés, des « serveurs de noms de domaine » (en anglais Domain Name Server), après consultation
d'une base de données, font correspondre les noms de domaine aux adresses IP
(numériques) et inversement : il traduit par exemple microsoft.com en adresse IP de la
forme 140.186.81.2.
Data center de Google à Council Bluffs, dans l'Iowa
Produire du contenu pour le Web
Avant l’avènement des
technologies du Web 2.0, pour publier un contenu, on devait créer un
site.
Créer un site
Créer un site
requiert :
- de penser son architecture, son plan,
- d’apprendre à utiliser un logiciel d’édition HTML,
- d’acheter un nom de domaine et de le déposer,
- de trouver un hébergeur (et souvent payer pour cela),
- de télécharger les fichiers Web sur le serveur qui héberge votre site
- de mettre en ligne les pages,...
Toute chose qui
n’était pas à la portée de n’importe qui et qui demandait pas mal de temps.
Avec l’avènement des
technologies du Web 2.0, créer et mettre en ligne un petit site
« vitrine » est devenu beaucoup plus simple : des sociétés
proposent désormais pour une somme modique des packs permettant de réserver un
nom de domaine et de construire facilement un site vitrine hébergé.
Tous producteurs de contenus avec les blogs et les réseaux sociaux
Avec les plateformes
de blogs, de microblogging (Twitter, Tumblr), de partage de vidéos (Youtube,…) ou
de photos (Flickr, Instagram…), ou des deux (Snapchat...) et des réseaux sociaux (Facebook, Viadeo...), publier
un texte, une musique, des photos ou une vidéo, ou tout cela en même temps est
devenu un jeu d’enfant.
Le tout gratuitement
(même s’il existe des formules payantes), interactif (les commentaires), avec
un référencement/indexation par les moteurs accéléré et avec une bonne
protection par la plateforme contre la cybercriminalité.
Aucun commentaire:
Enregistrer un commentaire