Préparer et réussir le C2I théorique: Chapitre 5. La collecte d’informations sur Internet

La bibliothèque d'Alexandrie gravure XIXe

Des professeurs du lycée de Los Alamitos (Californie) lisent des tweets écrits à leur propos par des élèves

La masse d’informations pléthoriques disponible sur Internet, leur gratuité majoritaire et la facilité d’y transgresser le droit d’auteur, font que les jeunes générations [le terme « enfants du numérique » (« digital natives ») est utilisé pour les générations née après 1980] ont souvent du mal à concevoir que l’on puisse s’informer, faire une recherche documentaire ailleurs que sur Internet.

Or la plus grande partie de ces informations est produite et diffusée par « n’importe qui » sans intermédiation de spécialistes. Par conséquent, il revient à chacun d’adopter les bons réflexes, tant dans la démarche de collecte que dans l’évaluation des informations fournies par ce media.

Rechercher une information sur un moteur de recherche

Google, astuces de recherche sur NetPublic

Des mots-clés plutôt qu’une requête en langage naturel

Formuler une requête sur un moteur de recherche comme Google est devenu un jeu d’enfant.

S’il est possible de formuler sa demande d’information « en langage naturel », à savoir une phrase interrogative du type « Qu'est-ce qu'une requête en langage naturel ? », dans un souci de rapidité, on la formule plutôt sous la forme d’une suite de mots-clés séparés par un espace : « requête langage naturel », ce qui donnera la même liste de résultats.

L’ordre de mots-clés compte

Le moteur de recherche recherchera puis affichera toutes les ressources classées par ordre de pertinence décroissant comportant ces trois mots « requête », « langage », « naturel » dans le même ordre que celui de la requête, autrement dit comportant le premier terme ET le second ET le troisième, dans l’ordre de la requête.

Le moteur de recherche de la BnF numérisée : Gallica

Une expression exacte entre guillemets

Pour trouver une expression exacte, par exemple pour savoir qui a dit, chanté, écrit, ou simplement avoir le texte dans son intégralité ou le contexte de la phrase, il suffit de mettre cette expression exacte entre guillemets : exemple la formule de Boileau « ce qui se conçoit bien ».

Dans la mesure où ce type de requête est souvent faite, Google pourra vous la proposer avant que vous ayez le temps de fermer les guillemets

Affiner la recherche avec les outils de recherche du moteur

Lorsque la formulation de la requête aboutit à trop de « bruit documentaire », à savoir un trop grand nombre de résultats de faible qualité, il est nécessaire d’affiner les critères de recherche d'abord avec "outils de recherche" en filtrant par exemple les résultats sur les critères mise à jour de "moins d'un an" et uniquement "les pages en français".

Si nécessaire, on peut encore filtrer les résultats en cliquant sur recherche avancée (l’icône d’engrenage sur la droite de l’écran), puis en indiquant le ou les mots ne devant pas se trouver dans les résultats dans la rubrique "aucun des mots suivants". Par exemple ici "Oregon" : on veut les pages comportant Portland mais pas la ville se trouvant dans l'Oregon.

Parmi ces critères de filtrage, certains sont des opérateurs booléens.

Connaître les principaux opérateurs booléens

En algèbre de Boole, une branche des mathématiques, Et, ou, sauf sont appelés opérateurs booléens.

On utilise systématiquement l’opérateur ET lorsqu’on formule une requête par mots-clés, en effet, l’espace entre les mots sous-entend le premier mot ET le deuxième...

En recherche avancée, il est sous-entendu dans la ligne « tous les mots ».

SAUF (« aucun des mots suivants ») est très pratique pour affiner une recherche.

OU (« l’un des mots suivants ») est plutôt de nature à augmenter le « bruit » puisque A OU B dans une requête est inclusif, il signifie que seront retenue comme résultats satisfaisants les ressources comportant A ou B ou les deux (affichage en premier dans les résultats). Cette option est à utiliser lorsque la requête fournit trop peu de résultats.

En théorie des ensembles, le A ET B correspond à l’intersection (qui comporte le mot A et le mot B), le A OU B à l’union (comportant le mot A, le mot B, ou les deux), le A SAUF B correspond à la soustraction (qui comporte le mot A sauf s’il a aussi le mot B).

Enfin la disjonction correspond à une situation où la ressource Internet doit avoir A ou B mais pas les deux.

Barbara Kruger 2008 Belief + Doubt = Sanity (croyance + doute = santé mentale)

Évaluer la qualité des informations trouvées sur la toile

On peut d’un simple clic trouver tout et n’importe quoi sur Internet ou dans sa boite mèl (voir les canulars du chapitre 3), il est par conséquent essentiel d’évaluer la qualité de l’information trouvée.

La vérifiabilité des sources

Par principe, toute source Internet qui n’étaye pas ses affirmations par d’autres sources de qualité et vérifiables (notamment par renvoi via un lien hypertexte vers les sources), est suspecte et doit être rejetée. C’est d’ailleurs un des critères d’acceptation d’un article par l’encyclopédie collaborative Wikipédia[1] qu’elle appelle « la vérifiabilité des sources ».

La neutralité du point de vue

Sur les sujets polémiques, Wikipédia requiert un deuxième critère d’admission d’un article : la neutralité du point de vue, autrement dit, l’auteur doit exposer les points de vue antagonistes et non un seul, ce qui est un parti pris d’opinion.

Comment reconnaître une fausse information sur Internet ? Quels sont les premiers réflexes à adopter ?

Plusieurs éléments concrets et « tout bêtes » sont à vérifier. L'article est-il signé ? Les informations sont-elles datées ? Créditées ? Les sources sont-elles précises ? Les preuves que l'on peut nous montrer dans une vidéo par exemple, a-t-on le temps de les lire ? Qui gère le site qui diffuse cette information ? Il est par exemple facile de savoir à qui l'on a affaire sur un site, en regardant simplement l'onglet « qui sommes-nous ? » ou les mentions légales. Pour avoir une publication ou un site de publication en France, il faut un numéro officiel, une domiciliation en France, des mentions légales, etc. Ainsi, lorsqu'il ne figure pas sur le site des mentions légales et que l'onglet « qui sommes-nous ? » est soit inexistant, soit relatif à la volonté de « faire éclater la vérité par un groupe de citoyens éclairés », on doit se méfier.
Lorsqu'on est face à une photo, il faut faire une recherche de photo en inversé par exemple, dans Google Images : on entre le fichier de la photo et on remonte jusqu'à celui qui l'a posté. Ensuite, on remonte jusqu'à la source, le profil de la source, etc.

Source : Thomas Huchon dans le Point du 5/2/2018

Confiance, prudence ou défiance a priori par types de sources

Bien entendu, la confiance ou défiance a priori qu’il convient d’avoir dans les différentes sources d’information dépendent aussi du type d’informations recherchées, de leur domaine (administratif, juridique, scientifique....)

Confiance a priori dans les informations publiées par :	PRUDENCE voire Défiance dans les informations publiées par :
Les administrations publiques (sauf dans des pays non démocratiques où l’information est contrôlée)	Des inconnus ou des auteurs non identifiables n’étayant pas les informations fournies par des liens vers des sources vérifiables et de qualité, ne respectant pas le principe de neutralité du point de vue (c’est souvent le cas des informations qui circulent via les réseaux sociaux, par messagerie électronique ou sur des forums de discussion)
Les universités, les centres de recherche indépendants (lieux de savoirs)	Les sites personnels (dont les blogs), les informations circulant sur les réseaux sociaux (Facebook, Twitter....), sauf si l’auteur est reconnu de confiance car ayant autorité dans la matière et s’il cite (fait des liens vers) d’autres sources fiables et vérifiables
Les médias de confiance en particulier de presse (sauf dans pays non démocratiques)	Les entreprises car il s’agit le plus souvent de communication – propagande – et non d’information objective (pas de neutralité du point de vue)
	L’encyclopédie collaborative Wikipédia parce que son contenu est rédigé par une multiplicité d’auteurs à l’identité et à la compétence inconnues et que les articles peuvent être modifiés en permanence. Pour autant certains domaines de connaissances sont plus sûrs que d’autres, par exemple, les articles sur l’informatique sont de l’avis d’informaticiens très fiables.

France 2 - Complément d'enquête - "Fake news", rumeurs et média -avril 1917

Des outils de veille informationnelle

Internet permet non seulement de trouver de l’information mais aussi d’être tenu au courant sur une sélection de sujets, autrement dit de faire de la veille informationnelle, grâce à trois outils : les lettres d’information, les alertes mèl et les fils d’actualité.

Les lettres d’information

Une lettre d’information (en anglais newsletter) est un document d'information envoyé de manière périodique par courrier électronique à une liste de diffusion regroupant l'ensemble des personnes qui y sont inscrites[2].

Les alertes par courriel

De même on peut demander sur Google des alertes par courriel sur un sujet donné. Le moteur de recherche envoie alors un courriel chaque fois qu’une nouvelle ressource sur ce sujet a été indexée.

Cet outil sera particulièrement pertinent pour le suivi de son e-réputation, à savoir de pouvoir être alerté chaque fois qu’un contenu nous concernant est indexé par le moteur de recherche, sans avoir à se googler systématiquement.

Les sites d’offres immobilières par exemple offrent un service identique pour un type de bien recherché, à louer ou à acheter.

Les flux RSS ou fils d'actualité

S’abonner à un fil d’actualité (ou flux/fil RSS en anglais Real Simple Syndication) est un autre moyen de se tenir facilement informé des nouveautés sur des sites ou blogs dans les domaines qui nous intéressent.

Au lieu d’afficher l’url du site conduisant à sa page d’accueil, un fil d’actualité affichera la dernière mise à jour du ou des titres de la page d’accueil du site, sous la forme de liens hypertextes (Firefox parle de marque-pages dynamique).

Pour que cela soit possible, le site concerné doit avoir dans sa page d’accueil l’icône orange ci-dessous :

Vous pourrez lire ce fil d’actualité :

dans votre navigateur (menu marque-pages, ou signets ou favoris suivant les navigateurs),
dans votre logiciel de messagerie (par exemple Thunderbird, voir ci-après))
dans un compte créé sur un agrégateur en ligne tel que MyYahoo ou Netvibes, lequel permet d’avoir les fils d’actualités de tous les sites/blogs que vous suivez (vous ne lisez que ceux dont le contenu a changé depuis votre dernière consultation sans avoir à les consulter tous un par un),
ou encore sur votre blog ou sur le « mur » du réseau social sur lequel vous avez créé un compte.

La manière de le rendre actif dépend du lieu choisi pour l’affichage.

Paris par Martin Parr à la MEP

Faire une copie de pages Web

« Enregistrer sous »

Si vous utilisez la fonction « enregistrer sous », vous allez enregistrer :

un fichier html

un dossier comportant tous les autres fichiers de la page, notamment les photos.

Quand vous voudrez relire cette page, il vous faudra ouvrir le fichier html (double clic), lequel appellera pour être lu votre navigateur par défaut.

« Imprimer » au format pdf

Par conséquent, il peut être préférable d’enregistrer la page au format pdf incluant texte et images. Pour cela, faites une « impression » virtuelle au format pdf (fichier-imprimer- nom de l’imprimante : pdfcreator ou dopdf)

Si cette option n’est pas disponible, téléchargez pdfcreator ou dopdf[3].

Si vous êtes équipés d’une version égale ou postérieure à Office 2007, vous pouvez aussi l’enregistrer au format .xps

Utiliser un aspirateur de site web

Signalons l’existence de logiciels « aspirateur de sites web » qui télécharge toutes les données contenues par un site Web pour les sauvegarder sur un support de mémoire local tel que son disque dur, ce qui permet de consulter les pages correspondantes sans être connecté à Internet.

De nombreux sites et plateformes de blogs détectent et interdisent l’aspiration de sites. En dehors du fait que les aspirateurs de sites peuvent consommer abusivement les ressources du serveur web et faussent les statistiques de visite, ces logiciels peuvent contribuer à violer les droits d'auteurs et les droits liés à la propriété intellectuelle[4].

La série TV suédoise Real Humans

[1] Voir le chapitre 6

[2] Voir le chapitre suivant

[3] Voir chapitre 2

[4] Voir le Chapitre 7

Préparer et réussir le C2I théorique

Le C2i est mort, vive le PIX !

jeudi 25 septembre 2014

Chapitre 5. La collecte d’informations sur Internet

Rechercher une information sur un moteur de recherche

Aucun commentaire:

Enregistrer un commentaire