Contenus et qualité / Contenus

Note : cette page est est travail en cours et toutes les analyses montrées ici sans à un stade préliminaire.

Dans quel panorama de contenus opère Wikimedia ?

En tant qu'encyclopédie en ligne construite par une collaboration massive, Wikipédia prend une approche de média social vers un type de contenu qui est encore avant tout dominé par des médias traditionnels. Par conséquent, afin de comprendre dans quel panorama complet de contenu il opère (de même que d'autres projets Wikimedia), il serait utile de comprendre les paysages médiatiques à la fois traditionnels et sociaux, de même que les intersections entre les deux.

Tom Cross fournit une façon de commencer à penser au sujet de ce paysage hybride quand il établit que « Wikipédia remplit l'intervalle entre les médias d'actualité en temps réel et la lente publication des ressources encyclopédiques qui font autorité, en fournissant un point central de collecte de données au sujet d'un évènement récent et qui soient disponibles immédiatement. » [1]

Une première tentative de conceptualisation de ce paysage hybride pourrait ressembler à ceci. Veuillez noter qu'un petit échantillon d'organisations a été sommairement mis en place pour que soient lancées les conversations sur la façon de différencier les projets Wikimedia de ceux d'autres organisations qui opérent dans ce paysage.

 
WMF : cadre d'activité et d'évaluation des contenus (ébauche).

Quelle est la position actuelle de Wikimedia dans ce panorama de contenus ?

Données sur la taille et la croissance de Wikipédia

Le nombre actuel d'articles disponible pour un échantillon d'éditions linguistiques de Wikipédia peut être trouvé ici : [2]

 
WMF : articles par langue.

La croissance des articles au cours du temps pour ces mêmes Wikipédias peut se trouver ici : [3]

 
WMF : croissance des articles par langue.

En se basant sur le nombre de nouveaux articles par jour, la crossance des contenus de l'édition anglophone de Wikipédia parait avoir ralenti depuis 2007 : [4]

 
WMF : articles anglophones de Wikipédia par jour.

Données sur la couverture et la composition des contenus

Une étude menée par les chercheurs au PARC intitulée (en) Qu’y a-t-il dans Wikipédia : cartographie des sujets et confits utilisant la structure des catégories annotées socialement amène quelques données permettant de traiter la question de savoir se qui est réellement contenu dans les 2,96 millions d'articles de la Wikipédia anglophone. Ils ont trouvé des informations couvrant 22 millions de catégories, qui peuvent être groupées en 11 domaines généraux selon la distribution et la croissance suivantes (2006-2008) :

 
WMF : distribution des sujets traités dans Wikipédia anglophone

La culture et les arts ne sont pas seulement le domaine le plus largement traité, et le double en taille par rapport au plus large domaine suivant, mais il a aussi connu la plus forte croissance depuis 2006.

Est-ce la même chose dans les autres éditions linguistiques de Wikipédia ? Quelle quantité de partage de contenu continue ainsi (p. ex. via les traductions) ?

Les 2,96 millions d'articles de la Wikipédia anglophone, et le fait que les chercheurs du PARC ont trouvé que le contenu peut être classé en 22 millions de catégories, parlent aussi de la profondeur de contenu qu'une collaboration de masse a rendu possible. Les informations comparant la profondeur des contenus de Wikipédia avec ceux d'autres projets encyclopédiques peuvent être trouvés sur l'article (en) comparaisons de taille (sur Wikipédia). Certaines des comparaisons qui semblent les plus pertinentes à Wikipédia anglophone ont été mises à jour chaque fois que possible et peuvent être vues ici :

 
WMF : comparaisons de couverture pour plusieurs projets encyclopédiques

Données sur l'utilisation et l'affinité des contenus

Le nombre de pages visualisées par jour, pour le même groupe de Wikipédias, peut être vu ici : [5]

 
WMF : pages visualisées quotidiennement par langue sur Wikipédia

Le nombre moyen de pages visualisées par article et par jour peut alors être calculé, comme ce qui est fait ci-dessous :

 
WMF : visualisations quotidiennes des articles, selon la langue.

Cependant, un regard plus rapproché sur les 1 000 premières pages de Wikipédia anglophone (selon les visualisations moyennes par jour pour 2009) montre que les pages les plus fréquentes obtiennent une part disproportionnée des pages visualisées, et commence à suggérer ce qui se passe lorsque vous vous déplacez plus bas dans la « queue » des contenus. On peut noter que les 1 000 premières pages reçoivent 5 % des visualisations de pages quotidiennes, alors qu'elle représentent significativement moins de 1 % du total des pages. [6]

 
WMF : pages visualisées dans le top-1000.

Note : les pages « Spécial », « Portail » et « Wikipedia » (p. ex. Page d'accueil, Rechercher, Citation demandée) ont été ôtées de ces calculs afin de se concentrer sur le contenu qui est visualisé. Les redirections évidentes vers d'autres sites (p. ex. YouTube, Facebook, Twitter, et MySpace) ont également été ôtées pour la même raison.

Ce qui suit représente une analyse très approximative, en cours de processus, du nombre moyen de page visualisées par catégorie. Pour cette analyse, les 100 premières pages (par nombre moyen de visualisations quotidiennes) de chaque éditions linguistique de wikipédia ont été assignées à un jeu de catégories hénérales, pour obtenir les résultats suivants :

 
WMF : pages visualisées par domaine général.

Quelqu'un d'autre a-t-il déjà tenté une analyse similaire, pour n'importe quelle édition linguistique de Wikipédia ? Y a-t-il d'autres façons de comparer les utilisations et affinités de contenus au travers les Wikipédias ?

De quelles options dispose Wikimedia pour accroître l'étendue de ses contenus ?

Une liste préliminaire d'options larges inclut :

  • Continuer à augmenter la couverture des contenus et la diversité (au sein ou entre les langues)
  • Renforcer la profondeur des contenus existants
    • Etendre le support pour la recherche sur Wikiversité afin d'inclure la recherche autre que celle liée au contenu
  • Etendre à differents types of contenus (différentes formes de contenus, pour différents utilisateurs)
    • Ouvrir de nouvelles communités où les communautés existantes ont choisi de limiter leur marché, pour capturer d'autres segments de marché. P. ex. la limite de Wikibooks aux livres de texte.

Quelles initiatives pourraient considérer Wikimedia pour supporter cette croissance d'étendue ?

Une liste préliminaire inclut :

  • Les donations de contenus
  • Les partenariats de contenus (p. ex. avec les institutions de contenus ou d'autres encyclopédies en ligne)
  • Fournir des incitations pour que la communauté se concentre sur des efforts de créations de contenus

Quel est l'impact potentiel de ces initiatives de contenus ?

  • Ajouter plus de contenus alors que le nombre de modificateurs fréquents (modifs>100) stagne signifie empirer le ratio articles-par-modificateur-fréquent (le « ratio A/MF »). L'édition en lange anglaise en donne un exemple démonstratif pour les conséquences : si le ratio A/FM dépasse une certaine valeur, la communauté est plus en mesure de garantir la fiabilité du contenu (liberté de vandalisme) ; l'écosystème en ligne passe hors de contrôle, et il devient souvent nécessaire de restreindre davantage les possibilités de modification.
Explications
Le ratio articles-par-fréquent-modificateur ("ratio A/FM") réponds à la question
« Combien d'articles doivent être contrôlés par un seul membre du noyau communautaire ? »
Ratios A/FM récents (mai 2009)
Édition linguistique Articles (taille>200) Fréquents modificateurs (modifs>100) Ratio A/FM (plus faible=meilleur)
en attendu attendu attendu
de 904 000 attendu attendu
sv 300 000 attendu attendu
  • Accroître les segments de marché approchés par le service pourrait avoir l'effet d'accroître les ressources humaines de modificateurs, en capturant des modificateurs non encore attirés par le projet en raison de la pénétration sur leur marché.

En attente de nouvelles données

Données relatives aux contenus eux-mêmes

  • Quantité de contenus par catégorie et sujet/domaine pour d'autres éditions linguistiques de Wikipédia
  • Pages visualisées par cétégorie et par sujet/domaine
  • Données additionelles sur la profondeur et la couverture (pour Wikipédia et d'autres projets Wikimedia)
  • Sources de contenus, et changements au cours du temps

Placement des contenus dans les autres contextes

  • Quelles sont les principales tendances dans les médias traditionnels et sociaux qui ont eu, ou pourraient avoir, un impact (aussi bien positif que négatif) sur Wikimedia et la façon dont il approche le contenu ?
  • Quelles sont les autres options de penser où Wikipédia se positionne dans un paysage de contenus plus large ?
  • Une recherche a-t-elle été menée sur la distribution des sujets/domaines dans d'autres éditions linguistiques de Wikipédia ?
  • Quels sont les domaines où Wikimedia est perçu (ou connu) comme une force pour ses contenus et où y a-t-il le plus de place pour les améliorations ? Comment cela se différencie-t-il entre les différentes langues de Wikipédia ?

Notes

  1. (en) Tom Cross, Puppy smoothies: Improving the reliability of open, collaborative wikis http://outreach.lib.uic.edu/www/issues/issue11_9/cross/index.html
  2. (en) m:List of Wikipedias#All Wikipedias ordered by number of articles (sur Meta)
  3. (en) Wikipedia : Statistiques
  4. (en) Wikipédia : Statistiques
  5. [1]
  6. [2]