Explosion des données : enjeux et difficultés
16.03.08 - 01:37
IDC vient de sortir son étude sur l’univers numérique, l’occasion pour nous de faire une très petite synthèse sur l’explosion des donnés numériques et sur l’intérêt de disposer d’outils d’accès et de recherche d’informations performants.
Le volume des données, des informations explose depuis quelques années. Tous les supports sont touchés (papier, radio, Web, etc.), même si ce sont les données numériques qui ont connu la plus forte croissance : en 2006, ce sont 161 milliards de gigaoctets d’informations numériques qui auraient été créées et copiées, d’après une étude du cabinet IDC, pour EMC. D’après celle de mars 2008, en 2007, ce chiffre a été évalué à 281 milliards de gigaoctets, soit 10 % de plus que ce qui avait été annoncé. L’étude souligne également que la croissance de ces données est plus rapide qu’on ne le prévoyait. Dernier chiffre : en 2011, “the digital universe will be 10 times the size it was in 2006.” (figure ci-dessous).

Cette explosion des données est très étroitement liée au rôle de plus en plus important des internautes dans la création de contenu. Une étude, qui date de 2000 et réalisée par des chercheurs de l’Université de Californie (Berkeley), avait donné lieu à deux conclusions surprenantes : la première était qu’au cours de l’année 2003, “l’humanité produirait plus d’informations originales qu’elle n’en avait créé depuis le début de son histoire” et la seconde que “les gros créateurs d’informations numériques n’étaient pas – et ne seraient pas dans les années à venir – les entreprises, mais le commun des mortels, chacun de nous, à titre privé”.
Enjeux et difficultés… Face à cette masse croissante de données, les entreprises doivent s’organiser. Parallèlement à la problématique de l’archivage, du stockage (quoi garder ?, combien de temps ?, disposons-nous d’espace suffisant ?, etc.), ce volume de données pose deux questions principales :
- la première question concerne les limites cognitives des êtres humains : l’être humain se trouve en face d’une impossibilité de traiter autant d’information. Les limites cognitives sont là, existent ;
- la seconde question relève de l’accès à l’information : comment trouver la bonne information au bon moment et rapidement ?
Vous pouvez télécharger l’étude sur le site de l’IDC : http://www.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf



Loin du buzz qui accompagne les outils 2.0, certains travaillent sur des technos moins sexy mais très efficaces pour résoudre le problème du traitement de masses de données sans ces plus importantes.
Chez Ekoz Technologies par exemple : http://www.ekoz-technology.com/blog/
Ne nous affolons pas. Le volume des données est sans intérêt pour quelques raisons
1) le volume dépend moins du sens que du codage. Un texte de 20ko represente bcp plus que 5 Mo que represente une chanson, plus encore que les 30Mo du clip. L’accumulation des données est d’abord un probleme informatique, un pb de codage
2) Que nous générions en quelques mois la quantités d’information qu’on a généré dans toute l’humanité ne fait pas bouger d’un poil la question de la connaissance? 1000 tera octect ne valent pas le mythe de la caverne, platon peut dormir tranquille.
3) Voudrions exploiter l’immensité de ces données pour construire de la connaissance, nous en serons incapable, les promesses du datamining ont depuis longtemps abandonnés leurs espoirs, ceux qui s’excercent à ces techniques, savent qu’elles ne prédisent rien, et construisent encore moins de connaissances.
4) l’industrie de l’information est comme l’industrie pétrolière. Elle produit mais ne construit pas de sens, elle permet au monde de regarder en masse TF1 mais ne contribue pas a l’intelligence
5) il faudra multiplier encore par un millions la masse des information pour accrître de 1% la connaissance du monde, ce 1% dépend peu de la masse des bit, il dépend de la théorie. Celle-ci peut se résumer à quelques octet.