mercredi 24 décembre 2014

Le bon coin : Making-off #dataleboncoin


C’est à l’issue d’un Data Tuesday, le 1er juillet 2014, alors que les conversations se prolongeaient avec les confrères que Jessica Dubois m’a parlé de ce projet qui lui tenait à coeur : “Scraper le Bon coin”. Échaudé par des précédentes expériences stériles, ma première réponse,  fut : « Ok, mais à condition de trouver une pige pour rentabiliser le travail. »

Elle me contacta une grosse semaine plus tard avec l’heureuse nouvelle : Hexagones.fr était prêt à financer l’investigation datajournalistique. Les tarifs n’étaient pas encore clairs, mais il était acquis que ce ne serait pas un travail gratuit.
Bref..


Je commence donc à mettre en place mon premier script. Les objectifs au départ n'était pas très précis, donc nous avons pris l'option d'avoir une vison d'ensemble pour voir ce qui sortait du lot. La première étape a été de faire un tour du propriétaire. C’est à dire de connaitre les ventes par catégorie et département. Le Bon coin construit ces liens en trois parties :




D’abord il faut parcourir les pages de départements puis de catégories les unes après les autres. À chaque page, récupérer les trois nombres qui nous intéressent.



Je n’ai pas utilisé Outwit Web parce que le logiciel est limité à 100 collectes automatisées en version gratuite. De plus j’ai déjà des scripts en Python qui ont déjà fait leur preuve. Or, pour les 100 départements, il y a 61 catégories. Ce qui donne 6100 lignes et donc bien est bien au delà de la limite gratuite de Outwit Web.

Voici un exemple de Xpath avec le module firebug sous Firefox :



Une fois chaque page chargée, on récupére les nombres d’articles en utilisant la librairie Python lxml et le codage xpath. Pourquoi Lxml ? Parce que cette librairie a été testée  et se place largement devant la librairie Python Beautifulsoup en rapidité d’exécution. Je n’ai pas refait le test, mais la différence parait significative.


Cette première étape nous a permis d’avoir une vue d’ensemble sur les annonces du Bon coin que nous avons pondéré avec la population légale au premier janvier 2014 que nous donne l'INSEE.


À partir de là, les angles que l’on voulait aborder ont décidé de la suite. Ce qui nous intéressait était d’abord les vêtements. Cette catégorie étant plus variée et le nombre des annonces étant plus élevé. Cela nécessitait automatiquement beaucoup, beaucoup plus de collectes automatisées. Si la première étape mettait à peu près deux heures, le deuxième allait être forcément beaucoup plus longue. J’ai essayé de trouver un script qui fasse du multitâche et je l’ai trouvé. En parallèle j’ai également appris l’existence de Docker.

D’une manière assez systématique j’ai fait le choix de la courbe d’apprentissage la plus rapide. Je ne voulais pas m’engager sur des pistes trop hasardeuse. J’ai donc choisi de fonctionner avec Docker pour sa simplicité, ne maitrisant pas le multitasking en Python.

Docker est un système virtuel qui se situe quelque part entre Virtualbox et Github. On fait un script qui automatise la création du système d’exploitation ( les différentes variantes de Linux) jusqu’au script de démarrage, l’installation des packages et la configuration de la machine virtuelle. Sur cette base j’ai pu faire autant de machine virtuelles qu’il était nécessaire. J’avais donc une instance par catégorie qui tournait en permanence.

La fréquence des requêtes.
D’abord il est important de prendre conscience que pour faire du scrapping journalistique, il faut avoir une éthique absolue : ne pas géner le fonctionnement normal du site. Il est relativement aisé de mettre KO un site, ou en tout cas de fausser ses statistiques en exécutant trop de requètes en peu de temps. J’ai donc mis entre chaque requête une temporisation aléatoire entre 0,5 et secondes.

Le blocage de l’IP
Évidemment une adresse IP qui fait des millions de requêtes sur un site est vite repérée par l’administrateur système. Il est aussi détecté par un logiciel du serveur qui permet de bloquer ce qu’on appelle un DDOS ou déni de service. Je m’en suis rendu compte assez vite puisque de temps en temps j’avais une erreur “HTTP 403” qui m’était retournée. J’ai donc utilisé un système de proxy que j’alternais automatiquement toute les dix minutes. Cette rotation des adresses IP qui “scrappait” m’a permis de faire l’essentiel de mes collectes. L’avantage avec Docker c’est que les scripts peuvent fonctionner avec plusieurs proxy differents en même temps chacun dans leur environnement.

Le stockage des données
Alors là, je vais choquer quelques geeks. Je n’ai pas utilisé de base de données MySQL ni de Nosql. Non j’ai utilisé des fichiers. Parce qu’avec des fichiers je pouvais débuguer plus rapidement, je pouvais les concaténer ensemble et le résultat était directement exploitable par un Excel ou un Google fusion. Avec les commandes awk et sed, j’ai pu également manipuler les fichiers assez rapidement même s’il faisait plus de 2 Go. Si je refais ça, je mettrai au point une méthode plus “classieuse”, mais pour la manip pendant laquelle j’apprenais en marchant, j’avais besoin de réduire le nombre de courbes d’apprentissage au minimum. En bref moins il y avait d’outils, plus je maitrisais le processus.

Il s’agissait enfin de faire une enquête classique, nous avions des informations et avec celles-ci nous avons interrogé de nombreux sociologues et géographes qui pouvaient être intéressés par ces données. De temps en temps on tombait sur une valeur particulièrement importante par rapport à d’autres. Parfois notre curseur était le nombre d’offres dans le département du Pas-de-Calais. Car ce département est le plus important utilisateur du bon coin. Dans ces cas là on recherchait la source de ce dépassement. Nous avons fait des choix, éliminer ce qui nous semblait le moins significatif, gardé ce qui faisait sens. Parfois, lorsque cela était nécessaire, nous repassions sur une catégorie.

Pour certains départements qui sortaient du lot, on revenait sur le site pour quelquefois découvrir des utilisateurs hors du commun parce qu’ils vendaient beaucoup de cassette vidéos par exemple.

Voilà probablement que je n’ai pas répondu aux questions mais je suis à votre disposition.

Les articles sont là : 
La France vue par leboncoin 
Leboncoin des pauvres, leboncoin des riches 
Leboncoin au soleil, Leboncoin sous la neige 
Leboncoin des villes, Leboncoin des champs
Michel, serial vendeur de DVD sur Leboncoin

vendredi 6 juin 2014

5 raisons pour lesquels l'@Elysee a eu raison de faire le Vine d'Obama et de Poutine

Pendant le déjeuner au Château de Bénouville, auquel était convié les chefs d'État avant la commémoration du 70 ème anniversaire du débarquement, la rencontre tant attendu entre le Président des États-Unis et le Président russe a finalement eu lieu.



Le contexte en Ukraine a créé une crise entre les deux grande puissances.  Avec comme conséquence diplomatique un double dîner que le président de la République François Hollande a du gérer comme un acrobate.

C'est un coup de maître pour l'Élysée qui gagne ainsi sur de nombreux tableaux.

1)  B. Obama s'est à peine moqué de François Hollande en affirmant dans  l'affaire de l'amende de  la BNP, que dans son ays la Justice est indépendante, «La tradition est peut-être différente dans certains pays.» Cette vidéo montre que l'action des services de communication de la présidence ont plus de pouvoir qu'il ne veut bien le laisser croire.

2) Alors que E. Snowden a révélé l'espionnage tout azimut de la NSA. Une simple caméra qui filme au bon moment semble plus efficace pour la marche des affaires de la planète.

3) On aurait pu penser que les services de l'État ne maitrisait pas la petite politique pleine de cynisme des réseaux sociaux. Ce Vine démontre avec brio, que l'audace et un peu irrévérence peut payer.

4) Ce petit coup de pub va faire l'actualité pendant quelque jours à mon avis. C'est peut-être même un tournant dans la popularité de François Hollande. On peut penser que je donne plus de pouvoir à l'image que de raison. Mais il suffit juste de comparer la moyenne des retweets des Vine de l'Élysée pour voir que celui là sort de l'ordinaire. En effet la maximum atteint est de 112 tweets pour celui de la reine d'Angleterre.  On en est avec celui ci à près de 1200 1800 4400... et je pense qu'on en est qu'au début.



5) Cette vidéo montre le double discours des responsables politiques. La rencontre ne devait pas avoir lieu, et Obama devant les caméras ignorait ostensiblement Vladimir Poutine. Des reporters ont rapporté l'attitude très ferme du président US.

Ce Vine est un exemple superbe de communication politique. Attendons maintenant de voir le résultat..

dimanche 18 mai 2014

L'éloge du consommateur idiot




 
Incroyable article de Cyrille Frank. Je reste pantois devant tant de raccourcis. Il faut dire que je tombe de haut. D'une, de mon “piédestal” d'informaticien autodidacte, je ne considère pas le Geek comme une espèce à part. Tout juste comme un besogneux, capable de comprendre ce qu'il se passe à peu près quand on tape sur une touche de clavier. Deuxièmement, j'ai de l'estime pour ce blog qui explore les solutions techniques aux difficultés du journalisme. En effet, la chute inexorable des ventes commence même à atteindre les magazines et souligne la défiance vis à vis du journaliste presque autant haï que le politicien. Le point de vue que j'ai lu m'a déçu.  Passons en revue les contradictions et amalgames de @cyceron avec l'impossibilité d'être exhaustif.
«les pontes de la Silicon Valley et les vendeurs de pelles ne jurent que par ces innovations incroyables qui vont changer nos vies, ils en sont sûrs. C’est oublier un peu vite les freins socio-culturels. »
On parle de qui, de quel endroit ? Des freins socio-culturels de la Silicon Valley ou de la perception que l'on peut avoir en France d'une élite économique ? Sachant que la structure d'investissement américaine est différente du schéma économique de la métropole ? Le constat du fonctionnement qui a prévalu jusque là est mis en évidence par le dernier rapport du Sénat sur l'économie numérique. Il n'y a pas de confusion c'est bien là-bas, qu'ils veulent changer le monde... En France, tout va très bien merci. (notez l'ironie). Toutefois, il y a des expérimentations que je trouve extraordinaire d'objets connectés ici et , parce que bon, heureusement...


« une presse technologique enthousiaste »
Ah ! Donc la presse, les journalistes se doivent d'être neutres ou passionnés ?  La peste ou le choléra d'une certaine manière. Cette phrase dite avec un certain cynisme implique que l'innovation devrait faire l'objet d'une analyse rigoureuse et prospective afin d'en mesurer l'impact financier et humain. Dommage en effet qu'on ne l'ait pas fait pour le débarquement en Normandie, les essais nucléaires, le canon, l'astronomie (mention spéciale pour cette discipline qui consiste à regarder les étoiles...)

En passant, je préférerais être en révolution démocratique permanente plutôt qu'en révolution technologique permanente, mais au fond on a que ce qu'on mérite.


« Pourtant, régulièrement depuis 15 ans, la Silicon Valley se plante »
Alors, cette phrase est proprement exceptionnelle. D'une, c'est faux parce que la logique d'allier business et R&D a permis à la Californie de devenir une énorme puissance financière. Par ailleurs l'échec à la Silicon Valley n'est pas négatif. Bien au contraire, la valeur que l'on donne à l'échec et à l'exemplarité d'un plantage n'a pas d'équivalent en France. Dans cet espace où se confinent petites start-up naissantes et monstres économiques, échouer est une base pour construire quelque chose de mieux, de plus efficace. Tout perdre puis tout reconstruire est ce qui nourrit l'innovation de la Silicon Valley. Je n'envie pas du tout ce mode de fonctionnement mais la logique «française» qui part du principe qu'un échec doit sonner le glas d'une innovation a démontré sa faiblesse. Il n'y a qu'à voir la capacité de la France à créer des initiatives aussi puissantes que Facebook ou Google. Je pense que là l'histoire donne une leçon qu'il serait sage de recevoir, avant de prôner le statu quo...

« Lorsqu’elle porte au pinacle en 2003 un réseau social en 3D, le fameux “Second Life”. Une plateforme totalement moribonde aujourd’hui pour n’avoir conquis, dès l’origine, qu’une poignée d’ultra-branchés. »

L'association des bimondiens
s'est créé suite à la fermeture du Deuxième Monde
Sur Second Life... comment dire. J'aurais aimé que le « Deuxième Monde » de Canal Plus ait autant de succès, mais parce qu'en France on a peur des échecs, l'expérience a été abandonnée. Le « Deuxième Monde » a été créé avant Second Life. J'imagine qu'ils auraient aimé avoir autant de d'utilisateurs que Second Life. Ces expériences innovantes  ont permis de fonder notamment le principe de commerce virtuel. Ces plateformes permettant d'acheter des boissons, des vêtements, fabriqués par des utilisateurs du réseau. Au delà d'un certain dédain, il faut rappeler que ce business a généré prés de 2,2 milliards de $ en 2009. l'innovation succède aux echecs et permet de créer du savoir et de la compétence. Ces démarches créatrices répondent toujours à un besoin. Elles sont le symptôme d'une société par l'adhésion qu'elles provoquent.

Je vais finir avec la longue traîne... parce que je réalise qu'il faudrait une encyclopédie pour démonter les idées reçues sur un univers. Et ceci n'est qu'un billet d'humeur.
« Elle a tort encore, quand elle annonce une nouvelle ère de diversité culturelle grâce à la “longue traîne”, théorie développée par Chris Anderson, ancien rédacteur en chef du magazine Wired. Hypothèse (hélas invalidée), selon laquelle le numérique permettant une diversification infinie de l’offre (pas de problème de stockage, ni distribution), il favorise la diversité de la consommation culturelle. [..] aujourd’hui comme avant, les mêmes blockbusters tiennent le haut du pavé des ventes de biens culturels (livre, musique etc.)»

 Ce n'est pas la thèse principale de la longue traîne. La globalisation de la consommation  a trouvé avec Internet une réponse efficace. Si dans une grande ville, il y a des quartiers spécialisés sur tel ou tel produit, vu le nombre de clients potentiels le commerçant trouvera des acheteurs. Ce qui rend économiquement viable l'existence d'un magasin de boutons, pour reprendre un des exemples cités dans le livre.

L'étude de Chris Warker était partie du constat du potentiel de vente d'Amazon.  Quelle boutique, quel hypermarché pourrait jamais rivaliser avec le choix proposé par de telles enseignes qui n'ont plus de limite de rayonnages ? Simplement on peut comparer le nombre de références disponibles dans un magasin et le nombre de références disponibles sur Amazon. On peut rétorquer qu'un fan fera l'effort d'aller dans sa boutique préférée pour trouver le CD de son groupe underground, Madame Michu, puisqu'on parle beaucoup d'elle, ne fera pas l'effort par manque de connaissance tout simplement.

Elle en restera au choix proposés. Tout comme monsieur Michu, soit dit au passage... Sur un site internet, la consommation de produits culturels sera différente, puisqu'il y a moins de barrières sociales. La compétence n'est pas jugée, on peut vouloir écouter « Houcine Slaoui », on peut être 1 sur 30 millions à savoir qui c'est.. mais la longue traîne (et Internet) permet de pouvoir l'écouter. Ce n'est donc pas aux artistes indépendants que la longue traîne s'adresse mais à la diversité culturelle et à sa diffusion. Monsieur ou madame Michu achèteront donc bien Oulm Kalsoum, parce que c'est incontournable mais auront aussi la possibilité d'acheter des choses plus exotiques. La consommation de produits de masse n'est pas incompatible avec la diversification culturelle.



Cette diversité de choix permet notamment de remplir le panier moyen d'un site internet alors que ce ne sera pas possible dans une boutique. Un client de perdu. La diversité culturelle ne s'arrête pas à la culture underground, elle a aussi un lien avec l'histoire, un lien avec ce qu'on ne connaît pas. Je dirais même que c'est justement là l'intérêt de la diversité culturelle, la sérendipité qui était l’apanage des scientifiques est désormais accessible à tous. Elle nous permet à tous de sortir de la case où la société, la famille, le groupe d'amis nous a installé.

Bref cet article est un monument dédié aux Trolls. Il me parait donc plus adapté d'en discuter autour d'une bière de manière tout à fait vive et passionnée. 

lundi 14 avril 2014

Bilan de l'opération #EchosLive

Pendant quatre jours du 10 avril au 13 avril, Les Échos ont organisé un recrutement sur Twitter et Facebook. Ce recrutement d'un nouveau genre a eu lieu pendant 4 sessions d'une heure entre 16h et 17 heures. Je me suis également porté candidat. L'objectif était de poster des liens vers des informations qui n'avaient pas été publiées par les Echos.




L'ambition de ce recrutement est de créer une rédaction à destination du téléphone mobile sur le modèle de l'application New York Times Now ! Dans la rédaction du célèbre journal new-yorkais, le 15 personnes ont été recrutées.  Pour Les Echos, il s'agit de six journalistes au final.

Puisqu'il faut classer..
J'ai fait quelques statistiques sur l'activité de Twitter pour avoir une vision d'ensemble de l'opération.
D'abord  la mobilisation des 365* personnes au cours des sessions :


Jérôme Patte
49 tweets
Delphine
34 tweets
Clément FAGES
32 tweets
Audrey Bazanella
22 tweets
Franck Jamet
19 tweets
Mehdi Guiraud
17 tweets
Sébastien
10 tweets
Raphaël Ader
8 tweets
Goetz Etienne
8 tweets
Mathilde Sagaire
7 tweets
Nicolas Mollé
5 tweets

Mais cela me parait injuste, dans la mesure ou d'autres candidats ont malheureusement loupé un jour.


Jérôme Patte
4 sessions 49 tweets
shimikal 3 sessions 40 tweets
Delphine 4 sessions 34 tweets
Clément FAGES 4 sessions 32 tweets
Jean-Marc De Jaeger 3 sessions 24 tweets
Audrey Bazanella 4 sessions 22 tweets
Charles Chevillard 3 sessions 21 tweets
Franck Jamet 4 sessions 19 tweets
Amélie Maurial 3 sessions 18 tweets
Amélie Niard 2 sessions 18 tweets
Mehdi Guiraud 4 sessions 17 tweets

Ouf, au moins je suis dans les deux classements.. Bien loin des plus réguliers et des plus prolixes, toutefois.



Du raccourci dans le fabuleux Internet :
Comme mes camarades ont déjà publié leurs billets de blogs. Je publie celui-ci avec en bonus un classement des domaines utilisés hors raccourcisseur de liens, car ceux-ci ne sont pas tous traités de la même manière par Twitter. En effet bit.ly est interprété mais pas forcément po.st (utilisé par Les Echos), goo.gl, ick.li, ou Fb.me .. Pour ceux qui se posent la question de l'utilisation de ces raccourcisseurs de liens. Il ne servent qu'aux auteurs de tweets. En effet Twitter raccourcit de toute manière les liens avec un «t.co» .. C'est totalement transparent mais les analyses de clics ne sont pas accessibles au commun des mortels. Alors pour ceux qui veulent savoir si leurs liens ont du succès, mais tout en rendant visibles le contenu des articles dans la timeline de Twitter, il vaut mieux utiliser bit.ly

Donc, trêve de suspens voici le classement des sites de sources :


12http://www.theguardian.com/
12http://www.challenges.fr/
12http://www.lepoint.fr/
11http://www.lemonde.fr/
9http://mashable.com/
9http://www.lefigaro.fr/
9http://tempsreel.nouvelobs.com/
8http://www.huffingtonpost.fr/
8http://www.bloomberg.com/
7http://www.bfmtv.com/
7http://www.businessinsider.com/
7http://huff.to/
7http://www.liberation.fr/
6http://www.rtbf.be/
6http://www.leparisien.fr/
6http://www.latribune.fr/
5http://blogs.mediapart.fr/
5http://www.nytimes.com/
5http://www.slate.fr/
5http://news.yahoo.com/
5http://u.afp.com/
5http://www.bbc.com/
5http://frenchweb.fr/
5http://tcrn.ch/
4http://french.ruvr.ru/
4http://www.lequipe.fr/
4http://www.franceinfo.fr/
4http://on.wsj.com/
4http://oua.be/
4http://www.ouest-france.fr/
4http://www.reuters.com/

Pour avoir une idée de la différence entre les raccourcisseurs d'URL et les domaines, Bit.ly et J.mp ont 140 liens...
Voilà en bref. Pour ce qui est de l'analyse de la qualité des liens, le fait que l'on ait vu «monter» une info est laissé à la sagacité des rédacteurs des Echos. En effet, j'avoue que je ne suis pas suffisamment habitué à la lecture des échos pour connaître la ligne éditoriale précise. Ensuite, ce nouveau dispositif a pour objectif de recruter de nouveaux lecteurs mais je ne sais pas lesquels. Je suppose que les articles de E!Online intéressent moins les lecteurs des Echos, mais jusqu'à où peut aller la pêche aux infos ? Franchement je trouve déjà que Mashable est à la limite et pourtant...

Voilà je vous dirai si j'ai été contacté, il me semble toutefois que je suis hors classement. Il est peu probable que les 365 participants soient contactés.
* Oui, je sais. Les Echos indiquent 550 participants. J'ai fait aussi pas mal de ménage. Il est possible que mes macros aient manqué des résultats.