Les coiffeurs sont des blagueurs

Carte globale

Statistiques et palmarès

D'abord quelques chiffres:

Palmarès d'excellents calembours

Une liste de blagues à caractère animalier:

Des phrases et locutions:

Certains tentent des blagues multi-lingues:

Les fans de mathématiques pourront se rendre au choix chez:

Tandis que les littéraires seront plus attirés par:

Les informaticiens ne sont pas en reste avec:

De nombreuses possibilités pour intégrer son nom dans celui de son salon:

Plusieurs salons ont un nom en rapport avec la région:

Ceux-ci semblent pouvoir fournir des services... 'différents':

Ces salons n'hésitent pas à chercher dans les références 'Pop':

Une séléction de noms très originaux:

Certains salons semblent avoir tenté des jeux de mots, pas tout à fait heureux, ou avec le mauvais champs lexical:

En listant les mots utilisés par chaque établissement, trié par ordre d'apparition, et filtré sur le champs lexical de la coiffure a également permis de déterrer quelques perles comme:

Mais le plus drôle de tous reste:

Pour finir, il semble que depuis le début de l'enregistrement des établissements dans la base de l'INSEE, aucun salon de coiffure ne se soit appelé:

Stats par département

Pour l'ensemble du pays, cela donne environ 6.54% d'enseignes (en activité) avec des blagues.

Informations & Méthodologie

Qu'est-ce donc?

Ce site répertorie les établissements de coiffure (indiqués par le code Nomenclature d'Activité Française 96.02A) dont les noms contiennent, par exemple: 'coif', 'mèche', 'tif', ou encore 'épi', etc. qui sont encore en activité à la date de dernière mise à jour, dans le but de détecter des jeux de mots ravissants.

Une recherche supplémentaire de tous les mots utilisés par tous les salons, trié par nombre d'apparence, a permis également d'identifier quelques calembours bien choisis, notamment 'RACINE CARRÉE'.

D'où viennent les données?

La source principale des données est l' INSEE (Institut national de la statistique et des études économiques) qui gère également le répertoire système national d'identification et du répertoire des entreprises et de leurs établissements (SIRENE) comprenant les identifiants système d'identification du répertoire des entreprises (SIREN) des entreprises et SIRET de leurs différents établissements. Cette base contient les informations concernant la France métropolitaine + DROM (mais pas les Collectivités d'outre-mer, comme la Nouvelle-Calédonie.

La base complète de tous les établissements est disponible ici. Les deux bases utilisées sont StockEtablissement_utf8.zip et StockUniteLegale_utf8.zip. La première base contient l'intégralité des entreprises et établissements. Toutefois certains noms d'établissements n'y apparaissent pas et la deuxième base est nécessaire pour en trouver des informations plus récentes.

Malgré tout ceci, il semble que beaucoup de différences existent entre les bases INSEE et la "réalité" (telle que par exemple Google Maps permet d'explorer). Soit parce que les établissements ont fermé ou changé de nom depuis la date d'export de la base utilisée pour les résultats affichés, soit parce que certaines entreprises déclarées sont domiciliées dans une zone résidentielle, sans réel établissement (par exemple: les coiffeurs à domicile). Il me semble également que rien n'oblige un établissement de s'être enregistré auprès des services gouvernementaux avec un nom très basique, mais d'avoir ensuite eu une idée génialement drôle lors de la commande de l'enseigne physique à afficher au dessus de la porte d'entrée du salon.

Un autre problème avec la source de données est que toutes les chaînes de caractère sont en majuscule et ignorent les accents et autres caractères non ASCII. De plus, il est possible aux gérants des salons de s'inscrire sur une liste qui limite la diffusion de leurs information dans les bases publiques.

Méthodologie

Je n'ai cherché à sélectionner que les noms "contenant des blagues" en rapport avec le champs lexical de la coiffure. Par exemple, L'ART D'ETRE SOI M'AIME ne sera pas dans la liste. Je n'inscrit généralement pas non plus ce que j'appelle des "Orthographes Innovantes". Comme par example SALON DE KWAFURE, ou autres rajouts excessifs d'apostrophes dans des mots.

Pour la sélection des noms à blague, parmis les ~95000 établissements que la base INSEE indique comme étant en activité, une première passe consiste à sélectionner ceux dont le nom contient une de ces chaînes de caractère: hair, tif, epi, mech, etc. ce qui réduit le compte à ~10000, puis de manuellement filtrer ceux qui contiennent effectivement un jeu de mots (et éliminer les nombreux "Hair Fashion" et autres "Hair Instituts", etc.), ce qui réduit la liste à ~6000. Ce traitement étant manuel, des oublis ont pu être faits sur les calembours les moins évidents... Pour cette étape, le script blague.rb facilite la revue des noms d'établissement. Il n'y a pas à ma connaissance de moyen automatique, et fiable, de détecter un jeu de mot dans un nom d'enseigne de coiffure! Donc il est nécessaire de passer en revue, manuellement, TOUS les noms d'enseignes, plus de 100000! (certains etablissements en ont effectivement plusieurs d'enregistrés).

D'autres mots relatifs à la coiffure sont parfois utilisés pour des calembours, par exemple coiff. Un salon de Seine-Saint-Denis s'appelle par exemple "Coiff'Emoi". Toutefois, un très grand nombre de coiffeurs ont cette chaine de caractère dans leur nom (plus de 21000), dont la plupart ne contiennent aucun jeu de mot particulier, ce qui rendrait un traitement manuel particulièrement fastidieux.

Dans les exemples de noms amusants, si plusieurs établissements ont le même nom, un d'entre eux sera pris au hasard lors de la génération du site.

Reconstruire le jeu de données de ce site

Une fois les bases téléchargées et décompressées, le script sirene.rb permet de construire le fichier coiffeurs.sqlite. Ce script filtre les entrées du fichier /tmp/StockEtablissement_utf8.csv pour en extraire les établissements de coiffure, et d'autres informations concernant leur nom et adresse.Le problème avec cette approche est qu'il est possible que le nom principal ('enseigne1Etablissement' dans la base SIRENE) soit renseigné mais non utilisé par l'établissement. Ce nom est parfois renseigné dans 'denominationUsuelleEtablissement'. À cause de cela, certaines enseignes peuvent manquer dans la base, ou apparaître sous d'autres noms.

Pour obtenir les coordonnées latitude/longitude à partir de l'adresse, il faut ensuite utiliser un service de geocoding. J'utilise ici la librairie Ruby Geocoder qui permet d'accéder à la fois aux API de l'etalab ainsi qu'aux API de Google qui, elles, nécessitent une clé API.

Le script coords.rb permet d'utiliser ces APIs. Lancer d'abord ruby coords.rb pour mettre à jour le plus d'adresse avec l'API etalab, puis (après avoir mis à jour le fichier .api_key avec votre clé API), lancer ruby coords.rb .api_key pour obtenir le coordonnées des adresses qui n'ont pas pu être résolues avec l'etalab.

Pour des soucis de performance, la totalité de la base de données est ensuite exportée au format geojson pour être utilisée par les cartes Leaflets ci-dessus. Le script statify.rb réalise les transformations nécessaires pour construire l'intégralité du site tif.hair dans un répertoire de destination en lançant ruby statify.rb src

Contact

Contactez l'équipe du site par DM sur Twitter, via une Issue sur Github.ou par email sur contact@, mais il y a de grandes chances que mes réponses tombent dans vos spams. Je ne contacterai personne par téléphone, ni par visio conférence, je préfère les moyens de communication asynchrones et par texte.

Licences & références

Références

Le sujet a déjà été traité dans divers endroits:

Faites également attention aux fakes!

D'autres entités (non enregistrées à l'INSEE) s'en mêlent!

Les jeux de mots dans les enseignes semble être une pratique commune dans plusieurs pays, selon quelques commentaires Reddit:

Ce site a amusé certaines rédactions

Journal des changements

Questions fréquemment posées