Les coiffeurs sont des blagueurs

Carte globale

Statistiques et palmarès

D'abord quelques chiffres:

Palmarès d'excellents calembours

Bien qu'il ne soit plus en activité, le salon A Thaon Tifs à Thaon (Calvados) réalise un jeu de mot animalier. D'autres, encore en activité aiment aussi les animaux:

Des phrases et locutions:

Certains tentent des blagues multi-lingues:

Les fans de mathématiques pourront se rendre au choix chez:

Tandis que les littéraires seront plus attirés par:

Les informaticiens ne sont pas en reste avec:

De nombreuses possibilités pour intégrer son nom dans celui de son salon:

Plusieurs salons ont un nom en rapport avec la région:

Ceux-ci semblent pouvoir fournir des services... 'différents':

Ces salons n'hésitent pas à chercher dans les références 'Pop':

Une séléction de noms très originaux:

Certains salons semblent avoir tenté des jeux de mots, pas tout à fait heureux, ou avec le mauvais champs lexical:

En listant les mots utilisés par chaque établissement, trié par ordre d'apparition, et filtré sur le champs lexical de la coiffure a également permis de déterrer quelques perles comme:

Mais le plus drôle de tous reste:

Pour finir, il semble que depuis le début de l'enregistrement des établissements dans la base de l'INSEE, aucun salon de coiffure ne se soit appelé:

Stats par département

Pour l'ensemble du pays, cela donne 6.9% d'enseignes (en activité) avec des blagues.

Informations & Méthodologie

Qu'est-ce donc?

Ce site répertorie les établissements de coiffure (indiqués par le code Nomenclature d'Activité Française 96.02A) dont les noms contiennent 'coif', 'mèche', 'tif', ou encore 'épi', qui sont encore en activité au 1er août 2021, dans le but de détecter des jeux de mots ravissants.

Une recherche supplémentaire de tous les mots utilisés par tous les salons, trié par nombre d'apparence, a permis également d'identifier quelques calembours bien choisis, notamment 'RACINE CARRÉE'.

D'où viennent les données?

La source principale des données est l' INSEE (Institut national de la statistique et des études économiques) qui gère également le répertoire système national d'identification et du répertoire des entreprises et de leurs établissements (SIRENE) comprenant les identifiants système d'identification du répertoire des entreprises (SIREN) des entreprises et SIRET de leurs différents établissements.

La base complète de tous les établissements est disponible ici. Les deux bases utilisées sont StockEtablissement_utf8.zip et StockUniteLegale_utf8.zip. La première base contient l'intégralité des entreprises et établissements. Toutefois certains noms d'établissements n'y apparaissent pas et la deuxième base est nécessaire pour en trouver des informations plus récentes.

Malgré tout ceci, il semble que beaucoup de différences existent entre les bases INSEE et la "réalité" (telle que par exemple Google Maps permet d'explorer). Soit parce que les établissements ont fermé ou changé de nom depuis la date d'export de la base (1er août 2021), soit parce que certaines entreprises déclarées sont domiciliées dans une zone résidentielle, sans réel établissement (par exemple: les coiffeurs à domicile).

Méthodologie

Pour la sélection des noms à blague, parmis les 46000+ établissement de la base INSEE, une première passe consiste à sélectionner ceux dont le nom contiennent une de ces chaînes de caractère: hair, tif, epi, mech, ce qui réduit le compte à ~5700, puis de manuellement filtrer ceux qui contiennent effectivement un jeu de mots (et éliminer les nombreux "Hair Fashion" et autres "Hair Instituts, etc.), ce qui réduit la liste à ~4000. Ce traitement étant manuel, des oublis ont pu être faits sur les calembours les moins évidents... Pour cette étape, le script blague.rb facilite la revue des noms d'établissement.

D'autres mots relatifs à la coiffure sont parfois utilisés pour des calembours, par exemple coiff. Un salon de Seine-Saint-Denis s'appelle par exemple "Coiff'Emoi". Toutefois, un très grand nombre de coiffeurs ont cette chaine de caractère dans leur nom (plus de 21000), dont la plupart ne contiennent aucun jeu de mot particulier, ce qui rendrait un traitement manuel particulièrement fastidieux.

Dans les exemples de noms amusants, si plusieurs établissements ont le même nom, un d'entre eux sera pris au hasard lors de la génération du site.

Reconstruire le jeu de données de ce site

Une fois les bases téléchargées et décompressées, le script sirene.rb permet de construire le fichier coiffeurs.sqlite. Ce script filtre les entrées du fichier /tmp/StockEtablissement_utf8.csv pour en extraire les établissements de coiffure, et d'autres informations concernant leur nom et adresse.Le problème avec cette approche est qu'il est possible que le nom principal ('enseigne1Etablissement' dans la base SIRENE) soit renseigné mais non utilisé par l'établissement. Ce nom est parfois renseigné dans 'denominationUsuelleEtablissement'. À cause de cela, certaines enseignes peuvent manquer dans la base, ou apparaître sous d'autres noms.

Pour obtenir les coordonnées latitude/longitude à partir de l'adresse, il faut ensuite utiliser un service de geocoding. J'utilise ici la librairie Ruby Geocoder qui permet d'accéder à la fois aux API de l'etalab ainsi qu'aux API de Google qui, elles, nécessitent une clé API.

Le script coords.rb permet d'utiliser ces APIs. Lancer d'abord ruby coords.rb pour mettre à jour le plus d'adresse avec l'API etalab, puis (après avoir mis à jour le fichier .api_key avec votre clé API), lancer ruby coords.rb google pour obtenir le coordonnées des adresses qui n'ont pas pu être résolues avec l'etalab.

Pour des soucis de performance, la totalité de la base de données est ensuite exportée au format geojson pour être utilisée par les cartes Leaflets ci-dessus. Le script statify.rb réalise les transformations nécessaires pour construire l'intégralité du site tif.hair dans un répertoire de destination en lançant ruby statify.rb src

Licences

Références

Le sujet a déjà été traité dans divers endroits:

Faites également attention aux fakes!