top of page
top met

Méthodologie

Antoine Masanet et Jonas Blanc

Données

Pour la réalisation de ce projet, nous avions à notre disposition:

Les photos des pages de recensements de la ville de Lausanne de 1832 à 1898

L’extraction OCR des recensements de la ville de Lausanne de 1832 à 1898 dont nous avons extrait pour chaque foyer, les métiers de ses occupants

Les manuels de taxonomie français pour étudier les anciens termes correspondant à des métiers modernes

 

Erreurs dans l’OCR

Suite à une analyse manuelle des textes extraits par l’OCR pour ces recensements, nous nous sommes rendu compte des très nombreuses erreurs de cette extraction et avons donc choisi de corriger un maximum de ces erreurs.

Voici quelques exemples des erreurs que nous avons pu observer.

agricult au lieu d’agriculteur, bauquier au lieu de banquier,  blanchi ause au lieu de blanchisseuse. Comme nous pouvons le constater, l’OCR commet des erreurs en coupant des mots avant la fin, en confondant des lettres et en ajoutant des caractères inexistants. Nous avons donc utilisé une méthode semi-automatique pour corriger une grande partie de ces erreurs.

 

Nettoyage de l’OCR

Sur l’ensemble des recensements, nous pouvons recenser un total de 66 000 dénominations uniques. Une correction manuelle de toutes ces dénominations prendrait un temps excessivement long. Une analyse plus détaillée nous montre que seulement 4% de ces dénominations uniques apparaissent plus de 5 fois dans l’ensemble des documents. Les 96% de dénominations apparaissant moins de 5 fois ont donc un faible impact sur le reste de l’étude et nous avons décidé de les ignorer. 

 

Nous avons sélectionné les colonnes qui concernent les métiers à savoir chef_vocation / enfants_profession / pensionnaires_condition et l’année du recensement dans lequel l’entrée apparaît. Chaque entrée peut contenir une liste de métiers séparé par « | » (qui ne sont pas présents partout voir l’analyse du biais) si plusieurs personnes sont recensées ou si le chef de famille exerce plusieurs professions. Pour chaque ligne nous regroupons les listes des trois champs cités ci-dessus en une super-liste. Nous comptons le nombre d’occurrence de chaque terme par année. Nous faisons ensuite le choix de garder les 100 termes les plus fréquents pour chacune des 64 années, afin de les nettoyer manuellement. Comme ces termes se répètent sur plusieurs années, cela représente 532 dénominations au total. Ces 532 termes apparaissent dans 407’000 lignes représentant ainsi 63% des données totales. Une liste de métiers corrigés pour l’année 1885 nous a été fournie. Nous l’utilisons pour sélectionner parmi les 532 dénominations lesquelles ne sont pas déjà correctes. Ce qui nous amène à un peu moins de 400 dénominations à corriger manuellement. Finalement, cette correction semi-automatique nous a permis de conserver 63% de la donnée tout en nous assurant qu’elle soit correcte.

 

Il est l’heure de retrousser ses manches et de dépoussiérer son glossaire des métiers du 19e siècle.  Nous écrivons donc un dictionnaire (« terme à corriger » -> « dénomination correcte ») , puis nous appliquons aux données brutes. 

 

En regroupant les métiers corrects de 1885 qui apparaissent dans les top 100 et les métiers corrigés manuellement, nous obtenons 257 dénominations différentes (plusieurs dénominations correspondent au mêmes termes, leur correction explique cette réduction par rapport au 532 termes initiaux). Ce sont l’évolution de ces dénominations que nous allons étudier.

La figure à droite illustre cette correction manuelle:

Catégories, secteur et terme générique

Après analyse de nos données nettoyées manuellement, nous manquons de vue d’ensemble. En effet, dans un souci d’exactitude lors de notre correction manuelle, nous corrigeons au terme le plus proche. Ce qui mène à avoir plusieurs dénominations pour des métiers très similaires / identiques, le problème du masculin / féminin se pose aussi. C’est pourquoi nous attribuons manuellement aux 257 termes: une ou plusieurs catégories (parmi 64), un secteur (primaire, secondaire, tertiaire) ainsi qu’un terme générique (non genré).

Cette classification nous permet de regrouper les métiers similaires sous une même bannière et ainsi d’obtenir une meilleure vue d'ensemble. La figure ci-dessous illustre un de ces échantillons:

Analyse du biais

 

Biais de la donnée

 

Malgré ces efforts de correction des termes, certains biais dans la donnée initiale n’ont pu être corrigés.

Ainsi, en considérant le nombre de métiers recensé chaque année comme un indicateur du nombre d’habitants cette année, nous obtenons le graphe ci-dessous.

Nous pouvons constater une soudaine chute de la population entre 1850 et 1860, ce qui ne correspond pas aux données historiques de l'époque. La figure ci-dessous nous permet d’avoir une vision plus détaillée de cette distribution des métiers.

Nous constatons sur ce graphe que la colonnes coupables est pensionnaires_condition. Après une analyse manuelle des fichiers sources, les fichiers de 1848 à 1858 ne contiennent pas de caractères pipeline “|” pour séparer les multiples métiers de pensionnaires_condition pour multiples pensionnaires dans le même foyer. Notre algorithme ne peut donc pas différencier des métiers différents d’un long métier à nom composé. De plus, nous constatons que les professions des enfants ne sont enregistrées qu’à partir de 1885 et ne peuvent donc pas être utilisées pour étudier l'évolution globale des métiers sur la période 1835-1900. Finalement, en étudiant le nombre de lignes détectées par le mécanisme d’OCR chaque année, nous constatons une chute pour les années 1881-1882 et 1888-1889, que nous n’avons pas su expliquer.

Solutions

Au regard de ces biais, nous avons décidé de ne pas utiliser la colonne enfants_profession car celle-ci apparaît trop tard pour permettre le prendre en compte d'étudier l'évolution des métiers sur le siècle. De plus, nous ferons attention dans nos analyses aux années entre 1850 et 1860 à cause de la variation de pensionnaires_condition.

 

Biais de la correction

Malgré le fait que nous corrigeons les 100 termes les plus fréquents chaque année, nous constatons que le pourcentage d'occurrence de métiers gardée chaque année varie significativement d’une année à l'autre. Nous interprétons cette variation par une variation de la performance de l’OCR elle même explicable par une variation des photos des recensements annuels (illumination, lignes des colonnes):

Efficacité de la correction

 

Pour mesurer l'efficacité de notre correction semi-automatique, nous avons corrigé manuellement 274 termes de l’année 1848 et 248 termes de l'année 1868 en utilisant les photos des recensements de ces années. Nous avons ensuite utilisé cette correction comme référence et mesuré la précision de l’OCR et de notre correction automatique. A partir de ces échantillons, nous estimons que l’OCR retranscrit correctement 72,1% des termes et notre correction automatique permet d’augmenter ce chiffre à 79,8%. Nous estimons donc que notre méthode permet de corriger 28% des erreurs générées par l’OCR.

bottom of page