Présentation de Open Lexique et de la base Lexique 3.55
À plusieurs reprises, nous avons évoqué l’intérêt de l’utilisation de la base de données Open Lexique pour construire les listes de mots que vous souhaitez travailler en séance.
Comme l’outil n’est pas forcément évident à prendre en main pour le néophyte, nous vous proposons aujourd’hui de découvrir l’utilisation de cet outil illustrée de quelques exemples pour la pratique clinique des orthophonistes.
Cette présentation ne se veut pas exhaustive de l’ensemble des possibilités offertes par Open Lexique. Nous nous attarderons surtout sur les possibilités de requêtes au sein de la base de données lexicales Lexique 3.55[1] qui permettent d’obtenir des listes de mots en fonction de certains paramètres linguistiques ou propriétés dans la base de données.
Lors que vous arrivez sur la page du moteur de recherche Open Lexique, vous pouvez effectuer une recherche :
- de co-occurrences dans les corpus
- par mots (pour connaître les différentes propriétés du mot)
- par propriétés (pour trouver les mots répondant à certaines propriétés)
Dans notre cas, cela va être surtout la recherche par propriétés qui va nous intéresser.
Notamment la recherche dans la base Lexique 3.55. Comme vous pouvez le voir en bas à droite, vous pouvez sélectionner le nombre de champs pour formuler vos requêtes par propriété au sein de la base de données. Quatre champs sont généralement suffisants, mais si vous souhaitez effectuer plus de 4 requêtes croisées, vous pouvez modifier le nombre de champs de requête à cet endroit de la page.
Une fois que vous avez sélectionné la base de données Lexique 3.55 et que vous cliquez sur Recherche, vous arrivez sur la page suivante :
Pour pouvoir effectuer une recherche, il va vous falloir sélectionner une ou plusieurs requêtes en fonction des propriétés que vous avez sélectionnées. C’est pourquoi il convient de connaître les propriétés contenues dans la Lexique 3.55 et la formule des requêtes correspondantes :
- la forme orthographique du mot (ortho) – requête : lexique3.ortho
- la forme phonologique du mot (phon) – requête : lexique3.phon
- le lemme du mot (lemme) – requête : lexique3.lemme
- la catégorie grammaticale du mot (cgram) – requête : lexique3.cgram
- le genre (genre) – requête : lexique3.genre
- le nombre (nombre) – requête : lexique3.nombre
- la fréquence du lemme selon le corpus de sous-titres, par million d’occurrences (freqlemfilms) – requête : lexique3.freqlemfilms
- la fréquence du lemme selon le corpus de livres, par million d’occurrences (freqlemlivres) – requête : lexique3.freqlemlivres
- la fréquence du mot selon le corpus de sous-titres, par million d’occurrences (freqfilms) – requête : lexique3.freqfilms
- la fréquence du mot selon le corpus de livres, par million d’occurrences (freqlivres) – requête : lexique3.freqlivres
- les modes, temps et personnes possibles pour les verbes (infover) – requête : lexique3.infover
- le nombre d’homographes (nbhomogr) – requête : lexique3.nbhomogr
- le nombre d’homophones (nbhomoph) – requête : lexique3.nbhomoph
- le fait que le mot soit un lemme ou pas (islem) – requête : lexique3.islem
- le nombre de lettres (nblettres) – requête : lexique3.nblettres
- le nombre de phonèmes (nbphons) – requête : lexique3.nbphons
- la structure orthographique en consonnes et voyelles (cvcv) – requête : lexique3.cvcv
- la structure phonologique en consonnes et voyelles (p_cvcv) – requête : lexique3.p_cvcv
- le nombre de voisins orthographiques (voisorth) – requête : lexique3.voisorth
- le nombre de voisins phonologiques (voisphon) – requête : lexique3.voisphon
- le point d’unicité orthographique (puorth) – requête : lexique3.puorth
- le point d’unicité phonologique (puphon) – requête : lexique3.puphon
- la forme phonologique syllabée (syll) – requête : lexique3.syll
- le nombre de syllabes (nbsyll) – requête : lexique3.nbsyll
- la structure phonologique syllabée (cv_cv) – requête : lexique3.cv_cv
- la forme orthographique inversée (orthrenv) – requête : lexique3.orthrenv
- la forme phonologique inversée (phonrenv) – requête : lexique3.phonrenv
- la forme orthographique syllabée (orthosyll) – requête : lexique3.orthosyll
Pour faciliter la prise en main de la recherche dans la base de données lexicales, nous vous invitons à consulter les codes utilisés pour la transcription phonétique et pour les classes grammaticales.
Intérêts en orthophonie
Les possibilités offertes par cette base de données lexicales libre sont très nombreuses, tant pour le chercheur que pour le clinicien. Nous ne les détaillerons pas, car pour le moment, nous n’avons exploré qu’une infime partie des champs ouverts par l’utilisation de cet outil. Néanmoins, nous tenions à vous présenter quelques usages de cette base.
Exemple de recherche simple
Imaginons que dans le cadre d’une séance, vous souhaitez travailler avec des mots dont les propriétés seraient :
- de commencer par les lettres CRA
- d’être des noms
- d’être relativement fréquents (supérieur à 3 millions d’occurrences) dans le langage oral (corpus sous-titres de film) au niveau du lemme
Pour y parvenir, vous devez sélectionner :
- dans le premier menu déroulant destiné aux requêtes, la requête lexique3.ortho (elle est toujours proposée par défaut) en précisant dans le champ à droite le code :
cra*
- dans le deuxième menu déroulant, la requête lexique3.cgram en précisant dans le champ à droite le code :
NOM
- dans le troisième menu déroulant, la requête lexique3.freqlemfilms en précisant dans le champ à droit le code :
>3
Une fois que vous avez entré vos requêtes, vous pouvez cliquer sur Rechercher et découvrir ainsi les résultats de votre recherche.
En cliquant sur l’image, vous pourrez accéder directement à la page des résultats et observer les différentes propriétés des mots de la liste.
Autres exemples
Dans le cadre de notre pratique, nous avons utilisé Open Lexique pour obtenir des listes de mots et concevoir des jeux sur certaines graphies, des entraînements de mémorisation de l’orthographe lexicale, des exercices de lectures flash en faisant varier le nombre de voisins orthographiques des mots présentés, etc.
Nous avons également eu connaissance d’une collègue qui a utilisé Open Lexique pour constituer sa base de mots dans le cadre de la progression et de la méthode d’entraînement métaphonologique proposé par Emmanuelle Métral.
Utiliser Open Lexique pour Frilexie (FriLogos)
Sauvegarde de la liste de mots sous Open Lexique
Dans la conception initiale du logiciel Frilexie, nous souhaitions intégrer la possibilité d’effectuer des requêtes dans la base de données lexicales Lexique 3.55 pour faciliter la sélection de liste de mots dans le cadre d’un entraînement des stratégies d’identification du mot écrit. À ce jour, l’intégration de la base de données n’a pas encore été effectuée au sein de Frilexie, mais il est quand même aisé d’exporter les listes de mots générées par Open Lexique pour les utiliser avec Frilexie.
Pour ce faire, une fois que vous avez entré vos requêtes dans les champs destinés à cet effet, sélectionnez dans le premier menu déroulant du cadre Afficher les champs le champs des mots qui répondent à vos critères. Pour l’utilisation avec Frilexie, ce sera notamment le champs lexique3.ortho.
Cliquez ensuite sur Rechercher et vous arrivez sur la page des résultats.
Ensuite, en appuyant sur le bouton « Clic droit » de votre souris, ou allant dans le menu Fichier de votre navigateur internet, vous pouvez sélectionner Enregistrer sous.
N’oubliez pas de sélectionner dans les options de format d’enregistrement (au-dessus du bouton Enregistrer) Fichiers texte (*.txt). Sinon vous risquez d’enregistrer la page au format html.
Attention : Pour pouvoir être lu par Frilexie, le fichier doit comporter l’extension .words à la place de .txt. Précisez l’extension .words lorsque vous entrez le nom de votre fichier lors de son enregistrement.
Vous pouvez ensuite éditer le fichier avec un simple logiciel Éditeur de texte (Bloc-note sous Windows ou Gedit sous Ubuntu) et effacer les premières lignes de texte du fichier qui présentent le nombre de mots trouvés pour le résultat de vos requêtes.
Importation de la liste de mots sous Frilexie
Pour utiliser la liste de mots avec le module Frilexie du logiciel FriLogos (téléchargement – présentation), il vous suffit, lorsque vous êtes sur le panneau de configuration du module Frilexie, de cliquer sur le bouton Fichiers de mots… et de sélectionner votre fichier avec l’extension .words dans le répertoire de votre disque dur où vous l’avez enregistré.
[1] New B., Pallier C., Ferrand L., Matos R. (2001) Une base de données lexicales du français contemporain sur internet : LEXIQUE, L’Année Psychologique, 101, 447-462, http://www.lexique.org
Merci
annie
Bonjour, vous pouvez également utiliser les outils Unix pour exploiter la base de donnée Lexique3.txt :
http://www.lingunix.org
Ce site vous donne quelques exemples de scripts permettant de manipuler les données de cette base ou même d’un texte.
Cordialement
Viv
Merci beaucoup de nous simplifier l’exploration et l’utilisation d’outils formidables!
Merci Rémi pour ce tutoriel !
C’est vraiment extra comme outil!
[…] invariables, comme ceux que nous vous proposons en exemple. Vous pouvez également recourir à la base lexicale Open Lexique pour effectuer des recherches de mots en fonction de certaines propriétés linguistiques du mot […]
[…] invariables, comme ceux que nous vous proposons en exemple. Vous pouvez également recourir à la base lexicale Open Lexique pour effectuer des recherches de mots en fonction de certaines propriétés linguistiques du mot […]