Présentation

  • : Avoir le pouvoir de pouvoir avoir le pouvoir !
  • : # CADRE : Master 1 PluriTAL (Paris 3, Paris 10, Inalco) - Projet encadré # MECENES : Rachid BELMOUHOUB, Jean-Michel DAUBE, Serge FLEURY # TOILE SUPPORT : page web # PEINTURE : web multilingue # PINCEAUX : scripts bash # THEME : extraction de contextes multilingues du mot "pouvoir"
  • Contact
  • Retour à la page d'accueil

Recherche

Vendredi 4 décembre 2009 5 04 /12 /Déc /2009 16:41

 

Salut !

 

 

On avance... et on poste un nouveau script. Les objectifs :

 

I - aspiration des pages web pour les enregistrer en local (wget)

II - sélection du contenu texte uniquement de ces pages, stockage en local (lynx)

III - sélection d'un contexte (unité = ligne) environnant un motif choisi (egrep)

 

Ca c'est pour les nouvelles commandes.

 

Au niveau du tableau html : création de 3 colonnes dont le contenu pointe vers le résultat respectif de ces 3 commandes.

 

Au niveau de l'organisation du stockage en local du résultat de ces commandes, on a, sur exactement le même niveau (= en chemin relatif, il suffit de remonter d'un cran pour redescendre dans le dossier désiré) :

 

/URLS / LANGUE / SENS / urls.txt

 

/ PROGRAMMES / script.sh + run.txt + un petit fichier erreur.txt mais ça c'est vraiment du luxe. En fait, comme on commence à avoir des commandes qui accumulent leur travail les unes après les autres, lorsqu'on a une erreur, on ne sait pas toujours où chercher. Du coup, on a fait une redirection des erreurs grâce à ça : 2>erreur.txt (qu'on écrit à la fin de la ligne qui lance le script ; on a donc dans cygwin : sh script.sh<run.txt 2>erreur.txt)

Avantage : le fichier est écrasé à chaque commande, donc il suffit de l'ouvrir dans Notepad++ (qui nous avertit à chaque fois que le contenu a changé) et de regarder au plus près quelle commande a fait quelle erreur. Ensuite on peut lire dans le manuel (rappel : man + nom de la commande, touche Q pour quitter) pour voir un peu quelles options existent, et quels arguments sont requis. C'est juste un petit peu plus clair que dans l'écran de commande de cygwin, mais pas du tout indispensable.

 

/ CONTEXTES / LANGUE / SENS / contexte.txt + général.txt où on concatène tous les fichiers contexte.txt

 

/ DUMP / LANGUE / SENS / dump.txt + général.txt

 

 

Pour le déroulement dans le détail :

 


I. Commande wget : enregistrement d'une page web en local

 

Il s'agit d'aspirer le contenu des différentes URLs, de l'enregistrer dans un .txt pour chacune d'entre elles,

puis de créer les liens vers ces copies dans la 2ème colonne du tableau.

Pour cela, nous avons utilisé la commande wget avec l'option -O.

Mais comme nous voulions avoir un dossier pour chaque sens à l'intérieur de "PAGES-ASPIREES",

il nous a fallut ajouter deux compteurs:  i+=1 pour chaque fichier .txt, et j+=1 pour chaque sens et des "mkdir" pour créer ces dossiers.

(nous avons fait de même pour les dossiers "DUMP" et "CONTEXTES") 

 

commande mkdir avec option -p :

 

Vous verrez sur le script une option à la commande mkdir qui est -p ("p" pour parent). Nous avons voulu créer en une seule commande un dossier par langue, à l'intérieur duquel nous voulions un dossier par sens. Soit 2 dossiers, l'un dans l'autre. Or la commande mkdir toute seule ne crée qu'une couche dans l'architecture, un seul niveau de dossier à la fois, impossible de faire un dossier dans l'autre, d'où le rajout de l'option -p. Le manuel précise que si l'un des dossiers existe déjà, il n'y aura pas d'erreur (en revanche je ne sais pas si la commande écraserait le dossier déjà existant...à tester pour confirmer)

 

II. Commande Lynx : aspiration d'un contenu texte

 

Puis, à l'aide de la commande lynx, nous avons aspiré et inscrit le contenu textuel de chaque URLs dans

des fichiers textes que nous avons sauvegardé localement et nous avons rajouté une 3ème colonne au tableau

contenant les liens qui mènent à ces derniers.

 

III. Commande egrep : retenir les lignes contenant un motif choisi

 

Ensuite, l'objectif était de faire rechercher un motif. On aurait pu faire une commande

echo "Quel est le motif recherché ?"

en début de script pour créer de l'interaction avec l'utilisateur. Mais parce que nos scripts ne sont jamais parfaits du premier coup, et qu'il faut les relancer parfois dix fois de suite...on a préféré inclure le motif dans le run qui passe en redirection d'input (chevron ouvrant) directement afin de ne pas avoir à retaper le motif dans cygwin à chaque fois.

On a donc inclu le motif [pouvoir] à la 3e ligne du run1.txt.

 

 

 

 

Une option possible de la commande egrep est de chercher un contexte un peu plus large que la seule ligne dans laquelle il apparait. Ce contexte peut être plus ou moins large suivant les paramètres appliqués à la commande egrep, en l'occurrence on a demandé 2 lignes au dessus, 2 lignes en dessous : c'est ce qu'on voit après les options A (After) et B (Before) de la commande egrep.

Chaque .txt contenant le résultat de la commande a été linké dans la 4ème colonne du tableau.(oui ça y est on invente de nouveaux mots, "linké", magnifique non ?)


commande cat avec redirection STDout : concaténation des fichiers .txt en un seul

 


Enfin, pour préparer le travail avec les nuages de mots, nous avons concaténé le contenu de tous les contextes.txt par langue dans un autre fichier, un nuage.txt

La question est : est-il préférable de faire un nuage par sens, ou nuage par langue ?

 

On a concaténé de la même manière les fichiers résultant de la commande DUMP.

 

 

Voici une capture du script des nouvelles commandes (wget, lynx, egrep + cat et mkdir)

 

Commentaire du 7/12/2009 :

Finalement on a modifié l'allure du script : tous les mkdir -p se font en une seule ligne de commande, séparés par un espace :

 

mkdir -p ../PAGES-ASPIREES/$dossier/sens$j/ ../CONTEXTES/$dossier/sens$j/;

 

 

 

Et voici notre tableau :

 

 

Restent à résoudre :


- LE PROBLEME ULTIME !! L'encodage !!!!!

On a choisi des langues qui ne seront pas encodées en ISO LATIN-1 : du japonais, et du vietnamien... Or lynx n'affiche pas d'Unicode je crois, ou bien c'est la commande Dump qui pose pb je ne sais plus... Enfin pour ça il faudra télécharger l'outil minigrepmultilingue, mais on n'y est pas encore, on travaille dessus, donc la suite au prochain épisode...

 

- Il reste une modification dans le script à faire : intégrer une boucle supplémentaire pour faire tourner le script sur chaque dossier LANGUE...

- Dans le script : modifier le nom des liens...parce que les chiffres c'est pratique, mais pas très parlant...

- Et puis histoire de peaufiner l'apparence du tableau, il va falloir se pencher sur la question des feuilles de style css. Ca aussi, c'est en cours.

 

C'est tout pour aujourd'hui ! 

 

 

B&T

Par PluriTAL-BTZ
Ecrire un commentaire - Voir les 0 commentaires
Samedi 7 novembre 2009 6 07 /11 /Nov /2009 13:24
J'ai l'honneur et le plaisir de vous présenter notre tout premier script en bash !!!!!!!

En cours nous avons appris à faire une boucle afin de sortir dans une page html toutes les urls contenues dans un fichier texte, les mettre sous forme de tableau, et activer leur lien hypertexte.

Nous avons essayé de reproduire cet automatisme un cran plus haut, c'est-à-dire extraire les urls de TOUS les fichiers txt contenu dans un dossier. Ces fichiers txt correspondent aux divers sens du mot pouvoir dans une seule et même langue.
Nous avons réfléchi pas mal de notre côté, et puis Marjorie et Kun (du groupe qui travaille sur le mot "sens", voir http://lvmmw2009.over-blog.com/) ont réussi à trouver la solution avant nous. Du coup on a un peu capitulé et on leur a demandé la solution... oui je l'avoue. Mais on en n'était vraiment pas loin !!!

Donc voici une capture de ce fameux script :



J'aurai préféré vous laisser un .sh à télécharger sur cette page de blog, mais je ne sais pas comment faire... si vous avez des instructions, je serais ravie de les suivre ! (ça me permettrait surtout d'apprendre à le faire :)

Quelques indications :
- le lancement du script dans cygwin se fait à partir du répertoire où on a enregistré le script ET le run1.txt (à savoir le dossier PROGRAMMES)
- une url pour un choix étendu de couleurs : http://www.html-color-names.com/color-chart.php

Voilà ce que ça donne quand on ouvre tablo1.html :



Et voilà !

Par PluriTAL-BTZ
Ecrire un commentaire - Voir les 4 commentaires
Samedi 7 novembre 2009 6 07 /11 /Nov /2009 12:37
Rappel : le mot "pouvoir" est polysémique ET à cheval sur deux catégories grammaticales : le nom et le verbe.

Nous étions partis sur une idée qui divise ces catégories parce qu'on s'est imaginé qu'il fallait les traiter différemment, surtout dans l'idée d'anticiper l'étape finale d'extraction des contextes.

Or au niveau du sens, c'est une idée absurde. Le sens d'autorité par exemple, peut se traduire aussi bien avec le verbe (pouvoir licencier un salarié sans préavis) que le nom (le pouvoir a décidé de modifier la Constitution)

Donc pour rester logiques et fidèles sémantiquement, nous avons décidé, en français, de garder une division des sens qui ne fait pas de distinction grammaticale.

En vietnamien, c'est à peu près la même chose, le nom de l'autorité se dit quyền , et avoir l'autorité, c'est có quyền (à peu près la même chose en ce sens que [có quyền] peut être considéré comme un seul mot même si typographiquement il est composé de deux éléments, et nous avons donc 2 éléments grammaticalement différents pour le même sens).

Question pratique :
Benjamin, comment tu fais avec tes caractères japonais ? Est-ce que tu peux les écrire de ton clavier directement ? Pour l'instant je me sers de la table des caractères pour copier un à un les caractères dont j'ai besoin, mais je voudrais bien... trouver un raccourci !

Français 1capacité (physique, naturelle, intellectuelle, matérielle) 2effet (pouvoir de persuasion etc...) 3autorite (contexte hiérarchique, point de vue supérieur) 4permission (contexte hierarchique, point de vue inférieur) 5separation (des pouvoirs)
Anglais ability power  power
to be allowed to  separation of powers 
Vietnamien khả năng quyền lực quyền quyền sự phân quyền
Japonais   能力
できる
  力(ちから)
力(りょく)
  権限
権力
権利
もいい 
三権分立 

On notera qu'en vietnamien, le sens se fait à partir d'association d'éléments (sans doute une trace de la longue domination chinoise), donc "quyền" se retrouve un peu partout, c'est l'idée générale du droit, du pouvoir et de l'autorité, et il est associé à des "nuanceurs" qui précisent sa portée.
Exemple :
 "quyền binh" = pouvoir dans "nắm quyền binh" = tenir le pouvoir ;
mais quyền thế = pouvoir aussi dans "lạm dụng quyền thế" = abuser de son pouvoir

L'autorité se traduit donc en vietnamien par une multitude de mots associés selon les contextes, mais dans tous, il y aura l'élément "quyền". Donc dans les urls, j'ai trié à la main les associations d'éléments qui correspondaient au sens que nous cherchions en français (à la main = lecture du corps de texte). Etape un peu laborieuse mais nécessaire pour une bonne correspondance de corpus.

Voilà... c'était juste histoire de donner quelques explications pour le vietnamien...
Par PluriTAL-BTZ
Ecrire un commentaire - Voir les 0 commentaires
Samedi 7 novembre 2009 6 07 /11 /Nov /2009 11:48
Petite info en passant : nous ne sommes que deux désormais, un membre du groupe a arrêté les cours. C'était Zouliath, qui était en charge de l'espagnol. Nous avons donc dû retirer cette langue de notre recherche multilingue.

Par PluriTAL-BTZ
Ecrire un commentaire - Voir les 1 commentaires
Lundi 26 octobre 2009 1 26 /10 /Oct /2009 02:00
Le mot pouvoir est vraiment vraiment très polysémique. Déjà, il entre dans deux catégories grammaticales en français ; il peut être un nom, il peut être un verbe.

Dans un souci de comparabilité des corpus multilingues, j'ai voulu choisir un seul champ sémantique. Et en faisant un petit tour du côté des archives, j'ai pu constater que la polysémie n'avait vraiment effrayé personne, alors je me suis dit qu'il y avait bien une raison et qu'il fallait jouer le jeu. Donc on revient sur la case départ.

Zouliath a fait un travail de défrichage au niveau des définitions en français, et nous nous sommes finalement mis d'accord pour la sélection des définitions sur lesquelles nous comptons travailler.

Et les nominées sont :

1. Nom masc. : Capacité naturelle (qualités inhérentes au sujet de l'action) et possibilité matérielle (dépendant de certaines conditions) d'accomplir une action.
 
2. Nom masc. : Capacité de produire un effet, possibilité d'action sur quelqu'un ou sur quelque chose.
 
3. Nom masc. : Capacité légale ou conventionnelle à agir pour le compte d'une autre personne.
 
4. Verbe transitif : Avoir l'autorité, la puissance de faire quelque chose.
 
5. Verbe transitif : Avoir le droit, la permission de.

6. le groupe de mot : séparation des pouvoirs



Nous avons supprimé des déf. du TLF tout ce que nous considérons en voie de synthématisation (pouvoir d'achat, pouvoir législatif etc) pour 2 raisons :
a. l'objectif de ce projet est de définir les co-occurents du mot. Donc chercher les co-occurents de "pouvoir d'achat" n'est pas chercher les co-occurents de "pouvoir".
b. dans ces synthèmes, on retrouve un des 5 premiers sens dégagés pour le mot "pouvoir".

Pourquoi dès lors, garder "séparation des pouvoirs" ??
Parce que nous avons l'intuition que ce groupe de mots là est différent. Le critère éliminatoire (b) vu précédemment ne colle pas ici : dans "séparation des pouvoirs", le terme "pouvoir" renvoie à 3 types de pouvoirs connus, qui forment un concept qui les relie très fortement. Ces 3 pouvoirs sont implicites sous le mot "pouvoirs", donc on a ici une nouvelle définition du mot lorsqu'on parle de "séparation des pouvoirs".


Tout à coup je me pose une question existentielle : quelle forme choisir ?


- pour les verbes : est-ce qu'on ne cherche que des infinitifs ? (j'imagine que oui, mais ce n'est pas très représentatif du mot pouvoir en tant que verbe si on ne sélectionne que sa forme infinitive)
- pour les noms : je crois qu'on s'était mis d'accord pour garder formes singulier ET pluriel...

Vous pouvez confirmer ?



De mon côté, j'ai commencé mes recherches pour les correspondances en vietnamien. Pas évident.
Le viet namien est une langue monosyllabique, on peut avoir une base constituée de plusieurs "mots" dont l'agrégat forme un nouveau sens (ici 1 ou 2 unité-s), et ensuite on va lui ajouter une ou deux autres unités pour nuancer le champ sémantique de la base.
Ex : quyen ( ! note pour plus tard : il va falloir trouver un moyen pour afficher les accents du viet...)

Tout seul il semble signifier "avoir la permission". On peut l'étendre pour donner le sens de la procuration par exemple, on utilise alors "uy quyen". Je pense que le mot s'arrête là. C'est ça la définition du mot pouvoir dans un sens de procuration.
Les co-occurents antérieurs possibles seront sans doute : su uy quyen : l'action de la procurration, ou bien giay uy quyen : le papier officiel déclarant la procuration.

Voilà. J'écris beaucoup et expose beaucoup de détails, mais ça m'aide à y voir plus clair...

Bonne continuation dans la reprise de vos activités :)
Par PluriTAL-BTZ
Ecrire un commentaire - Voir les 0 commentaires
 
Créer un blog gratuit sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus