Oriol Camps, ocamps.n@catradio.com

Lluís de Yzaguirre, de_yza@upf.es

Anna Matamala, anna.matamala@iula.upf.es

 

 

DOPO: un outil d’analyse orthologique

0. Présentation

Le DOPO (Diagnostic Orthologique Par Ordinateur) est un système de détection d’incidences orthologiques à l’aide de l’ordinateur, basé sur la synchronisation des fichiers de voix et de texte. Ce système est en train d’être développé en collaboration entre l’Université Pompeu Fabra de Barcelone et Catalunya Ràdio, qui va en être l’usager principal quand le système deviendra suffisamment opérationnel.

1. Catalunya Ràdio: l’usager principal

Créée en 1983, par une loi de Catalogne, Catalunya Ràdio a pour but principal de contribuer à la “normalisation” linguistique,  processus qui a pour but de mettre la langue catalane en conditions de survivre dans son espace historique, qui a été occupé, spécialement dans les usages publics, par l'espagnol ou le français.

À l'époque de sa création, Catalunya Ràdio a ouvert un espace de communication en catalan, puisqu’à ce moment là il n'y avait pas de postes de radio en catalan, à l’exception de quelques uns qui n'arrivaient pas à couvrir tout le territoire ni toutes les heures du jour et de la semaine.

À présent, notre première station de radio possède une audience moyenne de 590.000 auditeurs environ, et elle est leader de la radio conventionnelle en Catalogne, à plus de 100.000 auditeurs de distance de la suivante. Nous avons aussi un canal exclusivement informatif, Catalunya Informació, également leader dans son genre, avec 67.000 auditeurs, et deux autres stations: Catalunya Música (musique classique), et Catalunya Cultura qui explore les possibilités de la radio en ce qui concerne les thèmes de  culture, en évitant  la politique et le sport.

Actuellement, on peut dire qu'il existe un espace catalan de communication, au moins dans la radio, comme le prouve le fait que depuis un an, divers entrepreneurs privés se sont engagés dans la création de postes de radio parlant en catalan, d'abord spécialisés en musique pop-rock et peu après (septembre 2000) généralistes.

Une fois établi cet espace de communication, il reste cependant aux moyens de communication publics l’importante mission d'être leaders de la qualité des programmations, et notamment de la qualité linguistique. Cette mission dérive du fait que le financement (même s’il n’est que partiel) provienne du budget du gouvernement autonome. En effet, une des fonctions des moyens de communication de masse (mcm) est d'établir, de conserver, d’élargir et de diffuser la langue standard par son usage.

Toutefois, les conditions dans lesquelles la qualité linguistique des émissions doit être maintenue ne sont pas favorables, compte tenu de la pression que l'espagnol et d’autres langues exercent sur la nôtre. Il faut remarquer que presque toutes les entrées d'information se font en espagnol, français ou anglais, et que seules les nouvelles locales arrivent aux médias en catalan. Dans le travail des journalistes et des rédacteurs se produit donc, un incessant contact de langues, qui dérive de la nature même de la tâche informative, ainsi que de la situation de double officialité linguistique.

Cela signifie que nous ne pouvons pas penser au maintien de la qualité sans le travail de quelques professionnels linguistes (correcteurs, orthologues) qui essaient de compenser cette pression des autres langues.

Cela signifie également que ces derniers doivent veiller sur l'introduction de mots étrangers et même de façons de dire importées qui ne sont pas nécessaires, et qu’ils doivent aussi contrôler la prononciation en antenne, et non pas seulement dans une variété du catalan, mais, dans les deux variétés principales (orientale et occidentale) et en respectant quelques sous-variétés.

Cela signifie encore que, malgré le progrès du catalan dans l'enseignement (qui prétend former des citoyens en théorie parfaitement bilingues), il faut mettre en oeuvre une sélection linguistique rigoureuse du personnel qui va prêter sa voix à la radio.

Même si une partie importante du travail consacré à la qualité linguistique est effectuée dans la phase écrite des textes diffusés (correction de textes avant leur lecture en antenne), il reste le travail de contrôle de la qualité de la langue effectivement utilisée dans les émissions, et l’obligatoire sélection du personnel. Ce travail d’écoute de la radio, ou d'un enregistrement, ou de l’épreuve d’un candidat  journaliste de radio dans le but de détecter des erreurs de prononciation, doit être fait à l'oreille. Mais cela entraîne quelques problèmes, particulièrement ceux qui dérivent des différences de sensibilité, voire des niveaux d’exigence, entre les différentes personnes qui exercent ce travail. C’est pour cette raison que nous avons décidé de nous procurer un outil informatique qui puisse assurer une plus grande objectivité de l'observation —les mêmes phénomènes pour tout le monde, avec adaptation à la phonétique utilisée par chacun, ce qui veut dire aussi une même exigence pour tout le monde. Pour le moment, cela n'est pas possible avec le traitement des fichiers de voix, à cause des difficultés rencontrées dans l'exploitation des systèmes de reconnaissance de la voix, et du grand nombre de voix à observer (plus de trois cents). Disons que le cerveau humain est encore plus rapide que les systèmes électroniques pour identifier les correspondances entre un son et sa représentation dans l’orthographe. Mais il est possible d’envisager, pour les programmes de radio basés sur la lecture de textes —qui, dans les quatre stations de Catalunya Ràdio, arrivent à presque 35 heures par jour— un outil basé sur le texte lu. C’est le DOPO.

 

2. DOPO: l’outil

DOPO est un système de détection d'incidents orthologiques assisté par ordinateur. Il est basé sur la synchronisation des fichiers de voix et de texte. Cette synchronisation est faite par le programme SINCRO, qui sert de base à tous les documents intégrés dans le corpus RETOC, qui a été présenté dans la communication précédente[1]. Une fois réalisée la synchronisation, le DOPO présente à l'écran des rapports en forme d'hypertexte qui contiennent le texte écrit coupé en morceaux entre pauses, de façon qu’en cliquant sur le texte l'orthologue peut écouter, le nombre de fois qu'il veut, le fragment de voix correspondant et contrôler ainsi la correction et sa réalisation phonétique

Ces rapports hypertextuels peuvent être créés à deux niveaux:

2.1. À partir de la synchronisation par segments. La synchronisation exige toujours un certain degré d’intervention humaine pour en assurer la justesse. Quand la synchronisation entre le texte el la voix est faite par morceaux entre deux signes de ponctuation, elle est moins chère à la production, mais plus coûteuse à l’ exploitation, puisque l’orthologue doit écouter à chaque fois des morceaux plus ou moins longs.

Voici l’écran qui va se présenter à l’orthologue dans ce type de synchronisation:



Au milieu de l’écran, nous voyons les fragments de texte analysés et à droite le numéro du registre. En cliquant sur l’icône "musicale" de droite, nous pouvons écouter le morceau tel qu’il a été prononcé.

 

2.2. À partir de la synchronisation mot à mot. A l’inverse de la synchronisation par morceaux, la synchronisation mot à mot exige beaucoup plus de temps d’intervention humaine que l’antérieure (neuf fois plus), mais la consultation peut être six fois plus rapide. Voici l'écran qui va être présenté à l'orthologue:

 



Comme nous pouvons observer à l’écran, dans ce cas le texte est séparé lexicalement, et les mots sont ordonnés alphabétiquement. Chaque mot peut être écouté tout seul en cliquant sur l'icône de gauche; accompagné du mot suivant, en cliquant sur celle du milieu, et, en cliquant sur celle de droite, dans le morceau auquel il appartient, ce qui assure la possibilité d’observer le contexte, qui est important surtout dans les cas de contact de mots.

Même s’il est possible de développer les deux types de synchronisation, pour l’instant nous ne nous sommes proposé de travailler qu’avec la synchronisation par morceaux, à cause du coût de temps qu’exige la synchronisation mot à mot, même si celle-ci est très intéressante. Dans de prochaines versions du programme nous avons le projet d’arriver à une synchronisation automatique mot à mot.

 

3. Le corpus de textes de radio

Afin d’éprouver et de présenter le DOPO, nous avons constitué un corpus de huit heures de radio. Pour rendre possible leur traitement par le DOPO, nous avons besoin en même temps de la version écrite et parlée de chaque morceau. Pour cette raison, il n'est pas possible d'inclure dans le corpus, des discours spontanés ou improvisés, comme par exemple des morceaux de magasines, interviews, etc., à moins que nous ne voulions les transcrire, ce qui obligerait à des heures de travail que nous ne voulons  pas assumer pour le moment, à cause de leur coût. Donc, nous avons décidé de rassembler un corpus de nouvelles (qui ont une importante base écrite qui n'arrive pas cependant non plus, à couvrir la totalité du discours).

Comme il a été déjà dit, la surveillance sur le langage utilisé en antenne doit respecter les principales variétés de la langue. En effet, l’Institut d'Estudis Catalans (l'Académie catalane) établit que le standard du catalan doit être "compositionnel", c'est à dire, qu'il doit intégrer les principaux dialectes, ce qui veut dire que chaque speaker doit utiliser les traits phonétiques et morphologiques d'un seul d’entre eux, sans les mélanger, tandis qu'on peut utiliser des unités lexicales et des constructions syntaxiques telles que locutions et tours empruntés à d’autres dialectes et devenus ainsi communs. Pour cette raison, nous avons décidé d'inclure dans notre corpus des informations prononcées avec la phonétique des deux grandes variétés (orientale et occidentale) du catalan standard. Nous avons choisi le poste Catalunya Informació, qui programme des informations vingt-quatre heures sur vingt-quatre, parce que, grâce à la structure de sa programmation en demie-heures, il est possible d'en extraire des demie-heures consécutives prononcées dans chacune de ces deux phonétiques. Nous avons chargé le speaker occidental de copier, pendant huit jours, les textes d'une de ses demie-heures et de la précédente ou de la suivante, et de laisser ces copies à l'ordinateur. Ensuite, nous avons récupéré les fichiers de texte et les fichiers de voix correspondants, et nous les avons envoyés par courrier électronique à Lluís de Yzaguirre, pour en faire la synchronisation dont il vient de vous parler. Les demie-heures consécutives ont l'avantage d'offrir des informations très semblables (le monde ne change pas si vite) dans deux phonétiques différentes, ce qui facilite la comparaison et, le cas échéant, économise la transcription de certains morceaux enregistrés qui sont intéressants et qui apparaissent dans les deux blocs mais qui n'ont pas de texte écrit, de façon que le corpus analysé soit ainsi plus complet.

 

4. Filtres de recherche

Avec la synchronisation toute seule, il serait nécessaire d'écouter tous les morceaux pour y détecter les erreurs. Alors, pour faciliter la tâche de l'orthologue, on applique au texte coupé et synchronisé des filtres qui sélectionnent les séquences de caractères où l'on soupçonne des possibilités d'erreur.

Les filtres à appliquer sur le corpus doivent être utiles pour détecter des erreurs, des prononciations inadéquates, etc. Ces filtres auraient un fort contraste avec un filtre académique: celui-ci s'intéresserait à tous les phénomènes, notamment à ceux qui sont corrects, suivant la structure des grammaires scolaires; dans ce cas, les erreurs seraient une scorie à rejeter. Mais quand le but de la recherche est de corriger ou de sélectionner le personnel, ce qui intéresse sont les erreurs, et les bonnes prononciations sont scorie. Laissez-moi dire, cependant, que même si à présent nous avons une orientation et nous travaillons dans le but de détecter des erreurs, l'ensemble des filtres peut être modifié pour utiliser le DOPO comme outil  éducatif ou de recherche.

 

4.1. Conventions utilisées dans les conditions de détection

Au moment d’établir les formalismes des conditions de détection, nous avons adopté une série de conventions qui sont explicitées ensuite:

4.1.1. Chaque chaîne de caractères sera cherchée en tant que telle dans n’importe quelle position dans le mot ou le segment. La recherche va être faite sans distinction entre majuscules et minuscules.

4.1.2. Dans une recherche mot à mot, les seuls signes non alphabétiques cherchés seront l’apostrophe (‘), le tiret (-), le point haut (·) et le point bas entre des l (l·l, l.l). La synchronisation mot à mot ne sépare pas les pronoms proclitiques ni les articles et les prépositions apostrophés du mot qui accompagnent, parce qu’ils constituent une seule unité phonique. C’est pourquoi ces trois signes sont aussi pris en compte dans la recherche.

4.1.3. Le point-virgule (;) et le signe plus (+) servent à agglutiner diverses conditions dans une seule description.

4.1.4.  Pour établir des conditions basées sur des catégories phonétiques telles que voyelle ou consonne, nous acceptons quatre systèmes de codification:

V: n’importe quelle voyelle, tonique ou atone, ainsi que le h suivi de voyelle.

C: n’importe quelle consonne.

R: n’importe quelle consonne sourde.

N: n’importe quelle consonne sonore.

4.1.5. Le signe de dièse (#) sert à marquer le blanc entre mot et mot.

4.1.6. Il y a un certain nombre de cas dans lesquels la recherche ne se fait pas à partir des conditions, mais à partir des listes de mots difficiles. Dans ce cas, dans la base de données du filtre il apparaît un nom de fichier entre crochets. L’utilisation de listes de mots aide à éliminer des “bruits”: en effet, la recherche basée sur des séquences relativement courtes de lettres peut entraîner come résultat un plus grand nombre de mots qui contiennent ces séquences, mais qui sont prononcés correctement, tandis que les listes ne cherchent que les mots tout entiers, ce qui fait diminuer le nombre des résultats.

4.1.7. Remarques

En utilisant des conditions de détection rédigées suivant ces conventions, intégrées dans une base de données, nous pouvons chercher une lettre ou un groupe de lettres entre voyelles, entre voyelle et consonne, entre consonnes (avec distinction entre consonnes sourdes et sonores), au début ou à la fin du mot, et même le contact de sons de mots différents, en substituant le blanc entre les mots par le dièse.

Ce système est basé sur l’orthographe, et concerne seulement le catalan. Cela peut entraîner quelques problèmes: par exemple, si le programme trouve des mots provenant d’autres langues, il se peut que certaines consonnes sourdes apparaissent comme sonores. C’est le cas, par exemple, du nom espagnol González (où les z sont interdentales sourdes). Ou, encore, nous avons assigné au x la catégorie de sourd, malgré le fait qu’il puisse représenter des sons sourds ou sonores selon sa position (par exemple: exacte / expulsat).

Au cours des épreuves réalisées avec les filtres nous avons observé aussi qu’il faut ajouter à ces conditions de recherche, d’une part, la distinction entre les voyelles a, e, o, d’un côté, et i, u, de l’autre, parce qu’elles ont un comportement différent dans les liaisons, notamment dans celles marquées par l’apostrophe; et d’autre part une condition d’exclusion, pour rendre possible le fait de présenter séparément certains digraphes qui à présent apparaissent englobés dans d’autres conditions et en même temps dans leur propre filtre. C’est le cas, par exemple, du digraphe ix, qui apparaît aussi dans la condition VxV;  et du ss double, qui apparaît dans les conditions VssV et CsV. Cette condition d’exclusion servirait aussi à éviter l’apparition dans les résultats de certains mots très fréquents qui sont toujours bien prononcés . C’est le cas, par exemple, de la préposition per qui apparaît souvent dans la condition de recherche destinée au -r final, qui est d’ailleurs très intéressante à cause des différences de prononciation qui se produisent de cette consonne en position finale entre différents dialectes où même à l’intérieur de ceux-ci.

 

4.2. Critères pour l'établissement de conditions de détection

Les filtres que nous avons mis au point, et que nous sommes en train de ré-élaborer pour mieux les adapter à notre travail, sont basés sur la fréquence des erreurs et sur leur importance. Importance du point de vue symbolique, par l'opposition qui différencie certains sons des langues voisines, notamment de l'espagnol; et aussi importance du point de vue fonctionnel, qui veut tenir compte de tous les phénomènes de la langue.

Par exemple, en catalan nous avons la présence du phonème [´] latéral palatal sonore, (par exemple: palla, llengua, bullit, cavall) qui ne se trouve pas en français et qui est en voie de disparition dans l’espagnol actuel. Ce phonème devient donc important pour l’image phonique de notre langue et constitue un des points clés pour la sélection des speakers. Cependant, les réalisations incorrectes de ce phonème en [y] n’entraînent pas de problèmes de compréhension. Il s’agit, donc, surtout, d‘un phénomène de nature symbolique. Conserver le phonème latéral palatal sonore signifie conserver une différence du catalan par rapport aux langues voisines.

D’autre part, il y a l'opposition entre s sourd [s] et s sonore [z], qui n'est pas significative en espagnol, où il n'y a des s sonores que par phonétique syntaxique. Le s sonore est donc une originalité du catalan, en contexte espagnol, et caractérise fortement notre langue: en ce sens il a une importance symbolique. En même temps, l'opposition entre s sonore et s sourd est pertinente pour la signification des mots (par exemple, l’ opposition typique entre casa 'maison' et caça 'chasse'): en ce sens la bonne réalisation des s a une importance fonctionnelle. Même si en général une grande majorité des speakers réalise correctement ce phonème dans le mot, il arrive souvent qu’ils le prononcent sourd dans les liaisons des mots. Cela, dans tous les dialectes.

Mais il y a des phénomènes qui n'appartiennent qu'à une des variétés phonétiques. C'est le cas, par exemple, de la neutralisation des a et e atones en [2] et les réductions des o et u atones à [u] dans la phonétique orientale. Il y a aussi des phénomènes nettement occidentaux qui ne sont pas observables en contexte oriental. Par exemple, l'ouverture de beaucoup d'e initiaux en [a] (escolta à [as'kolte]), ou la "fermeture" du a final en [e] à la troisième personne de l’indicatif présent (p. ex., ce même mot).

Pour la même raison de vocalisme propre à chaque variante, les phénomènes de contact de voyelles dans le mot n'offrent aucun problème important dans l'occidental, tandis que dans l'oriental à chaque contact de voyelles il est possible d'observer des réalisations diverses, plus ou moins neutralisées ou réduites qui dépendent souvent de la fréquence d’apparition du mot, c’est à dire, de l’habitude de dire certains mots. L’usage “use” les mots et les amène à la neutralisation; les mots moins habituels sont prononcés avec moins de neutralisation, plus “à la lettre”.

D’autre part, l’absence d’usage formel et public de la langue catalane pendant des décennies, a provoqué un manque de tradition, qui, ajouté à la volonté de très bien parler , conduit les jeunes speakers à des prononciations exagérées, qui dans le catalan oriental tendent à un excès de neutralisation, vu comme un éloignement de l’espagnol. Par exemple, ils peuvent oublier que les mots composés conservent les deux accents d’origine, ce qui dans le catalan oriental signifie la prononciation non neutralisée de deux syllabes dans le même mot. Par exemple, dans les numéros: tres-cents, trenta-vuit (souvent prononcé [tr«s'sens tr«nt«'bujt] à la place de [trEs'sens trEnt«'bujt]).; ou dans n’importe quel mot composé: portaveu (souvent prononcé [purt«'bEw] à la place de [prt«'bEw]).

Tous ces phénomènes réclament des filtres spécifiques pour chacune des deux variétés principales, en ce qui concerne le vocalisme, parce qu'il n'est pas opératif d'appliquer un filtre basé sur le vocalisme oriental à une voix occidentale, et vice-versa. Il est, donc, important d'affiner les filtres afin d’éviter l’obtention d’un certain nombre de résultats non significatifs, ainsi que l’oubli de certains phénomènes.

Cela nous a amenés à ajouter à la base de données une zone numérique additionelle, appelée NIVELL, qui doit permettre d’appliquer sélectivement les filtres selon le cas: par exemple, dans la sélection des voix, il est important de passer en premier lieu des filtres très élémentaires, comme ceux du l palatal [´] ou du s sonore [z] qui étant systématiques, sont plus difficiles à corriger que les quelques mots “difficiles” inclus dans une liste. Nous avons numéroté ces chaînes de conditions de recherche, ainsi qu’un certain nombre de phénomènes consonantiques communs aux deux variétés principales, avec un 1. Ensuite, les conditions de recherche sur le vocalisme ont été numérotées 2 pour le vocalisme oriental, et 3 pour l’occidental. Compte tenu que les filtres basés sur des listes de mots difficiles ne recueillent pas un grand nombre d’occurrences à chaque application, nous les avons tous laissés au niveau 4. Finalement, nous avons numéroté 5 les filtres portant sur des phénomènes moins fréquents, ou qui sont importants seulement en vue d’une locution excellente.

 

4.3. Structure de la base de données

Les conditions de recherche des phénomènes à observer sont formalisées par des formules comme celles dont nous venons de parler, et placées dans une base de données à 5 zones:

COMENT: Cette zone contient un commentaire standard de chaque phénomène observé. Ces commentaires peuvent être associés à un rapport en hypertexte adressé au speaker observé. Ils peuvent servir aussi à la formation des orthologues, puisqu'ils peuvent les guider dans l'observation. Ils contiennent toujous la description de la prononciation correcte proposée.

NIVELL: Zone qui contient les numéros dont nous avons parlé avant. Ces numéros nous permettent d'appliquer sélectivement certains groupes de conditions à chaque voix, et d'éviter ainsi l'obtention de résultats non significatifs. Vous trouverez ces différents groupes de filtres appliqués un par un, puis  tous ensemble, sur chacun des fichiers de voix traités par le DOPO dans le corpus RETOC-Corpus 2000 de Catalunya Ràdio à l'adresse http://retoc.iula.upf.es.

Cette application sélective de niveaux de filtre permet aussi de porter l'observation à des degrés différents selon les besoins. Par exemple, dans une sélection de speakers on peut appliquer en premier une série élémentaire de filtres, qui serviront à faire une première sélection, qui peut être suffisante: tous les candidats acceptés remplissent les mêmes conditions minimum. Il est possible alors d'appliquer un deuxième degré de sélection avec un filtre plus fin (d’un niveau plus haut). La somme de tous les filtres sera aussi appliquée aux speakers qui ont plus de présence à l'antenne, pour réviser de temps en temps la qualité de leur langage. Avec ce système nous pourrons même vérifier la qualité de la langue utilisée à l’ antenne, collectivement, au bout de quelques années.

FENOMEN: Zone qui contient la formalisation des phénomènes à observer, en utilisant les conventions décrites dans l'alinéa antérieur.

DESCRIPCIO et GRUP sont des zones descriptives à des niveaux différents, prévus pour la présentation des résultats dans les rapports hypertextuels: DESCRIPCIO contient strictement une référence au phénomène observé, tandis que GRUP généralise cette description afin de pouvoir grouper les observations: par exemple, “liaisons”, ou “consonnes en fin de mot” ou “préfixes”. Les résultats de l’application des filtres sont présentés à l'écran ordonnées par GRUP et DESCRIPCIO.

Ensuite, nous présentons quelques incidences orthologiques avec les conditions rédigées selon les conventions antérieures, et placées dans la base de données.

 



5. Conclusions

 La UAL (service linguistique) de Catalunya Ràdio envisage d’intégrer l’usage effectif du DOPO dans son travail habituel, quand l’application de la phase SINCRO sera à peu près automatisée.

Le DOPO pourra alors être utilisé pour:

-Assurer une plus grande objectivité de la sélection linguistique des voix.

-Systématiser la veille sur la qualité phonétique des émissions.

-Créer des rapports hypertextuels individualisés sur le langage des speakers, en vue d’améliorer, s’il le faut, leur prononciation. Ces mêmes rapports pourront être utilisés dans des cours de formation de speakers.

-Préparer des orthologues qui vont faire la veille linguistique des émissions, puisqu’il peut leur présenter un répertoire complet (ou presque complet) des phénomènes qu’ils doivent observer.

-Observer le degré de fidélité au texte lu ou le degré de créativité dans la communication. Observer en même temps si cette créativité éloigne les speakers de la correction.

-Vérifier l’évolution réelle, à l’échelle collective, de la prononciation du catalan standard utilisé à la radio, dans ses différentes variétés, au cours des années.

Avec une adaptation dels filtres actuels, le DOPO peut être utile aussi pour l’enseignement du catalan, notamment dans les universités étrangères, puisqu’il offre la possibilité de faire écouter aux élèves la réalisation effective de tous les sons de la langue. Dans ce cas bien sûr, et à l’inverse de ce qui se passe lors de  son utilisation à la radio, il faut rejetter les erreurs.

 

 



[1] Voyez:

De Yzaguirre, Ll.; Clua, E. et A. J. Farriols (2000) «Les corpus oraux et l'enseignement de la langue». Papier presenté au GLAT 2000, Multilingual Communication and Interactivity: The Word and Beyond, Brest. 11-13 July.

 

http://latel.upf.edu/terminotica/brest/entrez-y.htm

 

De Yzaguirre, Ll.; Camps, O. et A. J. Farriols (2000) «RETOC: a hypermedia compilation of oral texts». Papier presenté au 1. Freiburger Arbeitstagung zur romanistischen Korpuslinguistik, Octobre 2000

 

                        http://retoc.iula.upf.es/