Seguiment de la Implantació Neològica Automàtic



Tema: Sobre el sistema de seguiment de neologismes del LATEL-IULAterm SINA
Ref.: UPF:LATEL:SINA:20040906.cwk
De: Lluís de Yzaguirre
A: Judit Freixa
Data: sis de setembre del 2004





Presentació


El sistema SINA vol oferir als neòlegs una eina per a emprar l'Internet com a font viva on s'apliquin estratègies creatives de seguiment de la implantació neològica en una llengua i fins en un domini professional concrets.

El sistema SINA pretén el refinament de ser dependent de la llengua (doncs, saber-la identificar i gestionar-ne les especificitats) i al mateix temps portable. Per al desenvolupament del sistema, per tal de garantir la portabilitat a altres llengües i l'adaptació a les necessitats de la llengua objecte, s'ha pres com a pilot la llengua artificial Esperanto, amb peculiaritats notables de codificació i menys pàgines Web que el català o el francès (presumiblement).


Captura de URL


capturaEo.pl (al directori /Users/Shared/perl/eo/) cerca un conjunt de mots a Google i salva les primeres 1000 URL. Aquest sistema es fa partint de les llistes de termes que interessa seguir i d'altres de consolidats i que ajudin a discriminar les pàgines del domini de les altres. Aquesta estratègia es complementa amb d'altres que veurem després i que aprofundeixen la cerca a partir de pàgines o servidors ja inclosos a la base de dades.


Incorporació de pàgines a partir de URL


capturaPostGoogle.pl captura un conjunt de pàgines i en una segona passada les classifica en una base de dades.

Per donar per bona una pàgina, s'asegura que sigui en la llengua en qüestió. Comportament modular que admet altres components de filtratge (per exemple, per garantir la pertinença al domini d'especialitat).

En algun cas, les pàgines accedides no són documents HTML estàtic sinó que s'obtenen amb una crida PHP o ASP. El sistema SINA incorpora aplicacions específiques per a aquest tipus de captures.


Estructura de la base de dades


Un corpus SINA serà un conjunt de pàgines HTML i un sistema de bases de dades que les indexa i en regeix les pautes de prospecció de cara al seguiment de la implantació neològica. La captura de les pàgines HTML exclou deliberadament les imatges incloses a la pàgina, per raons d'economia, però en cas que una prospecció determinada ho requerís, es podria replantejar.

La base de dades acumula informacions que extreu del servidor amb d'altres que obté del procés de decisió sobre si cal incorporar o no la pàgina al seguiment. Les informacions que gestiona són les següents:

Nom del camp Funcionalitat
ID Xifra única de cada document inspeccionat
IDSERV* Codi que identifica el servidor d'on s'ha obtingut el document
IDURL* Codi per recuperar el nom de la pàgina i trajectoria al servidor
CODIF Tipus de codificació de la pàgina original (SINA unifica les codificacions)
NUMGRAM Nombre de gramemes identificats a la pàgina
NUMLEX Nombre de lexemes falsats en tant que gramemes
CLAUS Llista decreixent dels deu lexemes més freqüents a la pàgina
DATA Data de la pàgina al servidor original
MIDA Mida de la pàgina al servidor original
PARE Pàgina que suposadament és una edició prèvia
FILL   Pàgina que suposadament és una edició posterior


Els camps marcats amb asterisc són relacionals.


Ampliació per visita de referències


EKcercaURLs.pl és una aplicació que es llegeix cada pàgina recollida fins al moment, n'explora la llista de vincles i els prepara per a la "incorporació de pàgines a partir de URLs".


Ampliació en funció del servidor


Aquesta funcionalitat la tindrà una aplicació derivada de la precedent que en comptes de recórrer les URL de la pàgina, recorrerà la seva trajectòria: si la pàgina és www.bahai.de/bahaaeligo/U-tekstoj/historio2-U.htm, el sistema recorrerà recursivament:

www.bahai.de/bahaaeligo/U-tekstoj/
www.bahai.de/bahaaeligo/
www.bahai.de/

En cas d'obtenir un llistat de directori, s'explora; si s'obté una pàgina convencional (potser amb un missatge d'error o amb un índex de continguts) s'avalua i es descarta (els exemples precedents donen, avui, un missatge d'error en alemany).


Ampliació en funció del vocabulari destacat


El camp CLAU de la base de dades ens dóna els deu mots no gramaticals més freqüents. Aquest comportament es podria matisar fent que no fossin triats d'entre els no gramaticals sinó exclusivament d'entre els d'una llista de termes. En tot cas, aquestes claus, o el rebuig d'alguna d'aquestes claus, per interferència d'altres dominis, o el rebuig d'algun altre mot que amb certesa no forma part del domini i pot ajudar a refinar el comportament de les claus semànticament ambigües serviran per realimentar la “captura de URL” ut supra.


Manteniment


Una aplicació pendent de realitzar s'encarregarà de visitar els originals de cada pàgina desada per avaluar-ne les modificacions en funció de la mida original, la data original, el nombre de gramemes o lexemes identificats o les claus (essent-ne l'ordre un factor crític). En cas de considerar que una pàgina ha desaparegut o que el seu estat actual no permet incloure-la a la base de dades, se'n deixa constància (pàgina desapareguda). Si la pàgina ha canviat, s'incorpora a la base de dades com a “fill” de la que ja teníem. El sistema permet infinites generacions de la mateixa pàgina. Haurà de permetre que per a cada corpus SINA es defineixin uns criteris particulars a l'hora d'establir si una pàgina ha canviat prou per ser considerada una edició diferent (potser només s'hi han fet correccions ortogràfiques o s'ha inclòs o eliminat imatges o vincles a URLs...).


Recuperació de pàgines perdudes


Una aplicació pendent de realitzar cercarà periòdicament als motors de cerca “segments llargs i molt idiosincràtics” (concepte que els usuaris han de poder matisar) de les pàgines perdudes per si es tracta d'un canvi de servidor o d'organisme.


Sistema de consulta del corpus


El corpus SINA es consulta a través d'una cgi que permet la consulta de les dades de les bases de dades, de les pàgines originals o de les còpies locals (eokorpus.cgi).

La imatge 1 ens mostra la consulta de la base de dades de documents a la meitat superior i la recuperació d'un document en versió local (sense imatges).

La imatge 2 ens mostra el missatge d'error en japonès que hem obtingut en intentar accedir avui a la pàgina original.

La imatge 3 ens mostra a la part superior el resultat de filtrar en el camp CLAUS el mot profet, mentre que a la inferior veiem la còpia local de la pàgina, amb els símbols específics de la llengua codificats correctament.

A la imatge 4 veiem el resultat de recuperar la pàgina original, amb una codificació “infolítica” (pre-unicode).


Explotació del corpus


De moment, l'explotació del corpus es fa amb el sistema de consulta presentat suara o amb eines genèriques, com GREP, però no és cap dificultat inassumible la generació de procediments de consulta focalitzant els neologismes (per exemple, un índex hipertextual de tots els neologismes objecte de seguiment).