per Laura Paredes


Nocions prèvies

Ocurrència. Forma. Lema

Una ocurrència és cada vegada que una paraula surt en un text. En canvi, entenem per forma la seqüència de caràcters que constitueixen una paraula. Així, una mateixa forma té una o més ocurrències. Ara bé, un lema és una paraula, amb independència de la forma que adopti, de manera que podem tenir diferents formes per a un sol lema.

Exemple:

En un text on de apareix 2 vegades i d' n'apareix 3, diem que el lema de té la forma de i la forma d'. La primera forma té 2 ocurrències i la segona en té 3. Per tant, el lema de té 5 ocurrències.

Llista de freqüències

Són llistes on els termes simples apareixen ordenats per nombre d'ocurrències. La llista pot ser ascendent (de menys a més ocurrències) i descendent (de més a menys).

Hem de tenir en compte que en aquestes llistes, hi apareixen també les paraules gramaticals. La proporció d'aquestes paraules en un text també pot ser important. Ara bé, la seva presència a les llistes és discutible i pot interessar de filtrar-les. (En terminologia, concretament, les paraules gramaticals es filtren). Un cop hem filtrat les paraules gramaticals, una llista de freqüències descendent ens pot indicar, per exemple, de què va un text.

Podem obtenir també llistes alfabèticament inverses i llistes longitudinals. Les llistes alfabèticament inverses ens mostren els termes simples escrits a la inversa, i són interessants per estudiar els sufixos. Les llistes longitudinals ens mostren els termes simples pel nombre de lletres que tenen, i poden ser tan ascendents com descendents.

Reconeixement de termes complexos

Els termes complexos són més difícils de localitzar per al terminòleg. En aquest sentit, l'ordinador pot ser de gran ajuda.

Per reconèixer els termes complexos, l'ordinador fa servir les probabilitats estadístiques. Cadascuna de les paraules que formen un text té una probabilitat determinada d'aparèixer-hi. En el cas que hi hagi una distorsió de les lleis de probabilitat en el text, vol dir que hi passa alguna cosa que val la pena detectar. En aquest sentit, val a dir que es pot mesurar la influència de les regles de la llengua en les probabilitats i extreure'n conclusions.

El que fa l'ordinador és indicar si hi ha una combinació que surt més vegades de les que, segons el càlcul de probabilitats, hauria de sortir. També ens indica si la combinació ha sortit només en un ordre determinat, cosa que és important. Finalment, l'ordinador ens indica en quines frases surt la combinació i si els elements que la formen surten en altres frases.

Els valors estadístics són diferents si els apliquem a les formes o als lemes. Treballar amb lemes és més precís, tenim menys unitats i ens resumeix la casuística. Per tant, hem de passar de formes a lemes (i això és molt complicat).

Desambiguació

Quan treballem amb textos se'ns presenten casos d'ambigüitat, és a dir de paraules que tenen més d'una categoria gramatical. De fet, com més corrent és un text més ambigüitat presenta, i com més especialitzat, menys ambigüitat té.

Per reduir les ambigüitats, tenim dues vies: la desambiguació prèvia o la desambiguació per mitjà de la probabilística. El que fa la probabilística és analitzar el context immediat de la paraula ambigua. Si una paraula pot ser article i pronom, per exemple, l'ordinador mira si la paraula següent és un nom (per tant, la paraula ambigua és un article) o si és un verb (de manera que la paraula ambigua és un pronom).

Entrada de textos a l'ordinador

Tenim diferents sistemes:

Doble picatge

És el sistema més rudimentari. Dues persones passen el mateix text a l'ordinador. Hi ha programes que comparen els textos entrats i indiquen les diferències que hi ha.

Suport magnètic

Quan ja tenim els textos en disquet, només els hem de copiar a l'ordinador.

CD ROM

El CD-ROM s'ha convertit en poc temps en un producte estàndard de les editorials, gràcies al seu baix cost de producció i a què, actualment, és molt car fer-ne còpies pirata. A més, el CD-ROM presenta avantatges per a l'usuari, ja que té possibilitats de consulta per continguts, es poden copiar fragments a un tractament de textos, etc.

La lectura d'un CD-ROM es fa mitjançant un làser. La llum s'envia a molta velocitat i l'ordinador reconeix la distància a partir del temps que la llum triga a tornar. Així s'obté una codificació binària de la informació, que és la que l'ordinador treballa.

Reconeixement òptic de caràcters - ROC (en anglès OCR)

El ROC és un procés per mitjà del qual l'ordinador explora una imatge que se li ha passat digitalment per tal de trobar-hi caràcters i convertir-la en text. Aquesta tecnologia no està evolucionant tant de pressa com es voldria. Hi ha altres alternatives que estan avançant més (com el reconeixement de la veu, per exemple) i, a més, avui dia els textos es fan directament per ordinador. Tot i així es continua investigant aquest sistema. La raó és que el ROC és un capítol dins el reconeixement òptic de formes/imatges, cosa que tindrà en el futur un àmbit d'aplicació molt gran en els processos industrials.

La digitalització de la imatge es fa mitjançant un escànner. Ara bé, l'escànner presenta força limitacions: el text ha de ser de molt bona qualitat (paper molt blanc i sense taques i amb una escriptura molt clara).

El ROC agafa aquesta imatge binària i la divideix en quadradets amb l'objectiu de tancar alguna taca (lletres o combinacions de lletres per a nosaltres) dins una forma rectangular. Aquest quadrat o rectangle ha de tenir una grandària mínima i si no és així, l'uneix al del costat. Després, relaciona amb un caràcter cadascuna de les taques tancades.

Aquest tipus de reconeixement pot presentar dos tipus de problemes. En primer lloc, que el ROC delimiti malament alguna de les taques i, per tant, no la pugui interpretar. Un segon problema és que agafi el contingut del quadradet per una cosa que no és, és a dir, que s'equivoqui a l'hora d'interpretar el contingut.

Avui dia es vol treballar el reconeixement de les paraules amb la incorporació d'un verificador morfològic. L'ordinador fa la tria a partir del càlcul de probabilitats de les combinacions.

Programes lexicomètrics

Els programes lexicomètrics ens permeten treballar els textos per obtenir concordances, llistes de freqüències, dades estadístiques, detectar termes polilexemàtics, etc.

En una primera generació d'aquest tipus de programes tenim l'Oxford Concordances Programm (OCP). Aquest programa es va crear per a mainstream i, després, s'en va treure una versió per a microordinador que feia el mateix però utilitzava molt més temps per fer- ho. Actualment, la versió per a microordinador està totalment superada perquè han sortit molts altres programes lexicomètrics.

En la segona generació de programes lexicomètrics, se separen la interpretació i la confirmació de les dades, que es fa una sola vegada. Això estalvia molt temps de producció. En aquest grup de programes podem trobar el Textual Analysis Computing Tools (TACT).


Vegeu també els apunts de ànonim