Exemple:
En un text on de apareix 2 vegades i d' n'apareix 3, diem que el lema de té la forma de i la forma d'. La primera forma té 2 ocurrències i la segona en té 3. Per tant, el lema de té 5 ocurrències.
Hem de tenir en compte que en aquestes llistes, hi apareixen també les paraules gramaticals. La proporció d'aquestes paraules en un text també pot ser important. Ara bé, la seva presència a les llistes és discutible i pot interessar de filtrar-les. (En terminologia, concretament, les paraules gramaticals es filtren). Un cop hem filtrat les paraules gramaticals, una llista de freqüències descendent ens pot indicar, per exemple, de què va un text.
Podem obtenir també llistes alfabèticament inverses i llistes longitudinals. Les llistes alfabèticament inverses ens mostren els termes simples escrits a la inversa, i són interessants per estudiar els sufixos. Les llistes longitudinals ens mostren els termes simples pel nombre de lletres que tenen, i poden ser tan ascendents com descendents.
Per reconèixer els termes complexos, l'ordinador fa servir les probabilitats estadístiques. Cadascuna de les paraules que formen un text té una probabilitat determinada d'aparèixer-hi. En el cas que hi hagi una distorsió de les lleis de probabilitat en el text, vol dir que hi passa alguna cosa que val la pena detectar. En aquest sentit, val a dir que es pot mesurar la influència de les regles de la llengua en les probabilitats i extreure'n conclusions.
El que fa l'ordinador és indicar si hi ha una combinació que surt més vegades de les que, segons el càlcul de probabilitats, hauria de sortir. També ens indica si la combinació ha sortit només en un ordre determinat, cosa que és important. Finalment, l'ordinador ens indica en quines frases surt la combinació i si els elements que la formen surten en altres frases.
Els valors estadístics són diferents si els apliquem a les formes o als lemes. Treballar amb lemes és més precís, tenim menys unitats i ens resumeix la casuística. Per tant, hem de passar de formes a lemes (i això és molt complicat).
Per reduir les ambigüitats, tenim dues vies: la desambiguació prèvia o la desambiguació per mitjà de la probabilística. El que fa la probabilística és analitzar el context immediat de la paraula ambigua. Si una paraula pot ser article i pronom, per exemple, l'ordinador mira si la paraula següent és un nom (per tant, la paraula ambigua és un article) o si és un verb (de manera que la paraula ambigua és un pronom).
Tenim diferents sistemes:
La lectura d'un CD-ROM es fa mitjançant un làser. La llum s'envia a molta velocitat i l'ordinador reconeix la distància a partir del temps que la llum triga a tornar. Així s'obté una codificació binària de la informació, que és la que l'ordinador treballa.
La digitalització de la imatge es fa mitjançant un escànner. Ara bé, l'escànner presenta força limitacions: el text ha de ser de molt bona qualitat (paper molt blanc i sense taques i amb una escriptura molt clara).
El ROC agafa aquesta imatge binària i la divideix en quadradets amb l'objectiu de tancar alguna taca (lletres o combinacions de lletres per a nosaltres) dins una forma rectangular. Aquest quadrat o rectangle ha de tenir una grandària mínima i si no és així, l'uneix al del costat. Després, relaciona amb un caràcter cadascuna de les taques tancades.
Aquest tipus de reconeixement pot presentar dos tipus de problemes. En primer lloc, que el ROC delimiti malament alguna de les taques i, per tant, no la pugui interpretar. Un segon problema és que agafi el contingut del quadradet per una cosa que no és, és a dir, que s'equivoqui a l'hora d'interpretar el contingut.
Avui dia es vol treballar el reconeixement de les paraules amb la incorporació d'un verificador morfològic. L'ordinador fa la tria a partir del càlcul de probabilitats de les combinacions.
Els programes lexicomètrics ens permeten treballar els textos per obtenir concordances, llistes de freqüències, dades estadístiques, detectar termes polilexemàtics, etc.
En una primera generació d'aquest tipus de programes tenim l'Oxford Concordances Programm (OCP). Aquest programa es va crear per a mainstream i, després, s'en va treure una versió per a microordinador que feia el mateix però utilitzava molt més temps per fer- ho. Actualment, la versió per a microordinador està totalment superada perquè han sortit molts altres programes lexicomètrics.
En la segona generació de programes lexicomètrics, se separen la interpretació i la confirmació de les dades, que es fa una sola vegada. Això estalvia molt temps de producció. En aquest grup de programes podem trobar el Textual Analysis Computing Tools (TACT).