3.5 La indexació automatitzada


La indexació automatitzada, igual que la manual, persegueix identificar el document mitjançant l'ús de paraules clau que resumeixin el seu contingut. La indexació automatitzada extreu o assigna els termes d'indexació d'una forma automàtica per mitjà de màquines i sense intervenció humana. La indexació pot ser lliure, quan la identificació es realitza a través d'una llista o conjunt obert de termes, o pot tractar-se d'una indexació controlada, quan s'utilitzen llistes tancades a manera de llistes d'autoritat, llistes d'encapçalaments, llistes de descriptores, etc.

La indexació automatitzada és un procés que ha evolucionat tan ràpidament com ho feien les tecnologies de la informació i la comunicació: l'aparició de Sistemes de Gestió Electrònica de Documents (EDMS: Electronic Data Management Systems), l'automatització dels processos documentals i les bases de dades a text complet.

La majoria de particulars i les organitzacions, han canviat els seus arxius manuals per sistemes de tractament automatitzat de les dades i la gestió electrònica dels documents s'ha convertit en una pràctica habitual que abasta tots els processos documentals. La gestió electrònica de documents precisa de noves estratègies de comprensió i deducció dels continguts perquè sigui possible la descripció i indexació automàtiques, amb la finalitat de la posterior recuperació. 

La proliferació de documents digitals ha conduït, doncs, a un desenvolupament exponencial de indexació automàtica. D'altra banda, cada vegada són més corrents les bases de dades en les quals es poden consultar documents a text complet i això fa que la indexació automatitzada hagi començat a considerar-se un dels elements essencials en el camp de la cerca i recuperació d'informació. La gairebé totalitat dels sistemes de gestió electrònica de documents, inclouen ja un motor de indexació i cerca automàtica que processa el llenguatge natural i que permet la recuperació del contingut i existeixen moltes i molt variades eines i aplicacions informàtiques per realitzar aquestes noves funcions.

Models de Indexació automàtica:

La indexació automàtica se sol definir amb la següent fórmula:

  • Lingüística + Estadística + Informàtica= Indexació automàtica.
A la qual avui podem afegir un quart element:
  • Bases de coneixement + Lingüística + Estadística + Informàtica= Indexació automàtica. 
No obstant això, els diferent models d'indexació automatitzada utilitzen aquests elements en diferents graus. Els models d'indexació automàtica es poden classificar atenent als següents criteris (criteris que no són excloents, sinó moltes vegades concordants).

Segons el mètode d'extracció terminològica:


  • Mètodes lingüístics: utilitzen diferents nivells d'anàlisi lingüística; anàlisi lèxica, semàntic i contextual. Aquest tipus d'anàlisis es duen a terme mitjançant la utilització d'eines automàtiques per a cada nivell, com bases de dades lèxiques, utilització de corpus textuals o textos representatius d'una llengua, ús de diccionaris, analitzadors semàntics, analitzadors de context, etc.
  • Mètodes no lingüístics:
    • Extracció estadística de termes: el primer a usar l'anàlisi estadística per la indexació automàtica va ser Hans Peter Luhn d'IBM, qui ja en els anys 60 va mecanitzar l'anàlisi del contingut gràcies a l'autocodificació dels textos i la formació d'índexs KWIC (Key Word In Context).
    • Extracció probabilística de termes: basada en la freqüència d'aparició mitjana dels termes.
    • Extracció bibliométrica de termes: basat en l'anàlisi quantitativa de determinats termes presents en els documents de la bibliografia emprada en un camp concret.
    • Extracció infométrica de termes: basat en el tractament informàtic dels termes i l'enginyeria del coneixement. És el que se sol denominar data mining o mineria de dades, això és, l'explotació de dades per extreure coneixement.

 Segons la part del document que indexen: 


  • Indexen les parts principals del document: títol, resum, etc: Es calcula que en àmbits molt especialitzats, un 60% dels termes pertinents per la indexació, estan de forma explícita en el títol, un 30% està implicat en alguna paraula del títol i un 10% en el text.
  • Indexen el text complet.

Segons el control del vocabulari:

  • Llenguatges controlats: la identificació del document es realitza utilitzant un vocabulari controlat com a llistes de matèries, ontologies, etc.
  • Llenguatges lliures: la identificació es realitza a través d'una llista o conjunt obert de termes. 



Avantatges:

  • Rapidesa de indexació.
  • Rapidesa de cerca i resposta.
  • Multiplicació dels elements de recuperació.


Cap comentari:

Publica un comentari a l'entrada

INDEX

TEMA 1. ELS ARXIUS, PÚBLICS I PRIVATS 1.1.   Introducció 1.2.   Concepte d’arxiu 1.3.   Concepte de document 1.4.   El cicle vi...