2.2 Sistemes de classificació

La classificació constitueix la base del sistema d’arxiu empresarial.

Sense classificació, les dades i les informacions sobre l’empresa serien difícilment interpretables; no sabríem què té l’empresa ni quines son les seves necessitats.


La classificació documental és una tècnica per a la identificació i el reagrupament sistemàtic de les dades i de les informacions similars, segons les característiques comunes que poden ser diferenciades.

Els sistemes de classificació que es poden aplicar son tres:

  • Classificació funcional: Els documents s’agrupen segons les funcions de l’entitat. La nota comú a tots els documents d’una mateixa classe és que son el resultat de una mateixa activitat, que alhora es reuniran en una classe més gran i així successivament.

  • Classificació orgànica: Es creen classes d’acord amb les divisions administratives de l’entitat, amb la seva estructura orgànica.

  • Classificació per matèries: Segons el contingut dels documents. No deriva directament de l’entitat, és més subjectiva. 

L'elecció del sistema ha de ser:

  1. El més estable possible, de manera que la classificació donada la fons perduri en el temps.
  2. Objectiu, és a dir, que la classificació no depengui tant de la percepció que la persona encarregada de l'arxiu pugui tenir com més d'aspectes inequívocs.

La més convenient serà la funcional ja que pot canviar l'organització de l'empresa però canviar la seva activitat és més difícil. 


El quadre de classificació és una estructura jeràrquica i lògica que reflecteix les funcions i activitats d'una organització. És el marc dins del qual s'organitzen els documents, es veuen les relacions entre ells, permeten normalitzar la denominació donada a cadascun i permet la seva localització. Per la seva realització és indispensable tenir un coneixement de l'organització que reflecteix, conèixer la seva estructura, els seus fins.






La codificació és l'assignació de lletres o números o una combinació de les dos per a cada nivell de la classificació.

La finalitat d'aquest codi és identificar el nivell de classificació de cada sèrie, posant de manifest la jerarquia i substituir en el darrer extrem, al títol de la sèrie.

Es col·loquen a l'esquerra de la denominació i cada signe se separa del següent per un punt.


Tipus de codificació


  • Alfabètica: Fa servir les lletres de l'abecedari seguint la seva seqüència
    • A
      • A.a.
        • A.a.a.
        • A.a.b.

  • Numèrica: Fa servir els números en la seva seqüència natural
    • 1
      • 1.1
      • 1.2
        • 1.2.1

  • Alfanumèrica: Combina números amb lletres
    • 1
      • 1.A
      • 1.B
        • 1.B.1
        • 1.B.2
Exemple:

Quan un document es genera o s'ingressa a l'oficina, el procés de classificació és:

  • Identificar l'expedient al que pertany el document si ja existeix o obrir-ne un de nou
  • Identificar la sèrie a la qual pertany
  • Buscar la subsèrie a la que s'enquadra
  • Anotar la classificació resultant, el codi i nom que li correspon i escriure-ho a la part superior dreta de la carpeta a llàpis i precedit de l'abreviatura ref.


Quan es treballa en entorns ofimàtics i el document és virtual s'arxiva en els directoris de l'ordinador, en carpetes i subcarpetes que faran servir la codificació i els noms de les sèries i subsèries del quadre.

Elements auxiliars del quadre

El quadre es podrà completar amb taules auxiliars que realitzen noves divisions més específiques i concretes en les sèries, subsèries i resta de nivells.

  • Específiques: Només s'apliquen a un nivell, a una sèrie o subsèries del quadre, apareixen al començament del nivell en el qual s'apliquen
  • Comunes: Perquè es poden aplicar a tots els nivells; són llistes ordenades que apareixen després del quadre
    • Nominals: Formades per nombres que identifiquen persones, organismes, llocs...
    • Uniformes: Per identificar tipus de documentació, correspondència, memòries...
Es mostren al quadre amb les lletres:

  • E= Específiques
  • N= Nominals
  • U= Uniformes
I es posen davant al codi de classificació, p.ex:

  • 2
    • N1.
      • N1.2
      • N1.3

2.3 Sistemes d'ordenació


A l'hora d'ordenar s'han d'establir una sèrie de criteris, aquests criteris generalment es basen en dates, noms i nombres.


Alfabètic:

Aquest sistema d'ordenació consisteix en agafar una paraula del document, generalment un nom, i es segueix la sequència alfabètica. Per exemple en documents personals, es prenen els cognoms i s'ordenen seguint l'ordre de l'alfabet.




Cronològic:

L'ordenació cronològica es basa en un element present en pràcticament qualsevol document, la seva data. Aquest mètode d'ordenació consisteix en ajuntar els que pertanyen al mateix any, dins del  any el mateix mes, i  dins el mateix dia. En el cas que falti el dia en el document, es col·locarà al final del mes i en el cas que falti el mes es col·locarà al final de l'any.
Posarem un exemple amb una fotografía d'un arxiu informàtic.





Numèric:

Aquest tipus d'ordenació respón habitualment a un sistema de codis que permeten identificar inequívocament un document concret. És el sistema més utilitzat en les tasques més vinculades a la comptabilitat i les tasques administratives. Consisteix en agafar com a referència un número del documet i ordenar-ho seguint la seva seqüència .
Per exemple, el nombre assignat a una factura o un rebut, el nombre d'un expedient, el nombre de registre d'entrada o sortida de la correspondència, etc.





Mixt o alfanumèric:

El sistema d'arxiu alfanumèric utilitza una combinació de noms (normalment el nom d'una persona ) i dígits.  Exemple un contracte de prestació de serveis que la seva ordenació es basa en l'any de celebració del contracte i el nom del contractista.





L'ordenació es realitza en diversos nivells. Els documents dins dels expedients segueixen un ordre de tramitació, aquests dins de les sèries i les sèries segueixen una jerarquia.

La ordenacion interna es fa seguint un procediment, ha de ser coherent i cronològic, del document més antic al més recent.

 Aquests documents s'identificaran amb: 
  • el nom de l'oficina
  •  la data d'inici/finalització
  •  el resum del contingut 
  •  el nombre de documents que conté
  •  el codi del quadre de classificació i nom de sèrie
  •  la signatura d'instal·lació.


Tots els documents s'hauràn de guardar en carpetes i es farà una copia de seguretat.







Quan els expedients han conclòs es guarden en caixes, aquestes s'identifiquen amb el nom de l'oficina, el codi de classificació el nom del nivell, i l'any/us.


Si vols saber com organitzar els teus arxius físics visita el següent enllaç:

https://www.youtube.com/watch?v=k2RanGzTtWU

2.4 Instal·lació


Es el procès d’ubicar els documents físics, amb la finalitat de protegir-los dels agents externs com: la pols, la humitat, la llum...  mitjançant unitats de instalació per assegurar la integritat  i la localització de la informació que contenen els documets.

Els dipòsits on se situïn els arxius han de disposar d'una bona ventilació, humitat i temperatura per evitar el deteriorament del material i unes bones mesures de seguretat.


A les oficines, el mobiliari o  útils utilitzats en la custòdia dels documents, han d'estar dissenyats acordes al treball que es realitza i a la freqüència d'ús, és a dir han de ser pràctics.
Els arxivadors de carpetes suspeses són els més comuns a les oficines. Les carpetes estan  penjades sobre dues varetes, amb visors i lenguetes horitzontals o verticals que sobresurten i on es col·loca el nom del nivell de classificació que correspon a l'expedient.



Els planers o portaplànols s'utilitzen per guardar plànols, material grafic o altres tipus, que a causa de la seva naturalesa no poden ser arxivats horitzontalment ni doblegar-se. Aquest tipus de material pot ser guardat també en portatubs. Les cintes, discos magnètics i optics necessiten caixes de plàstic.




Per  aquells expedients que es volen tenir a prop mentre estem treballant, es poden fer servir bastidors o miniarxivadors de sobretaula.








També es necessiten carpetes de cartró amb lenguetes, camises i guardes per agrupar documents relacionats  d'un mateix expedient, carpetes d'anelles i caixes d'arxiu.

Les caixes d'arxiu són les unitats d'instal·lació definitives, varien de dimensió segons el document. Han de ser de cartró antiàcid, resistent i amb un costat abatible per poder introduir els documents. Les dimensions han de ser lleugerament més grans que els documents per evitar que els fulls es dobleguin.

En una oficina també han d'haver-hi  prestatgeries per col·locar caixes, llibres i manuals d'oficina.

La instal·lació del material informàtic comporta dos problemes:

  • S'han de mantenir els suports, la seva vida és menor que en paper (de 5 a 40 anys) i la seva manipulació més delicada.

  • Cal consevar la informació, aquest és el major problema, ja que la tecnología va canviant constantment i el suport on ha estat guardada la informació queda obsoleta. 






2.5 El registre

Qualsevol organització està en constant comunicació amb l'exterior- Això genera un gran volum de comunicacions i documents que molts cops caldrà conservar de forma accessible per als treballadors que n'hagin de fer ús.

Davant d'aquest volum de documents que s'han d'arxivar a l'empresa esdevé indispensable establir mecanismes de registre de tota la documentació de la qual disposa l'empresa així com la relació amb l'espai o lloc on es troba arxivada.

Tenir dissenyat un bon sistema d'arxivament que ens permeti la recuperació de documents quan la gestió de l'empresa ho requereix implica portar un registre de la documentació de manera que, en el moment en què calgui buscar un document o saber si aquest ha estat rebut o enviat, o entrat a registre puguem agilitar aquest procés. 

El registre és un instrument de control sobre els documents. És el procés que implica fer anotacions, de manera ordenada, de la documentació enviada o rebuda per l'empresa, per donar-ne fe i facilitar-ne una cerca posterior. És un conjunt de camps que contenen les dades que pertanyen a una mateixa repetició d'entitat.

Consisteix a anotar, documentar, tots els documents que l'organització genera o rep, assignant un identificador a cadascun d'ells i fent una breu descripció.

La seva finalitat és deixar constància de tots els documents capturats o creats, fins i tot d'aquells que no es conservaran o que s'enviaran a altres entitats o arxius.

Se assigna automàticament un nombre consecutiu (nombre de registre) que va de vegades usat com índex encara que el normal i pràctic és assignar-li a cada registre un camp clau per a la seua recerca.

Pot realitzar-se en qualsevol nivell del sistema documental; pot existir un registre general (como ocorre en l'Administració) comuna per a tota l'organització, però també existiran registres en les oficines (arxiu de gestió) per deixar constància de l'entrada d'un altre tipus de documents (actes, acords, memòries), així com en altres unitats (arxiu central, històric).

La descripció que es fan en aquest moment és  molt breu, ha d'incloure els punts següents:

  • Identificador únic del sistema.
  • Data i hora de registre.
  • Títol. descripció abreujada.
  • Autor (persona o entitat) i remitent o destinatari. 

En els arxius tradicionals el registre és un document apart, independent, amb forma de llibre apaisat; en els registres automatitzats forma la mateixa part del sistema. 

Entre els llibres més habituals a les organitzacions hi trobem el registre general d'entrada (pot haver-n'hi un d'específic per a correspondència o incloure qualsevol tipus de document que arriba a l'empresa) i també el de registre de factures. 


2.6 Problemes d'organització

Alguns dels problemes que es presenten deriven del desconeixement de l'organització en la qual es treballa, per això és convenient tenir una visió de conjunt de l'entitat per poder situar la part del procés que un realitza en un context més general.


La falta de comunicació entre les diferents oficines propicia l'aparició de "illes d'informació", és a dir, àrees on es resol un assumpte de manera aïllada, sense tenir en compte on ha vingut ni on va a anar a continuació. La conseqüència és que en moltes ocasions es dupliquen documents, i es torna a fer treball ja fet.



Els documents no s'estructuren de manera normalitzada, presentant cadascun, encara quan serveixin per al mateix assumpte, formes diferents. Aquest fet dificulta la seva identificació i arxivat. Igual succeeix amb els processos, que de vegades s'improvisen i són subjectius.



Falta d'un responsable que coordini els procesos; falta d'espai per a l'arxiu, que es col·loca de qualsevol manera en qualsevol lloc, la qual cosa produeix gairebé sempre la dispersió de la documentació, el desordre i la pèrdua. 



La inexistència de polítiques i la falta de procediments de les transferències, que es realitzen sense un calendari, sense cap control.



La solució de problemes passa pel rigor en el desenvolupament del treball, l'ordre i la neteja a cada moment i per l'observació estricta de les normes establertes. Aquestes normes han d'estar desenvolupades en manuals o catàlegs de procediment on es descrigui de forma detallada com realitzar cada pas i als catàlegs de documents on es detalla la seva estructura. 




3.1 Introducció

La finalitat última de l'arxiu és servir als seus usuaris la informació abocada en els documents i aquests mateixos; en les fases històriques (arxius intermedi i històric) per mantenir viva la memòria i la identitat de la institució o de la societat, en les fases actives (arxius de gestió i central) per a la resolució d'un assumpte administratiu.

La recuperació de la Informació (RI) és la disciplina encarregada d'organitzar l'accés eficient a la informació emmagatzemada i registrada en els documents. Es pot recuperar a través de diferents eines: bases de dades, Internet,... Conèixer i manejar aquestes eines contribueix a una recuperació de qualitat.

Per accedir als documents i a la seva informació cal desciure'ls.

La descripció és el conjunt de les tasques encaminades a informar sobre el contingut dels documents i del document mateix, amb la finalitat de que els usuaris puguin accedir a ells.
Una forma d'escriure documents és la indexació.

La indexació és el procés d'explicar o representar el contingut temàtic d'un recurs d'informació per elaborar un índex que consisteix a obtenir els conceptes representatius del contingut d'un document on es poden emprar matèries, paraules claus o descriptores. A més és l'acció i efecte de indexar la confecció que és la preparació i realització d'índex que es fa servir com a eina de cerca i accés al contingut de recursos en sistemes de recuperació. La indexació no solament es limita a detectar, descobrir, percebre els vocables presents en el document, a més la seva traducció i interpretació per poder passar el llenguatge natural al llenguatge documental.

3.2 Indexació, index del quadre de clasificació

L' indexació és el procés mitjançant el qual s'examinen ordenadament les dades i informes per seguidament elaborar un índex que ens  faciliti la recerca d'informació i la ajuda a seleccionar amb major exhaustivitat. 

Els índexs són llistes de termes que reflecteixen el contingut dels documents i através els quals es possible la recuperación de la informació.

EL procés d'indexació es porta a terme mitjançant tres etapes:

1) S' examina el contingut del document i es descriuen els punts fonamentals que són:
  • formato
  • títol
  • autor
  • a qui va dirigit
  • l'objecte que persegueix
  • dates
  • resum

2) Es seleccionen els conceptes fonamentals i es tradueixen a termes d'indexació forman un llenguatge documental.

3) Es trien els termes que passaràn a formar part de la llista.

La indexació serà més senzilla i subjectiva quan  menys termes hi hagin.


Els termes que es representen als indexs poden traduir-se a un vocabulari establert o poden estraerse directament del document, en aquest cas estariem parlant de les paraules clau.

Els termes triats per l'indexació han de cumplir les següents condicions:
  • Exhaustivitat: han de apareixer a la llista tots els conceptes bàsics del document.
  • Precisió: s'han d'evitar les paraules ambigües i genèriques.
  • Pertinença: disciplina a l'hora de seleccionar els termes.
  • Uniformitat: utilitzar les mateixes expresions per als mateixos conceptes per mantenir una coherència.
Els tipus d'index més habituals són:
Aquest tipus d'index han de seguir unes series de regles:

Pels onomàstics quan fan referència a noms de persones:
  • Primer anirà el cognom i després el nom
  • Es respetarà el llenguatge d'origen
  • Les inicials es posposen
  • Els cognoms amb guió es consideren un sol
  • Les preposicions dels cognoms es posposen al nom
  • Les particules de tractament també es posposen
  • Es poden afegir dades i calificatius que aclareixen la seva identitat
Quan fan referència a les institucions:
  • De forma directa sense inversió
  • Abreviatures i siglas per evitar confusions
Pels topogáfics ( fan referència a termes geogràfics)
  • La jurisdicció ha d'anar entre parentesis
  • A l' idioma del centre
Per matèries:
  • Ús del singular per noms incontables i plural pels contables
  • Entrades directes, sense inversió
La llista dels conceptes es pot ordenar de manera alfabètica o sistemàtica.

La norma ISO 5963 (1985) estableix les pautes que s'han de seguir a l'hora de fer una indexació.

Els index han de actualitzar-se i revisar-se periodicament. Aquesta revisió i actualització es realitza al voltant de tres termes:



Els termes desfasats es refereixen tant a conceptes que ja no existeixen, com a aquells que han perdut la seva especificitat i estàn representats en un altre terme.

Els termes que expresen nous conceptes ha de comprobar-se la seva exactitud.

Es important establir com s'escriuràn i triar una sola solució a les distintes solucions.


L'anomenat quadre de classificació és un instrument auxiliar de l'arxiu. Pot ser també denominat com a esquema de classificació, i que segons el consagrat autor Michael Roberge pot definir-se de la següent manera:" una estructura jeràrquica i lògica que reflecteix les funcions i les activitats d'una organització, funcions que generen la creació o la recepció de documents. Es tracta en suma d'un sistema que organitza intel·lectualment la informació i que permet situar els documents en les seves relacions els uns amb els altres per constituir això que es diu generalment expedients. El sistema de classificació és un modelador d'informació, irreemplaçable per un índex, per més sofisticar que sigui. Elaborat a partir  de les funcions de l'organització, el sistema de classificació té igualment com a avantatges el normalitzar la denominació dels expedients. El requisit previ indispensable per a l'elaboració d'un sistema de classificació és el d'un perfecte coneixement de les funcions de l'organisme que genera els documents".

Serà en aquest quadre de classificació en el qual es reflecteixin:

  • Les diferents categories que s'han comentat anteriorment (sèrie, subserie. secció...)
  • Les diferents codificacions que se li han donar a cadascuna de les classes. Per exemple, "F" a les factures.

A més, l'arxiu ha d'explicar també amb un manual de procediment en el qual s'indicaran, a més dels criteris utilitzats per dur a terme les codificacions, les normes a seguir per a la consulta, la implementació de documents, l'expurgo, etc.

3.3 Recuperació de la informació


La recuperació d'informació és el conjunt d'activitats orientades a facilitar la localització de determinades dades. 

Algunes eïnes  per determinar un major grau de precisió,  són: els índexs, internet, paraules clau, equacions de busqueda tesaurus etc. 








La recuperació de la informació pot ser de dues maneres:

  • Per elemets indexats, es a dir, per cadascuna de les dades que el arxivista hagi implementat a la base de dades sobre el document.
  • A text complet, quan la documnetació es troba digitalitzada i el sistema permet recuperar informació que conté el text del propi document, encara que no hagi sigut indexat.
A qualsevol sistema de gestió de base de dades, existeixen dues sistemes principals de recuperació:


  • Els filtres, que s'apliquen a tota la informació continguda en una tabla.
  • Les consultes, que requereixen un disseny previ i que es poden aplicar a varies tables a la mateixa vegada.

Uns dels problemes que sorgeixen en la cerca d'informació és si el que recuperem és “molt o poc,” és a dir, depenent del tipus de cerca es poden recuperar multitud de documents o simplement un nombre molt reduït. A aquest fenomen es denomina Silenci o Soroll documental.


  • Silenci documental: Són aquells documents emmagatzemats en la base de dades però que no han estat recuperats, a causa de que l'estratègia de cerca ha estat massa específica o que les paraules clau utilitzades no són les adequades per definir la cerca.

Com obtenir millors resultats en el silenci documental?
  1. Canviant d'estratègia i plantejant una cerca més genèrica.
  2. Afegint paraules clau.
  3. Utilitzant "Or" per combinar diversos termes de manera que apareguin un o altre, o tots dos.

  • Soroll documental: Són aquells documents recuperats pel sistema però que no són rellevants. Això normalment passa quan l'estratègia de cerca s'ha definit massa genèrica.

Com obtenir millors resultats en el soroll documental:
  1. Aplicant filtres limitant criteris d'interès: format, data, tipus de document, etc.

Components essencials per a una bona recuperació de la informació:

  • Els documents han d'estar estructurats. Cal establir un procés on s'estableixin eïnes d'indexació i control terminològic.
  • Bases de dades on estiguin emmagatzemats els documents. Definir llenguatges d'interrogació.





3.4 Els índex: actualització


Cada document de l'arxiu rebrà un "nom" o, com se li domina des del punt de vista arxivístic, un "índex". Aquest índex pot ser de diverses classes, però ha de complir amb unes característiques mínimes, com són:
  • Que sigui senzill d'ordenar.
  • Que reflecteixi el tipus de document que es tracta.
  • Que reflecteixi el lloc ocupat en l'ordenació. que eviti els duplicats, és a dir, que cadascun dels índexs ha de ser únic.
Com hem dit, hi ha diferents sistemes d'indexació. Els més habituals són els següents:
  • Sistema alfanumèric, que li assignen una lletra a cada classe, i dins d'aquesta classe, nombres correlatius per a l'ordenació.
  • Sistema alfabètic, que es compon només de lletres. Pot utilitzar-se el nom sencer del document o alguna lletra significativa que ho indiqui. Dins d'aquestes lletres majúscules, s'utilitzaran les minúscules.
  • Sistema numèric, que es compon únicament de nombres, assenyalant l'ordre amb punt o guió.

Normalment, aquests índexs necessiten d'instruments de suport per entendre'ls. Per exemple, si com en el cas del sistema numèric veiem que necessitem el document 1.2, a simple vista no compleix la característica de comprensible. Per solucionar això, haurem de tirar mans del quadre de classificació. 

Pel que fa a l'actualització dels índexs, un calendari marcat per personal especialitzat ens dirà quan ha de dur-se a terme aquestes actualitzacions i unes normes de procediment ens indicaran la forma de fer-ho. Aquesta actualització periòdica és necessària ja que poden aparèixer imprevists com: canviar les classes, sorgir problemes d'espai i emmagatzematge que afectin a la indicació, per detectar fallades en la codificació, etc. 



La actualització de registres entra en dos categories:
  1. L'actualització canvia el valor del camp clau: aquesta classe d'actualització pot portar amb si un reacomodament de l'arxiu d'índexs, així com del de dades. Conceputalment, la forma més fàcil de concebre aquesta classe de canvi és com una eliminació seguida d'una adició. Pot implantar-se aquest mètode d'eliminar i agregar, i donar a l'usuari del programa la impressió que simplement està canviant un registre.
  2. L'actualització no afecta el camp de la clau: no requereix un reacomodament de l'arxiu d'índexs, però  bé pot implicar un reacomodament de l'arxiu de dades. Si la grandària del registre no canvia, o si disminueix per l'actualització, el registre pot descriure's directament a l'espai que tenia, però si augmenta per l'actualització, s'haurà de trobar una nova entrada per al registre. En l'últim cas, l'adreça d'inici del registre reescrit ha de reemplaçar l'adreça antiga en el camp dist_bytes, del registre d'índex corresponent. 


Operació dels registres indexats:


3.5 La indexació automatitzada


La indexació automatitzada, igual que la manual, persegueix identificar el document mitjançant l'ús de paraules clau que resumeixin el seu contingut. La indexació automatitzada extreu o assigna els termes d'indexació d'una forma automàtica per mitjà de màquines i sense intervenció humana. La indexació pot ser lliure, quan la identificació es realitza a través d'una llista o conjunt obert de termes, o pot tractar-se d'una indexació controlada, quan s'utilitzen llistes tancades a manera de llistes d'autoritat, llistes d'encapçalaments, llistes de descriptores, etc.

La indexació automatitzada és un procés que ha evolucionat tan ràpidament com ho feien les tecnologies de la informació i la comunicació: l'aparició de Sistemes de Gestió Electrònica de Documents (EDMS: Electronic Data Management Systems), l'automatització dels processos documentals i les bases de dades a text complet.

La majoria de particulars i les organitzacions, han canviat els seus arxius manuals per sistemes de tractament automatitzat de les dades i la gestió electrònica dels documents s'ha convertit en una pràctica habitual que abasta tots els processos documentals. La gestió electrònica de documents precisa de noves estratègies de comprensió i deducció dels continguts perquè sigui possible la descripció i indexació automàtiques, amb la finalitat de la posterior recuperació. 

La proliferació de documents digitals ha conduït, doncs, a un desenvolupament exponencial de indexació automàtica. D'altra banda, cada vegada són més corrents les bases de dades en les quals es poden consultar documents a text complet i això fa que la indexació automatitzada hagi començat a considerar-se un dels elements essencials en el camp de la cerca i recuperació d'informació. La gairebé totalitat dels sistemes de gestió electrònica de documents, inclouen ja un motor de indexació i cerca automàtica que processa el llenguatge natural i que permet la recuperació del contingut i existeixen moltes i molt variades eines i aplicacions informàtiques per realitzar aquestes noves funcions.

Models de Indexació automàtica:

La indexació automàtica se sol definir amb la següent fórmula:

  • Lingüística + Estadística + Informàtica= Indexació automàtica.
A la qual avui podem afegir un quart element:
  • Bases de coneixement + Lingüística + Estadística + Informàtica= Indexació automàtica. 
No obstant això, els diferent models d'indexació automatitzada utilitzen aquests elements en diferents graus. Els models d'indexació automàtica es poden classificar atenent als següents criteris (criteris que no són excloents, sinó moltes vegades concordants).

Segons el mètode d'extracció terminològica:


  • Mètodes lingüístics: utilitzen diferents nivells d'anàlisi lingüística; anàlisi lèxica, semàntic i contextual. Aquest tipus d'anàlisis es duen a terme mitjançant la utilització d'eines automàtiques per a cada nivell, com bases de dades lèxiques, utilització de corpus textuals o textos representatius d'una llengua, ús de diccionaris, analitzadors semàntics, analitzadors de context, etc.
  • Mètodes no lingüístics:
    • Extracció estadística de termes: el primer a usar l'anàlisi estadística per la indexació automàtica va ser Hans Peter Luhn d'IBM, qui ja en els anys 60 va mecanitzar l'anàlisi del contingut gràcies a l'autocodificació dels textos i la formació d'índexs KWIC (Key Word In Context).
    • Extracció probabilística de termes: basada en la freqüència d'aparició mitjana dels termes.
    • Extracció bibliométrica de termes: basat en l'anàlisi quantitativa de determinats termes presents en els documents de la bibliografia emprada en un camp concret.
    • Extracció infométrica de termes: basat en el tractament informàtic dels termes i l'enginyeria del coneixement. És el que se sol denominar data mining o mineria de dades, això és, l'explotació de dades per extreure coneixement.

 Segons la part del document que indexen: 


  • Indexen les parts principals del document: títol, resum, etc: Es calcula que en àmbits molt especialitzats, un 60% dels termes pertinents per la indexació, estan de forma explícita en el títol, un 30% està implicat en alguna paraula del títol i un 10% en el text.
  • Indexen el text complet.

Segons el control del vocabulari:

  • Llenguatges controlats: la identificació del document es realitza utilitzant un vocabulari controlat com a llistes de matèries, ontologies, etc.
  • Llenguatges lliures: la identificació es realitza a través d'una llista o conjunt obert de termes. 



Avantatges:

  • Rapidesa de indexació.
  • Rapidesa de cerca i resposta.
  • Multiplicació dels elements de recuperació.


INDEX

TEMA 1. ELS ARXIUS, PÚBLICS I PRIVATS 1.1.   Introducció 1.2.   Concepte d’arxiu 1.3.   Concepte de document 1.4.   El cicle vi...