Usuari:
Clau:
  [Recordar dades]
Pròxima data clau
16.11.2004: Sessió de cloenda presencial del Congrés ONLINE. 19'30h a l'Ajuntament de Barcelona (+ info)

Comunicacions
L'organització del congrés garanteix la traducció automàtica de totes les comunicacions i els fòrums entre el català, el castellà i l'anglès en totes les direccions, gràcies a Comprendium. Per aquest motiu encoratgem a usar la llengua catalana a qui la tingui com a pròpia

Llicències Creative Commons
Els materials, les obres i els continguts de presentació, difusió, invitació i explicació dels diferents Grups de Treball que composen aquest 'II Congrés Online 2004' es regeixen per la següent Llicència de Creative Commons:


Llicència de reconeixement-NoComercial

Més informació sobre l'aplicació de la llicència al Congrés

Inscripció Tancada
Tancada la fase d´inscripció, finalment som 4183 congressistes. Si vols obtenir les Actes electròniques del Congrés i el(s) certificat(s) de participació al mateix, PREM AQUÍ

Usuaris simultanis
Identificats:
Sense identificar:

Socis organitzadors

Generalitat de Catalunya

Diputació de Barcelona

Cornellà


GT-86. La llengua catalana a la Societat del ConeixementSupraGrup
Cap a una nova cultura?
Coordinació:
· Miquel Strubell i Trueta
· Marta Torres Vilatarsana
· Mercè Romagosa Huguet

CuCWeb: un corpus del català construït a partir de la web
Autor/-a/-s/-es:
  · Gemma Boleda Torrent
  · Stefan Bott
  · B P
  · María Eugenia Fuenmayor García
  · Toni Badia
  · Vicente López Martínez

Idioma original:
  · catala
Paraules clau:
 · catalunya
 · competència comunicativa
 · lingüística
 · llengua/llenguatge
 · societat de la informació


Article llegit 50355 vegades Text més petit
Text més gran

ABSTRACT
Aquest article presenta el Corpus d'Ús del Català a la Web (CUCWeb), un corpus de 208 milions de paraules (125.000 documents) compilat automàticament a partir de la Web. Aquest corpus ha estat processat automàticament per tal de proporcionar informació lingüística addicional a la mera forma de les paraules, i s'ha habilitat una interfície de cerca molt flexible que permet cercar exemples per a determinades construccions o paraules i també extreure freqüències d'ús. Creiem que aquest recurs és molt útil sobretot per a) conèixer la llengua catalana (estudis lingüístics) i b) conèixer l'ús que es fa de la Web en català (estudis sociolingüístics).

1. Motivació del projecte

1.1. Els corpus lingüístics
En l’estudi del llenguatge, els corpus lingüístics són col•leccions de textos preparats per a l’anàlisi lingüística. Tot i que pròpiament tota col•lecció de textos adequada per a l’anàlisi lingüística es considera un corpus (independentment del suport en què estigui guardada), actualment tots els corpus lingüístics realment útils estan en suport electrònic, ja que així poden ser consultats de manera molt més efectiva i eficient.

La compilació, organització i explotació de corpus lingüístics constitueix una de les activitats principals dels lingüistes i dels estudiosos de la llengua, amb l’objectiu de tenir-ne exemples reals d’ús. Els corpus permeten aproximar-se a la llengua d’una manera no normativa sinó descriptiva. Justament la possibilitat d’observar la llengua real i de descriure-la adequadament és l’avantatge principal que ofereixen els corpus lingüístics. Així, els corpus permeten de respondre preguntes com:

D’aquesta manera es pot descobrir que els catalans usem sovint el verb berenar com a transitiu, encara que el diccionari normatiu ens indiqui que és un verb intransitiu; o que hi ha variacions enormes en l’ús de la veu passiva amb verbs transitius, de manera que no tots els verbs ni tots els temps verbals tenen la mateixa freqüència d’ús de la veu passiva.

Els estudis lingüístics basats en corpus descobreixen els usos presents en el corpus sobre el qual s’han basat. D’aquí l’enorme importància de conèixer la manera com s’ha compilat un corpus. Així un corpus constituït per textos literaris dels anys 50 del segle passat permetrà descobrir i estudiar una llengua que és diferent en molts aspectes de la que podem descobrir a partir d’un corpus constituït per textos científics dels primers anys d’aquest segle. I no ens referim només a aspectes relacionats amb la temàtica o la ideologia subjacent en els textos, sinó també a l’ús lingüístic pròpiament dit: per exemple, a la freqüència amb què hi apareixen els pronoms febles hi i en, que han anat desapareixent de molts registres de la llengua; o a l’ús dels adjectius, que és clarament diferent en els contextos descriptius o en els argumentatius. Com que l’ús de la llengua no és uniforme, sinó variat i divers, el tipus de textos recollits en un corpus condiciona les conclusions que es puguin treure de la seva observació. Així doncs, la representativitat dels corpus, juntament amb la quantitat de text i la qualitat del text que recullen, són elements que determinen el seu valor.

1.2. El valor dels corpus lingüístics
Entre els principals factors que incideixen en el valor final d’un corpus destaquen la seva mida, l’origen dels textos que el composen i el marcatge lingüístic que incorpora. La grandària del corpus afecta tant el tipus d’informacions que se’n poden extreure com la seva representativitat.

En general, per a cada qüestió hi ha una grandària adequada per a observar-la. Per exemple, no necessitem un corpus de textos catalans gaire gran per adonar-nos que els articles en català precedeixen el nom; com que es tracta d’un fenomen lingüístic molt freqüent, ja és evident en textos molt curts. En canvi, per poder distingir entre l’ús de gens i de res, ens caldrà un corpus més gran, ja que aquest parell de paraules poden no aparèixer en textos curts, i per poder observar el comportament general en el corpus necessitarem un nombre significatiu d’exemples, per evitar que inadvertidament convertim en normal un tractament excepcional. Així mateix, quan busquem correlacions estadístiques en l’ús d’una paraula juntament amb unes altres (és a dir, quan volem veure amb quines paraules apareix una paraula determinada) necessitem corpus molt grans, perquè altrament no tenim exemples suficients de l’ús de la paraula en qüestió per ser significatius estadísticament. Per exemple, si estem interessats en conèixer amb quines preposicions tendeix a aparèixer un verb determinat, com interessar (que pot anar amb en, per, a...), necessitarem molts exemples d’aquest verb perquè puguem afirmar que interessar va més amb en que amb per.

Per altra banda, un corpus relativament petit conté menys mots i, per tant, exemplificarà l’ús de menys mots de la llengua, cosa que en condiciona la representativitat. En general, com més mots hi ha en un corpus, més mots hi tenen una freqüència significativa i, per tant, se’n poden extreure més dades sobre el seu comportament lingüístic.

L’altre gran factor que determina la representativitat dels corpus és l’origen dels textos que el componen. Si aquests tenen unes característiques comunes específiques, el corpus representarà només el seu tipus de llenguatge; per exemple, d’un corpus format per converses telefòniques no se’n podran extreure conclusions sobre la llengua científica. En les dues darreres dècades del segle XX, els recopiladors de corpus tenien molta cura en incorporar-hi textos suficientment rics i variats amb proporcions predeterminades per tal de representar la llengua general en qüestió: aquest ha estat el principi fonamental que ha guiat la creació dels grans corpus recollits en aquells anys (entre els quals el Corpus Textual Informatitzat de la Llengua Catalana, de l’Institut d’Estudis Catalans; v. RAFEL, 1994). Això no obstant, cal tenir en compte que el concepte de representativitat és discutible, difícil d’objectivar, i que els corpus són representatiu d’un ventall sempre restringit de variants lingüístiques (registres, gèneres, temàtiques, dialectes), en funció del criteri de qui el construeixi.

En aquest sentit, també s’han anat constituint corpus especialitzats amb l’objectiu d’estudiar a fons aspectes que no són prou representats en aquests corpus generals; així, per al català, actualment podem trobar corpus de llenguatges científics, corpus de llengua oral, corpus periodístics, etc.

La tercera característica que determina el valor d’un corpus és la informació addicional que té, cosa que determina la informació que se’n pot extreure. En un corpus hi pot haver dos tipus d’informació addicional: la general, que codifica informació sobre el text en qüestió (data, autor, origen...), i la lingüística, que caracteritza amb més detall cada una de les paraules del corpus (per exemple, indicant si roda és un verb o un nom en un exemple particular, o si cap és un verb, un nom, un determinant o una preposició). Com més extensa i acurada sigui la informació addicional que complementa el corpus, més exacta i rica serà la informació que se’n podrà obtenir.

1.3. El marcatge dels corpus lingüístics
Marcar un corpus consisteix precisament en incorporar-hi aquesta informació addicional. L’operació de marcar un corpus actualment se sol fer de forma automàtica, és a dir, utilitzant programes que efectuen aquest tipus de marcatge. El marcatge lingüístic d’un corpus consisteix en associar amb cada paraula informació sobre les seves propietats lingüístiques: de quina paraula es tracta, propietats morfològiques, sintàctiques... Vegem-ne un exemple, marcat amb la informació que conté el corpus que presentem en aquest article:



En l’exemple apareix la informació en columnes:

Com veurem, una codificació com aquesta permet fer cerques detallades en el corpus; per exemple, un nom en funció de subjecte, precedit per l’article el.

1.4. El corpus de la web catalana
A part dels corpus més o menys petits que els grups de recerca d’institucions públiques o empreses privades han anat recollint per a les seves investigacions i activitats, el corpus català més representatiu de la llengua general és el CTILC, Corpus Textual Informatitzat de la Llengua Catalana (creat per l’Institut d’Estudis Catalans). Aquest corpus té uns 52 milions de paraules i ha estat recollit amb la finalitat de conèixer el català real (des de les darreries del segle XIX fins als anys 80 el segle XX) i poder fer un diccionari que reflecteixi l’ús de la llengua estàndard, tal com apareix en els textos literaris, científics, periodístics...

El corpus que avui presentem té unes altres característiques i respon a uns objectius molt diferents. Es tracta d’un corpus extret automàticament de la web i processat de forma automàtica també. Això ha permès constituir-lo en terminis de temps realment molt curts: l’extracció de la web s’ha fet al mes d’abril del 2004 i el corpus i el seu sistema de consulta és operatiu des de finals de setembre del 2004. És clar, per tant, que no serà un corpus tan ben acabat com el CTILC (ja que tots els processos s’han dut a terme automàticament i no s’ha pogut fer una revisió manual de tot el corpus i el seu marcatge), però serà molt més gran (en aquest moment té més de 200 milions de paraules), cosa que permet fer-hi estudis que no són possibles amb corpus menors. No és un corpus representatiu de la llengua estàndard, com el CTILC, sinó un corpus representatiu de la llengua que utilitza la gent quan construeix pàgines Web en català, i dels documents que es troben a la Web. És per tant un corpus que mostra la llengua viva, en el seu ús immediat, en un context determinat; clarament, això és la seva limitació, però també el seu valor, des del punt de vista sociolingüístic.

En recopilar el Corpus d’Ús del Català a la Web, el CuCWeb, i posar-lo a disposició dels estudiosos i la societat catalana en general, la nostra intenció doncs ha estat la d’oferir un corpus amb unes característiques específiques, que el diferencien de tots els corpus catalans existents fins avui:
  1. un corpus ampli de la llengua catalana, el més ampli possible actualment, obtingut amb recursos relativament poc costosos o ja disponibles
  2. un corpus marcat amb informació lingüística bàsica (consistent en assignar de manera automàtica a cada paraula la informació sobre la seva forma, el seu lema, les seves propietats morfològiques i la seva funció sintàctica)
  3. un corpus de llengua real, representatiu de la llengua habitual, ja que la web permet una agilitat i immediatesa en la producció de textos escrits que no són possibles en cap altre mitjà
  4. un corpus fàcilment assequible a totes les persones interessades en aspectes concrets de la llengua:
    • lingüistes
    • lexicògrafs
    • professors i mestres
    • sociòlegs y sociolingüistes


2. Creació

El procés de creació del corpus s’ha dividit en tres etapes: el procés de recollida del domini .es (ap. 2.1), la classificació per idiomes (ap. 2.2), l’etiquetatge lingüístic i el processament amb un motor de cerca de corpus (ap. 2.3).

2.1. Procés de recollida del domini .es
El corpus s'ha obtingut a partir de les pàgines de la World Wide Web que són en servidors el nom dels quals (domini) acaba amb la terminació assignada a Espanya (.es). Es tracta d'una aproximació molt simple al que podria denominar-se “la web espanyola”, un concepte que, en rigor, no existeix. Una aproximació alternativa a la web espanyola seria considerar les pàgines allotjades a una màquina en territori espanyol. Però això inclou també nombroses pàgines d'empreses o institucions angleses que compleixen aquesta condició. L'idioma tampoc no és un element identificatiu, ja que l'espanyol no es pot relacionar unívocament amb Espanya.

En escollir les pàgines del domini de primer nivell .es, seleccionem les que els seus autors associen voluntàriament amb una marca o empresa espanyola. Un estudi preliminar sobre el contingut de la web allotjada en màquines del territori espanyol indica que el domini .es representa aproximadament un 40% del total (v. POBLETE et al., en preparació).

Es van recollir 7.752.967 pàgines del domini .es durant la primera quinzena d'abril del 2004, mitjançant els robots cedits per l'empresa especialitzada en motors de cerca Akwan (1). Aquestes eines es van utilitzar per extreure el text dels arxius HTML i dels que tenen un format estàndard de text (TXT, DOC, RTF, etc.). La col•lecció inclou també 577.529 fitxers en format PDF (Adobe).

Els documents extrets ocupaven inicialment 247 Gigabytes, que van quedar reduïts a 36,2 Gigabytes en separar el text de la resta dels components de les pàgines (és a dir, imatges, vincles, etc.). Les pàgines (urls) recollides estan organitzades en 24.378 llocs web que al seu torn formen part de 14.094 dominis de segon nivell.

2.2. Classificació lingüística dels documents
Un cop recollits tots els documents del domini .es, es va procedir a la seva classificació en funció de la llengua, per tal de saber la composició lingüística del domini .es i identificar-ne la part catalana. Aquest procés es va fer en dues fases: mitjançant un sistema estadístic (ap. 2.2.1) i amb un filtre posterior sobre el corpus català, utilitzant informació lingüística.

2.2.1. Classificació mitjançant un sistema estadístic
Per poder identificar la llengua d’un document de manera automàtica, cal entrenar un sistema estadístic amb documents de cada una de les llengües que es vol reconèixer. Per tant, vam recollir una sèrie de corpus en deu idiomes, corresponents a les llengües més freqüents de la Web segons KILGARRIF i GREFENSTETTE 2003 (anglès, alemany, francès, castellà, italià, portuguès i neerlandès), més 3 llengües que suposàvem que serien freqüents al domini .es: l’èuscar, el gallec i el català (2) (3). Vam utilitzar el sistema de lliure distribució Bow (MCCALLUM 1996) per construir un classificador de llengües, basat en el mètode de Naive Bayes (v., p. ex., MITCHELL, 1997, o DUDA et al., 2000).

Els corpus es van utilitzar per ajustar els paràmetres del classificador estadístic, i la classificació dels documents de la web es va realitzar de manera molt restrictiva per tal de minimitzar el nombre de falsos positius, és a dir, el nombre de documents classificats com a català que no ho fossin. La taula 1 resumeix el resultat del procés de classificació inicial, amb la distribució del domini .es per idiomes en funció del nombre de documents, el nombre de paraules, i els Megabytes (MB) que ocupa cada idioma (4).



Com a resultat de la primera fase de classificació, es van obtenir 232.692 documents classificats com a català, el que correspon a un 3,04% dels documents. Si considerem com a mesura les paraules i no els documents, el volum de català és el 5,6% del total, i és el tercer idioma amb més presència al domini .es, després del castellà i l’anglès (en nombre de documents, el francès és lleugerament superior, però es tracta de documents amb menys text). També cal fer notar que, en funció del criteri escollit (nombre de documents, de paraules o de Megabytes), el català suposa entre un 10 i un 12% del volum total de textos escrits en un idioma oficial d'Espanya al domini .es (en negreta a la taula). El gallec i l’èuscar suposen un 1-2% i el castellà un 86-88% dels documents escrits en un idioma oficial.

Respecte als idiomes no oficials, només l’anglès i el francès tenen una presència significativa al domini .es, ja que l’alemany, el portuguès i el neerlandès no arriben ni al 1% de presència en cap dels criteris escollits. L’anglès, en canvi, representa gairebé un terç del domini .es mesurat en paraules i MB.

El criteri utilitzat, tan restrictiu, va fer que al 52,7% dels documents no se’ls assignés cap idioma (línia Desconegut a la taula). D’aquests, la majoria són documents amb molt poques paraules: el nombre mitjà de mots és de 180, mentre que la resta tenen una mitjana d’uns 1600 mots. Aquest baix nombre de paraules és, en la majoria dels casos, el que fa que no es puguin classificar fiablement. En aquest grup també hi ha els documents escrits en llengües per a les qual no teníem corpus d’entrenament, així com documents sense un idioma clar (documents formats bàsicament per imatges, documents multilingües).

2.2.2. Filtre lingüístic
La classificació automàtica permet fer-se una idea prou fiable de la distribució de la web en idiomes, però per construir un corpus cal filar una mica més prim. Això és el que es va dur a terme a la segona fase del procés de classificació, en què es va utilitzar un filtre addicional lligat a la informació lingüística pròpia del català. Per a aquesta finalitat, es va utilitzar una de les eines originalment creades per al marcatge lingüístic (v. ap. 2.3): el formari, diccionari de formes flexionades, que es va aplicar per marcar les paraules dels textos com a catalanes o no. Cap formari no pot ser complet, entre altres raons per la capacitat del llenguatge de crear noves paraules, però es va considerar que per tal de classificar un text com a adequat per formar part del corpus, un gran percentatge de les paraules havien de ser paraules existents i conegudes del català. Així, es van filtrar tots els documents que contenien més de 15% de paraules desconegudes.

A més del problema de textos no catalans, ens vam trobar altre cop amb el problema que hi ha documents que en realitat no es poden atribuir a una llengua en particular, sobretot llistats de noms propis, molta part dels quals no s’havien descartat a la primera fase (perquè tenien una frase de presentació en català, o alguna altra característica). Els noms propis no es poden llistar exhaustivament a un formari i per això es detecten mitjançant heurístiques. El problema central és que qualsevol nom propi es pot interpretar com a paraula existent del català, però també una paraula existent de totes les altres llengües. A més, fins i tot en cas de textos que es poden atribuir al català, el problema és que no solen ser textos coherents si contenen molts noms propis perquè la majoria d'ells són o contenen mers llistats. No representen l'ús de la llengua en el sentit estricte. Per això tampoc no interessava incloure aquests documents en un corpus lingüístic, i es va descartar tots els documents que contenien més de 30% de paraules classificades com a noms propis.

Això va reduir la mida del Corpus fins a un volum de 165.386 documents i 262 milions de paraules. Finalment, com que a la web hi ha entre un 10 i un 30% de documents duplicats, vam aplicar un procés de detecció de documents duplicats, la qual cosa va reduir el corpus als 125.000 documents amb 208 milions de paraules que té actualment. Malgrat aquest estricte procés de classificació i depuració, al corpus hi ha documents multilingües, amb predomini del català però amb fragments en d’altres idiomes, cosa que cal tenir en compte a l’hora d’extreure’n informació.

2. 3. Processament dels textos
Els textos extrets de la web i ja classificats com a català es van etiquetar amb un seguit de gramàtiques per al català desenvolupades al grup GLiCom de la Universitat Pompeu Fabra, el sistema CatCG (v. ALSINA et al., 2002). Aquesta eina segmenta els textos en paràgrafs i oracions, detecta noms propis, contraccions, pronoms clítics i d’altres formes especials, i finalment assigna lema, categoria morfològica i funció sintàctica a cada mot. El resultat de l’aplicació de l’eina a l’oració La fi de la guerra va suposar la fi de la lluita contra el règim està exemplificat a la figura 1.

Finalment, els textos es van processar amb les eines del Corpus WorkBench (CWB), desenvolupades a l’Institut für Maschinelle Sprachverarbeitung de la Universitat de Stuttgart (CHRIST, 1994) (5). Aquestes eines, de lliure disposició per a finalitats de recerca, indexen els textos de manera que es puguin consultar de manera ràpida i eficient mitjançant CQP (Corpus Query Processor), el motor de cerca de corpus del CWB. El CQP permet una gran flexibilitat i expressivitat en les cerques, ja que s’hi pot utilitzar qualsevol expressió regular, i la consulta eficient de qualsevol de les informacions lingüístiques. Això no obstant, és una eina molt poc user-friendly, amb una sintaxi pròpia, per la qual cosa es va dissenyar una interfície web adequada a les necessitats de l’usuari potencial, tal i com veurem a l’apartat 4.


3. Característiques del fragment català del domini .es

Per caracteritzar la Web catalana, considerem els dominis de segon nivell que pengen del domini .es i en els quals hem detectat almenys una pàgina en català. Això fa un total de 1.548 dominis, dels quals 407 tenen una sola pàgina en català. A més, la majoria de les pàgines estan concentrades en uns quants dominis: 30 dominis contenen el 70% de les pàgines en català i amb només 13 dominis s'arriba a la meitat de les pàgines. A la ¡Error! No se encuentra el origen de la referencia. es presenten dades dels 15 dominis de la web que tenen major nombre de pàgines en català.



Tots aquests dominis corresponen a universitats i institucions públiques. De fet, les universitats tenen el 42% de totes les pàgines en català del domini .es. Respecte al caràcter bilingüe o multilingüe de la web catalana, cal fer notar que 266 dominis tenen més del 90% de les seves pàgines en català, 624 en tenen menys del 10%, i la resta (669) entre el 10% i el 90%.

3.1. Explotació
L’explotació del corpus es pot fer bàsicament de dues maneres: a través de la interfície web i a partir dels fitxers del corpus com a recurs en local, ja que el corpus és de lliure distribució per a finalitats de recerca. Per exemple, ja s’està fent servir per classificar els verbs automàticament en funció del tipus de complements que poden tenir (verbs transitius, intransitius, etc.); v. MAYOL et al. (en preparació). Això no obstant, es preveu que l’ús majoritari del corpus sigui a través de la interfície.

La interfície web, disponible a l’adreça http://www.catedratelefonica.upf.es/, és molt flexible respecte de la mena de cerques que es poden fer. Inclou dues interfícies de cerca (cerca d’exemples i cerca de freqüències), i per a la cerca d’exemples s’han previst dues modalitats de cerca: el mode simple, que permet fer cerques d’una o més paraules, lemes, categories morfològiques o funcions sintàctiques, i el mode expert, que permet buscar fins a cinc elements amb possibilitat de restringir qualsevol d’aquests elements, tal i com veurem a continuació amb més detall.

3.2. Cerca d’exemples, mode simple
Al mode simple, només cal introduir la paraula o paraules que volem cercar i prémer el botó “Mode simple”:


Veiem a la següent figura el resultat (parcial) que obtindrem amb la cerca “interessar”:


Observeu que s’ofereixen moltes facilitats per visualitzar i recuperar la informació: baixar els resultats en un fitxer de text, canviar el context, accedir a una còpia local del document on s’ha trobat l’exemple, i accedir a la url original.

Si en lloc de buscar per forma busquem per lema (selecció a partir de Tipus de cerca), obtindrem més resultats, ja que recuperarem qualsevol forma del verb interessar. Podem així mateix especificar més d’una paraula o lema, separats per espai. Si busquem “interessar per” i especifiquem el tipus de cerca “lema”, obtindrem els resultats reflectits parcialment a la següent figura:



El tipus de cerca es pot restringir encara; per exemple, es pot buscar la paraula roda especificant alhora que sigui verb (opció “Categoria morfològica”), i s’obtenen exemples com els següents:


Observi’s que hi ha errors, com a en roda de premsa, en què es tracta d’un nom. Això és degut que l’etiquetatge és automàtic, i l’etiquetador l’ha etiquetat com a verb.

Finalment, es pot restringir la funció sintàctica, per exemple buscant la paraula roda com a nom i en funció de complement directe, amb la qual cosa s’obtenen exemples com els següents:


3.3. Cerca d’exemples, mode expert
El mode expert és més flexible però una mica més complex i menys transparent que el mode simple. Està pensat per a usuaris que estiguin familiaritzats amb el mode simple o bé amb d’altres interfícies de cerca de corpus. Es poden fer cerques sobre fins a cinc unitats o paraules, i permet fer cerques sobre diferents tipus d’informació en funció de la unitat. Per exemple, la següent cerca no es pot fer en el mode simple:




Així busquem el verb interessar seguit de preposició, sense especificar quina, a diferència d’abans, en què havíem d’especificar el lema de la preposició que ens interessava. Amb aquesta cerca obtenim resultats com els següents:



Aquest mode de cerca ofereix també la possibilitat de negar elements (p.ex., interessar no seguit de preposició), d’especificar més d’un element (per exemple, nom seguit d’un o més adjectius) i d’expressar opcionalitat (per exemple, nom seguit opcionalment d’un adverbi seguit d’adjectiu). Igual com la cerca simple, també permet buscar sobre funcions sintàctiques.

3.4. Cerca de freqüències
Per a segons quines finalitats, com per exemple l’elaboració de diccionaris, no cal només mirar exemples, sinó avaluar la freqüència relativa dels fenòmens que s’estudien. Per exemple, per a un lexicògraf és rellevant d’observar quina mena de complements són més freqüents amb un verb determinat, per tal d’ordenar i escollir les accepcions i els exemples. La interfície estadística del corpus està pensada per fer aquest tipus de cerques.

Seguint amb l’exemple d’interessar, si volem saber quines preposicions són més freqüents, podem fer la cerca següent.



En aquesta cerca, demanem que ens llistin les freqüències dels lemes de les preposicions que segueixen el lema interessar. Els resultats que obtenim mirant els 10 primers milions del corpus són els següents (6).



Veiem que la preposició més freqüent és en, però això pot resultar enganyós. Si mirem les formes del verb interessar que apareixen amb cada preposició (especificar addicionalment “Freqs. forma” a la Posició 1, opció “Mostra com a resposta”), veurem que el que apareix amb la preposició en són els participis (interessada, interessats), i en canvi la resta de formes (interessa, interessar, interessen) apareixen més freqüentment amb per. Aquesta mena d’informació és crucial per a un lexicògraf, i útil per a redactors i d’altres usuaris amb necessitats lingüístiques. També es pot explotar aquesta informació en la docència del català, tant per a ensenyament a nadius (sobretot a secundària i batxillerat) com per a aprenents del català com a llengua estrangera.


4. Conclusions i camins futurs

En aquest article hem presentat el CuCWeb, Corpus d’Ús del Català a la Web, un corpus construït i etiquetat de manera totalment automàtica a partir de la web. A més de construir el corpus, hem dissenyat i posat a disposició del públic una interfície que permet consultar-lo de manera molt flexible.

La web té molts avantatges davant d’altres recursos per construir corpus: és de lliure distribució, conté grans masses textuals i s’hi pot accedir de manera automàtica. També té desavantatges: sobretot, el fet que no hi ha massa control sobre el seu contingut, ni d’edició ni de cap altra mena. Això vol dir que ens trobarem documents amb errors d’ortografia, gramaticals, amb barreges d’idiomes, estrangerismes, etc. Aquí és també, però, on resideix el repte i la riquesa d’aquest corpus, perquè permet estudiar la llengua en un entorn no academitzat.

Creiem que el corpus pot ser útil a professionals de la llengua (traductors, mestres, lexicògrafs, lingüistes) i a usuaris de la llengua en general. Ja és molt habitual utilitzar Google per a consultes lingüístiques, tant, que fins i tot s’ha habilitat una interfície per fer-les (7). La interfície del CuCWeb, a http://www.catedratelefonica.upf.es/, permet també fer aquesta mena de consultes específicament per al català i amb possibilitats de cerca molt més riques.

Amb un corpus de 208 milions de paraules, però, queda molt de camí per recórrer. No es pot inspeccionar de manera manual, per la qual cosa cal desenvolupar mètodes automàtics per analitzar i classificar el seu contingut. La part lingüística està resolta amb l’etiquetador automàtic; què es pot dir, però, de la part extralingüística? És a dir, quina mena de documents hi ha? De quins gèneres i temàtiques? En el futur, caldrà dedicar-se a aprofundir en aquesta mena de qüestions, que estan a la frontera entre l’estudi lingüístic i el sociolingüístic. Una primera aproximació pot ser classificar els documents segons l’origen, i permetre per exemple fer cerques sobre pàgines d’universitats, o d’una determinada institució pública.

Un altre repte és el del multilingüisme. Fins ara, tot l’etiquetatge està fet com si els documents fossin escrits totalment en català. Caldrà identificar i separar les parts escrites en altres idiomes, i es podria pensar d’integrar-los a la interfície també, de manera que es poguessin fer cerques sobre aquests fragments de manera separada. Així mateix, es podria aprofitar el fet que hi ha moltes pàgines que tenen versió bilingüe (o trilingüe) per extreure automàticament corpus paral•lels, és a dir, corpus amb la mateixa informació en versió catalana, castellana, anglesa, etc. Aquesta mena de recurs és molt útil tant per a aproximacions científiques a la llengua (estudis interlingüístics) com per a aplicacions (traducció automàtica, diccionaris multilingües).

Finalment, seguint amb la diversitat lingüística, una altra línia de recerca que s’obre és l’ampliació del procés a d’altres dominis. Estem processant els dominis .com, .net, .org i d’altres per tal d’identificar-ne les parts en català, ja que la majoria de pàgines personals i d’empreses són en dominis que no són .es, per raons sociològiques. Igualment, es pot ampliar a d’altres idiomes o varietats, pensant per exemple en comparar el castellà de Xile i el castellà d’Espanya. Les possibilitats, com la web mateixa, són immenses.


Bibliografia

  • ALSINA, À., T. BADIA, G. BOLEDA, S. BOTT, À. GIL, M. QUIXAL, O. VALENTÍN, 2002, "CATCG: a general purpose parsing tool applied", a Proceedings of Third International Conference on Language Resources and Evaluation (LREC), Las Palmas
  • BURNARD, L., 1995, The BNC Reference Manual, Oxford: Oxford University Computing Service
  • CHRIST, O., 1994, "A modular and flexible architecture for an integrated corpus query system", a Proceedings of COMPLEX'94, Budapest
  • DUDA, R. O., P. E. HART i D. G. STORK, 2000, Pattern Classification, New York: John Wiley & Sons
  • KILGARRIFF, A. i G. GREFENSTETTE, 2003, "Introduction to the Special Issue on the Web as Corpus", a Computational Linguistics, vol. 29, no. 3, pp. 333-348
  • MAYOL, L., G. BOLEDA i T. BADIA, en preparació, "Automatic Learning of Syntactic Verb Classes"
  • MCCALLUM, A., 1996, Bow: A toolkit for statistical language modeling, text retrieval, classification and clustering, disponible a http://www.cs.cmu.edu/~mccallum/bow/.
  • MITCHELL, T. M., 1997, Machine Learning, New York: Mc Graw Hill
  • POBLETE, B., M. E. FUENMAYOR, C. CASTILLO, R. BAEZA-YATES, V. LÓPEZ, "Características de la Web española", en preparació
  • RAFEL, J. 1994. Un corpus general de referència de la llengua catalana", a Caplletra, vol. 17, pp. 219-250
  • SEBASTIÁN, N., CUETOS, F., MARTÍ, M.A., CARREIRAS, M.F., 2000, LEXESP: Léxico informatizado del español, edició en CD-ROM, Barcelona: Edicions de la Universitat de Barcelona


    NOTAS

  • [1] - V. http://www.akwan.co.br i http://www.raditech.es.
  • [2] - En rigor, el gallec no és una llengua, sinó un dialecte del portuguès. Això no obstant, com que el classificador funciona amb qualsevol variant lingüística si es té prou corpus d’entrenament, vam diferenciar el gallec per tal de possibilitar l’estudi de la seva presència a la Web.
  • [3] - Els corpus utilitzats són els següents:
    Anglès: British National Corpus. BURNARD (1995)
    Alemany: textos del diari Frankfurter Rundschau, anys 1992-1993. Cedit per Universität Gesamthochschule (Paderborn, Alemanya).
    Francès: textos dels diaris Le Monde i Le Soir, any 1995. Cedit per CENTAL (Lovaina, Bèlgica).
    Castellà: corpus LexEsp. SEBASTIÁN et al., 2000.
    Italià: fragment del corpus PAROLE. Cedit per ILC (Pisa, Itàlia).
    Portuguès: textos del diari O Publico, any 1999. Cedit per CENTAL (Lovaina, Bèlgica).
    Neerlandès: textos del diari NRC Handelsblad. Cedit per CENTAL (Lovaina, Bèlgica).
    Euskera: fragments d’un corpus del grup IXA (Universidad del País Vasco). Cedit per aquest grup.
    Gallec: fragment del corpus CLUVI. Cedit pel SLI (Vigo).
    Català: fragment del corpus CTILC. Cedit per l’IEC.
    Els autors expressem el nostre agraïment a totes aquestes institucions per la cessió dels corpus.
  • [4] - No hi ha les dades per a l’italià perquè el corpus es va rebre després d’haver construït el classificador. Els textos en italià, doncs, es classifiquen de moment com a desconegut. En el futur integrarem aquest idioma.
  • [5] - V. http://www.ims.uni-stuttgart.de/projekte/CorpusWorkbench/.
  • [6] - Aquesta cerca triga 18 segons. El fragment de corpus que sobre el qual es vol fer l’estadística es pot especificar, ja que les estadístiques sobre els 208 milions de corpus poden trigar 10 minuts o més.
  • [7] - A http://cli.la.asu.edu/togoogleornot.htm.



    Article llegit 50355 vegades Text més petit
    Text més gran