traian.rebedea Site Admin
Joined: 19 Oct 2006 Posts: 101
|
Posted: Wed Dec 27, 2006 4:02 am Post subject: Intrebari si raspunsuri |
|
|
Intrebari:
As dori sa folosesc si un tagger. Mi-ai recomandat sa fac proiectul din 2 parti: prima in care fac rezumarea in functie de numarul de aparitii
ale cuvintelor si a doua parte rezumarea este facuta folosind tagger-ul. Eventual in final fac o comparatie a rezultatelor obtinute.
Acum intrebarile pentru prima parte: eu am numarul de aparitii ale fiecarui cuvant. Cum imi dau seama care e mai important? Am inteles ca as putea folosi formula tfidf? Ma gandeam sa aflu ponderea unui cunvant intr-o replica. In functie de aceasta pondere si de numarul de aparitii al cuvantului in toata conversatia extrag replicile importante. Aleg eu un prag de la care ponderea e importanta?
Pentru a doua parte cea cu taggerul, ma gandeam sa consider importante doar substantivele si verbele. Acum cu aceste substantive si verbe ce fac?
Le aloc si lor ponderi? Aici nu prea am inteles. Dupa ce vad fiecare cuvant ce parte de vorbire reprezinta, elimin stopwords si fac stemming?
Raspunsuri
In primul rand, pentru a afla importanta unui cuvant, poti sa folosesti mai multe metode:
- numarul de aparitii al cuvantului respectiv in cadrul intregii discutii, indiferent de loc;
- numarul de replici distincte in care apare cuvantul;
- o combinatie a celor doua metode anterioare;
- tfidf poate sa fie util pentru a afla importanta unui cuvant intr-o replica, din cauza faptului ca un cuvant ce apare in replici mai putine este mai semnificativ pentru replica respectiva, dar nu vad cum ar putea fi folosit aici. Cel mult, poti sa calculezi importanta unui cuvant pentru o replica folosind tfidf si apoi sa aduni aceste ponderi, dar nu cred ca ai nevoie.
- sigur, exista si alte alternative pentru calculul cuvintelor impoartante.
Folosirea unui tagger sau a API-ului de la Wordnet este o cerinta pentru un proiect de nota 10, la rezumarea sesiunilor de chat. In cazul in care vei folosi tagger-ul, dupa ce afli care sunt substantivele si verbele, aplici celelalte tehnici (eliminare cuvinte stop, stemming) si continui cu exact acelasi proces de aflare a importantei fiecarui cuvant de la pasul anterior (cand nu se foloseste taggerul). |
|