Complemente de Informatica - Forum Forum Index Complemente de Informatica - Forum
Discutie (libera) despre proiectul la Complemente de Informatica
 
 FAQFAQ   SearchSearch   MemberlistMemberlist   UsergroupsUsergroups   RegisterRegister 
 ProfileProfile   Log in to check your private messagesLog in to check your private messages   Log inLog in 

Intrebari & raspunsuri

 
Post new topic   Reply to topic    Complemente de Informatica - Forum Forum Index -> Discutie sistem de stiri
View previous topic :: View next topic  
Author Message
traian.rebedea
Site Admin


Joined: 19 Oct 2006
Posts: 101

PostPosted: Sun Dec 10, 2006 4:45 pm    Post subject: Intrebari & raspunsuri Reply with quote

INTREBARI:

1). Asa cum este formulat enuntul proiectului, se poate realiza in orice, de exemplu in Php & o baza de date Mysql sau in C# cu Microsoft Sql Server ?
2). Referitor la gruparea stirilor pe categorii. Eu vad problema in felul urmator: presupunem ca eu am N categorii predefinite. Atunci cand citesc de pe RSS-ul de la google sa zicem, trebuie neaparat sa o introduc intr-o categorie predefinita de mine (presupunem ca am una "Diverse" unde intra toate cele care nu se pot baga in alta categorie). Totusi ... cum se face aceasta clasificare ? Cu string-matching am mai lucrat, dar nu vad cum se poate adapta aici. Aveti documentatie suplimentara referitor la aceasta clasificare?
3). In schema de functionare la pasul 3 trebuie gasit vectorul caracteristic pt o stire noua. Cum folosim aceasta tehnica in clasificarea pe categorii? Exista algoritmi specifici ? Aveti si documentatie ?

RASPUNSURI:

1) Desigur. Depinde de afinitatile fiecaruia dintre voi - nu tin neaparat ca proiectul sa fie web, pentru ca nu acesta este scopul sau.

2) Algoritmii folositi pentru clasificarea automata nu au legatura cu SM, ci cu invatarea supervizata de la A.I. Clasificarea se face in doua etape diferite: o etape de antrenare a modelului folosit pentru clasificare ce necesita un set de date de antrenament (preclasificate) si etapa de functionare propriu-zisa a clasificatorului (etapa de decizie).

3) In principiu, este de preferat sa se clasifice subiectele de stiri (grupurile obtinute ca rezultat al clustering-ului), in acest fel rezultatele obtinute vor fi mai bune. Pentru mai multe detalii despre clasificarea textelor, acum o saptamana, am pus pe site un capitol de carte in topicul acesta http://www.createit.ro/ci/viewtopic.php?t=25 . Astept acolo intrebarile voastre. Daca mai este nevoie, va pot pune si alte materiale despre acest subiect.
Back to top
View user's profile Send private message Send e-mail
sandoiu_mihai



Joined: 24 Dec 2006
Posts: 2

PostPosted: Sun Dec 24, 2006 12:56 pm    Post subject: despre clustering Reply with quote

salut,

este ok sa folosim "Naive bayesian filtering" (ipoteza sacului de cuvinte) ?

Ma gandesc ca ar merge aplicata astfel:
1. eliminare stopwords
2. stemming
3. training "naive bayesian" - timp de 5 zile sa spunem. Adica aplicatia colecteaza date si le specific eu categoriile in care sa le bage. Asta se poate face de mana.
4. nu mai fac training, fac direct clasificare in categoriile mele.

Pentru momentul 4, aplicatia:
-culege o stire
-vede in ce categorie intra
-pune stirea in acea categorie
-recalculeaza probabilitatile a.i. programul e mai destept cand abordeaza alte stiri in continuare

Acum ma intreb ce fel de rezultate ar da acest tip de abordare...
Multumesc anticipat,
Back to top
View user's profile Send private message
traian.rebedea
Site Admin


Joined: 19 Oct 2006
Posts: 101

PostPosted: Wed Dec 27, 2006 4:20 am    Post subject: Reply with quote

Pentru abordarea Google News cu clasificare, folosirea unui clasificator de tipul Bayes naiv este o varianta bunicica si eu sunt de acord cu ea.

In legatura cu functionarea am doar cateva observatii. Culegerea stirilor incadrate deja in categorii se poate face automat de la agentiile mari de stiri. Deci setul de antrenament puteti sa-l luati in cateva zile, adunand doar niste RSS-uri, nu trebuie sa incadrati voi de mana fiecare stire intr-o categorie. Desigur, ca merge si varianta propusa de tine dar cred ca dureaza mai mult, tinand cont ca pentru a avea un clasificator cat de cat bun e bine sa aveti cel putin cateva sute (chiar mai bine de o mie) de stiri la antrenare.

La clasificarea efectiva a stirilor, este bine sa nu lasati clasificatorul sa si invete pentru ca s-ar putea sa-i dauneze, in loc sa-l faca mai destept.

Parearea mea este ca o astfel de abordare o sa aiba o precizie de circa 60-70%. Chiar va rog sa-mi calculati precizia pentru fiecare categorie (evental si amintirea) in parte si per total pentru intregul clasificator. Daca aveti nevoie de ajutor pentru asta, sa-mi scrieti si va dau eu niste materiale.
Back to top
View user's profile Send private message Send e-mail
sandoiu_mihai



Joined: 24 Dec 2006
Posts: 2

PostPosted: Wed Dec 27, 2006 10:03 am    Post subject: Clustering Reply with quote

La Multi Ani !

O noua intrebare:

Am ales "Naive Bayes" pentru clusteringul stirilor.

De asemenea, am studiat posibilitatea de a folosi o analiza de similaritate. Mi se returneaza un indice gen card(intersectie multimi)/card(reuniune multimi).
Am uitat cum se chema Smile
Ideea e ca sterg din stiri pe cele care deja au similiaritate > 0.3 sa zic.
In felul acesta pot vedea daca au fost mai multe stiri pentru un eveniment, si pastrez numai una.

E ok sa folosesc similaritatea pentru "filtrare", sau ea ar fi avut rost doar ca metoda de clustering, in loc de naive bayes, in cazul meu ?
Back to top
View user's profile Send private message
traian.rebedea
Site Admin


Joined: 19 Oct 2006
Posts: 101

PostPosted: Wed Dec 27, 2006 8:28 pm    Post subject: Reply with quote

Pentru a determina stirile cu acelasi subiect, este mai bine sa folosesti intai un algoritm de grupare, iar apoi sa faci clasificarea subiectelor. In acest fel, vei avea vectori mai consistenti pentru fiecare subiect, deci si clasificarea va functiona mai bine.

Dupa cum am mai zis, nu este necesar sa faceti si clustering si clasificare, decat daca vreti sigur nota 10. Daca clasificatorul Bayes naiv functioneaza bine, eu sunt multumit. Dar vreau tabelul cu datele specifice clasificatorului: precizia si amintirea pentru fiecare categorie.
Back to top
View user's profile Send private message Send e-mail
roman.bogdan



Joined: 14 Jan 2007
Posts: 1

PostPosted: Tue Jan 16, 2007 2:18 pm    Post subject: probleme cu cod Reply with quote

sal...incerc sa fac in java GN dar nu ma lasa sa dau getDescription().getValue()..cica getValue undefined for class string??? ai auzit de asa ceva ?merci.
am cautat pe Google exemple de cod si toata lumea il foloseste fara nici o greatza..trebuie sa mai includ ceva desi nu vad ce..merge getTitle,getAuthor,si chiar getDescription simplu.
Back to top
View user's profile Send private message
traian.rebedea
Site Admin


Joined: 19 Oct 2006
Posts: 101

PostPosted: Tue Jan 16, 2007 9:15 pm    Post subject: Reply with quote

Nu vad care poate sa fie problema. Eu nu am intampinat nici o dificultate cu ROME. Codul meu arata cam asa (legat de prelucrarea description):

rssItem.getDescription() == null ? "" : rssItem.getDescription().getValue()

insa pentru a evita un NullPointerException...
Back to top
View user's profile Send private message Send e-mail
maximilian



Joined: 16 Nov 2006
Posts: 3

PostPosted: Wed Jan 17, 2007 7:17 am    Post subject: Reply with quote

(Îmi dau cu părerea) Poate ai o versiune mai veche care returnează String în loc de o clasă definită de librăria respectivă.
Back to top
View user's profile Send private message
Display posts from previous:   
Post new topic   Reply to topic    Complemente de Informatica - Forum Forum Index -> Discutie sistem de stiri All times are GMT + 2 Hours
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum


Powered by phpBB © 2001, 2005 phpBB Group