Nell'era della tecnologia dell'informazione, i documenti testuali aumentano spontaneamente su Internet, e-mail, pagine web, relazioni offline e online, riviste, articoli e vengono archiviati in formato elettronico. Ogni giorno vengono creati milioni di nuovi file di testo e, a causa della mancanza di classificazione, si perdono vaste informazioni che sono utili per diverse sfide. Mantenere e accedere a questi documenti molto difficile senza un'adeguata classificazione e quando c' una classificazione senza alcuna informazione si parla di clustering. Per superare queste difficolt , K-means e altri vecchi algoritmi di clustering non sono adatti a fornire quanto ci si aspetta dalle lingue naturali. A causa dell'elevata dimensionalit dei testi, della presenza di indizi di struttura logica all'interno dei testi e di nuove tecniche di segmentazione, si sono sfruttati i progressi degli algoritmi generativi di topic modeling, specificamente progettati per individuare le domande a intervalli di testo per decifrare le distribuzioni tematiche delle parole. Tenendo conto di questa limitazione, l'algoritmo di clustering concettuale COBWEB stato applicato ai dati pre-elaborati. Per garantire l'accuratezza dei cluster, sono stati selezionati i metodi di misurazione dell'accuratezza f-measure per la valutazione dei cluster.
ThriftBooks sells millions of used books at the lowest everyday prices. We personally assess every book's quality and offer rare, out-of-print treasures. We deliver the joy of reading in recyclable packaging with free standard shipping on US orders over $20. ThriftBooks.com. Read more. Spend less.