Giorgio Giacinto

UniCa Ateneo Docenti e ricercatori Giorgio Giacinto Ricerca Prodotti della Ricerca (IRIS)

Giorgio Giacinto

Triplétoile: Extraction of knowledge from microblogging text

Zavarella V.;Consoli S.;Reforgiato Recupero D.;Fenu G.;Angioni S.;Buscaldi D.;Dessi D.;Osborne F.

2024-01-01

Abstract

Numerous methods and pipelines have recently emerged for the automatic extraction of knowledge graphs from documents such as scientific publications and patents. However, adapting these methods to incorporate alternative text sources like micro-blogging posts and news has proven challenging as they struggle to model open-domain entities and relations, typically found in these sources. In this paper, we propose an enhanced information extraction pipeline tailored to the extraction of a knowledge graph comprising open-domain entities from micro-blogging posts on social media platforms. Our pipeline leverages dependency parsing and classifies entity relations in an unsupervised manner through hierarchical clustering over word embeddings. We provide a use case on extracting semantic triples from a corpus of 100 thousand tweets about digital transformation and publicly release the generated knowledge graph. On the same dataset, we conduct two experimental evaluations, showing that the system produces triples with precision over 95% and outperforms similar pipelines of around 5% in terms of precision, while generating a comparatively higher number of triples.

Scheda breve

Scheda completa

Scheda completa (DC)

         Anno di pubblicazione 
       
        2024 
       
         Lingua/e 
       
        Inglese 
       
         Titolo della Rivista 
       
        HELIYON 
       
         Volume 
       
        10 
       
         Fascicolo 
       
        12 
       
         Article Number 
       
        e32479 
       
         Numero di pagine 
       
        18 
       
         Codice DOI 
       
        https://dx.doi.org/10.1016/j.heliyon.2024.e32479 
       
         Codice UT ISI 
       
        WOS:001252979200001 
       
         Codice Scopus 
       
        2-s2.0-85195554525 
       
         PMID 
       
        39183851 
       
         Referee 
       
        Esperti anonimi 
       
         Rilevanza della rivista 
       
        internazionale 
       
         Caratterizzazione prevalente 
       
        scientifica 
       
         Parole chiave 
       
        Information extraction; Knowledge graphs; Social media analysis; Named entity recognition; Hierarchical clustering; Word embeddings 
       
         Presenza di coautori internazionali 
       
        sì 
       
         Tutti gli autori 
       
        Zavarella, V.; Consoli, S.; Reforgiato Recupero, D.; Fenu, G.; Angioni, S.; Buscaldi, D.; Dessi, D.; Osborne, F.
         
         Tipologia 
       
        1.1 Articolo in rivista 
       
         Tipologia 
       
        info:eu-repo/semantics/article 
       
         Tipologia 
       
        1 Contributo su Rivista::1.1 Articolo in rivista 
       
         Tipologia sito docente 
       
        262 
       
         Numero autori 
       
        8 
       
         Fulltext 
       
        open 
       
         Tipologia: 
       
        1.1 Articolo in rivista

File in questo prodotto:

File	Dimensione	Formato
Triplétoile_ Extraction of knowledge from microblogging text - 1-s2.0-S2405844024085104-main.pdf accesso aperto Tipologia: versione editoriale (VoR) Dimensione 2.96 MB Formato Adobe PDF Visualizza/Apri	2.96 MB	Adobe PDF	Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Università degli Studi di Cagliari

Università degli Studi di Cagliari