SpazioDati lancia Dandelion API

Transcript

SpazioDati lancia Dandelion API
SpazioDati lancia “Dandelion.eu - dataTXT-NEX” una API semantica per
testi brevi, che estrae concetti, persone e luoghi, e dataTXT-SIM, una API
per calcolare la similarità tra due testi diversi
Trento, Italia, 29 ottobre 2013 – dataTXT-NEX, è la prima API disponibile su dandelion.eu: è una API
semantica che estrae le entità da documenti e dati non strutturati, ed è ottimizzata per testi brevi.
Dato un determinato testo in entrata, dataTXT.NEX lo interpreta ed estrae riferimenti a concetti ed entità come
luoghi, persone, brand, eventi. Questi riferimenti hanno sempre un link di approfondimento, spesso verso
Wikipedia, e possono essere usati per ottenere informazioni aggiuntive riguardo alle entità estratte dal testo,
come delle coordinate geografiche, traduzioni in altre lingue, nomi alternativi, luoghi di nascita...
Il numero di possibili utilizzi è molto alto, sia nel mondo aziendale che nel mondo dei servizi B2C.
Alcune aree di intervento sono l'analisi dei Social Media, la classificazione automatica dei documenti, il
miglioramento dei motori di ricerca, la generazione automatica di tags per un certo tipo di contenuto, …
Non solo estrazione di entità: anche calcolo della similarità tra due testi con dataTXT-SIM
Se c'è bisogno di capire se due testi parlino dei medesimi argomenti, è utile calcolarne la similarità con le API
semantiche di dataTXT-SIM, un'altra delle API che offre dandelion.eu, e che ritorna un punteggio che va da 0 a
100. Se, per esempio, dati due testi in entrata ritornasse un valore di 80 sulla similarità, la probabilità che quei
testi siano semanticamente correlati dai medesimi argomenti, è molto alta.
Da cosa si differenzia dataTXT rispetto alla tecniche NLP tradizionali
Le tecnologie per fare entity extraction tradizionali spesso si appoggiano sulla NLP ( Natural Language
Processing), ovvero l'estrazione da linguaggio naturale, che cerca di indovinare la struttura delle frasi per
risolvere le ambiguità nel significato delle singole parole. Questo approccio non opera molto bene quando i testi
sono brevi, gergali o grammaticamente non corretti, che sono spesso i casi dei twetts o dei contenuti presenti
nei social media. La maggior parte degli strumenti e dei servizi esistenti non riesce correttamente ad identificare
che il significato della parola “mela” in queste frasi è completamente differente:
1. “doctor said and apple is better than an orange”
2. “apple is better than microsoft”;
Nella prima frase “apple” si riferisce al frutto, nella seconda si riferisce all'azienda Apple ( quella che produce gli
IPhone ). dataTXT-NEX non usa nessuna tecnologia NLP, ma si basa solamente sulla topologia del grafo
informativo sottostante presente in Dandelion, e di conseguenza può facilmente disambiguare i due differenti
significati del termine apple ( mela in italiano ).
In ogni caso, quando si cambia il contesto e la lingua, le tecnologie tradizionali di entity extraction hanno bisogno
di una fase di apprendimento, un lungo e costoso processo che richiede personale che alimenti il software con
migliaia di esempi realizzati manualmente. DataTXT-NEX esegue automaticamente questa fase di
apprendimento grazie alla grande mole di Open Data collezionati e curati da Dandelion, a partire da sorgenti
come Wikipedia, i portali nazionali Open Data e migliaia di altri siti web.
Per concludere, dataTXT-NEX non identifica solamente la presenza di entità contenute nel testo, ma linka e
collega quelle entità con informazioni addizionali e contestuali già presenti nel grafo di conoscenza contenuto in
Dandelion. In questo modo, per esempio, si possono fare delle query aggiuntive per ottenere il nome scientifico
in latino delle mele e delle arance ed usarle in una applicazione scientifica o magari ottenere una lista di tutti i
prodotti creati ed offerti dalla Apple Inc. per popolare un assistente mobile per gli acquisti.
Chi è SpazioDati
SpazioDati <http://spaziodati.eu/> è una startup nata a Trento, nel 2012. SpazioDati aiuta le imprese ad
esplorare il valore dei propri dati usando le tecnologie Linked Data e le tecnologie Big Data. Il suo principale
prodotto è Dandelion.eu, un marketplace di dati, che permette agli sviluppatori di accedere facilmente ad un
grande grafo di dati ad alta qualità, estratti da migliaia di fonti diverse. Dandelion.eu offre poi anche API per
disambiguare e collegare a questo grafo di informazioni, dati e documenti non strutturati, per aumentarne il
contesto e di conseguenza, il valore e l'utilità. Per ulteriori informazioni su Dandelion, fare riferimento al sito
http://dandelion.eu/