SemSearchProject

From STLab

Jump to: navigation, search

Obiettivi

Gli obiettivi che ci proponiamo con queste attività sono quelli miranti a completare il lavoro effettuato al CNR durante i mesi dal Maggio all’Ottobre 2009. In particolare si farà riferimento ai task individuati nello scambio di e-mail con Aldo (25/11/2009) per proporre un piano risolutivo di tali task e portare a conclusione l’attività di collaborazione con il CNR. Inoltre evidenziando il lavoro svolto e già in pratica disponibile, si pianificheranno le attività mirate all’estensione dell’esistente, l’organizzazione del lavoro, la disponibilità di risorse ed il tempo necessario. La attività iniziale sarà quella legata al rilascio di un motore di ricerca (anche in versione da linea di comando) in grado di indicizzare e recuperare documenti in formato testo arbitrari. A breve termine, il motore di ricerca disponibile sarà arricchito di due principali componenti aggiuntivi: un estrattore terminologico ed una libreria per l’export dei risultati in formato “RDF”. Una terza attività infine verterà sulla costruzione di una piattaforma di ricerca basata sulla creazione di pseudo-documenti tramite l’indicizzazione estesa alla conoscenza fornita da Wikipedia e la creazione di un’ interfaccia utente corrispondente.

Considerazioni generali

La cooperazione tra i due laboratori di Tor Vergata e del CNR avrà lo scopo di concludere ed arricchire il lavoro svolto durante la borsa di studio da Paolo Annesi ed approfondire le tematiche di semantic search basate sulla piattaforma Semantic Vectors e indicizzazione di Wikipedia. Il lavoro verrà svolto per la maggior parte della settimana presso il DISP dell’Università di Tor Vergata. Durante uno o due giorni alla settimana Paolo si renderà disponibile presso STLab per concordare alcune delle scelte tecniche e presentare i risultati intermedi principali del lavoro. Coordinatore per il CNR sarà Alfio Gliozzo, con la supervisione di Aldo Gangemi. Coordinatore per Tor Vergata sarà Roberto Basili.

Linee di studio, ricerca e progettazione

Le componenti del servizio di ricerca semantico che ci proponiamo di realizzare sono principalmente due:

  • Terminology Extractor
  • Search platform

Di seguito riportiamo le specifiche di realizzazione di tali componenti, che costituiscono anche le due principali aree di ricerca

Linea 1: Terminology Extractor

In questa fase si costruirà un componente che estrarrà la terminologia dai documenti di un corpus di partenza. E’ necessario utilizzare un software (fornito da Alfio) di trasformazione dei documenti di partenza in file di tipo txt, che verranno processati dall’estrattore terminologico. L’estrattore terminologico dovrà funzionare per corpus di medie dimensioni. Infine attraverso le specifiche che fornirà Alfio dei meta-modelli linguistici (lemma, meanings, ...) verrà realizzato un componente atto ad esportare i risultati del search engine in triple RDF utilizzando il database della terminologia appena creato. Dunque le componenti principali da realizzare sono le seguenti:

  • TEXTIFY
    • Input: Uri list
    • Output: 1 text doc per ogni URI
    • Requisiti: libreria Java "uri2txt.java" (Alfio)
  • TERMINOLOGY ENGINE
    • Input: Tutti i file txt (di cui sopra)
    • Output: serie di n-grams notevoli
  • EXPORT IN RDF
    • Input atteso: Terminology DB
    • Output: RDF compatibile triple store dei termini
    • Required: specifiche di Alfio sui meta-modelli linguistici (lemma, meanings, ...)

Linea 2: Search Platform

Partendo dal sistema di ricerca arricchito della funzionalità “semantica” attraverso Semantic Vectors e dal database della terminologia grazie alla componente “terminology engine”, si vuole introdurre (?). Questo verrà realizzato attraverso la tecnica del random indexing su tutti i testi di Wikipedia al fine di realizzare pseudo documenti.

Platform: Semantic Vectors Term DB: vedi passi precedenti

Tasks:

  • Wrapping dei documenti sensibile alla terminologia estratta. Immagine dei singoli docs
  • Tipizzazione dell'indice di Lucene
  • Indexing del corpus con
    • Semantic Vectors su Wikipedia
    • Semantic Vectors su target corpus
  • Search come in Lucene
  • GUI per l'uso delle funzionalità di Semantic Search
  • Exporting dei risultati della query in RDF

Tempi attesi, risorse e supervisione

I tempi di realizzazione variano dipendentemente dalle due aree di ricerca descritte. Le attività previste sono dunque le seguenti:

  • Rilascio del motore di ricerca corrente consolidato
  • Estensione del motore di ricerca alla acquisizione ed al trattamento della terminologia di dominio
  • Estensione del motore di ricerca semantico (Wikipedia indexing)

Si prevede di completare la attività 1 entro fine Dicembre 2009. La prima linea di ricerca riguardante il terminology extractor avrà un tempo di realizzazione abbastanza breve per cui sarà possibile fissare un meeting dimostrativo dell’architettura integrata per la prima metà di Febbraio. La seconda linea di ricerca riguardante la piattaforma di semantic search arricchita degli pseudo documenti e della GUI si svolgerà immediatamente dopo e potrà essere completato entro la fine di Marzo. Il rilascio della piattaforma avverrà attraverso lo scambio di software sorgente con annessa documentazione e installazione su entrambi i server di Tor Vergata e del CNR. Durante tutto il lavoro Tor Vergata e il CNR metteranno a disposizione le loro infrastrutture hardware (computer server per tasks di indicizzazione e terminology extraction principalmente) e software (libreria Java "uri2txt.java" di Alfio e quant’altro possa servire al completo svolgimento delle attività proposte). Sarà possibile accedere a queste macchine anche in remoto per permettere il lavoro anche lontano dalla sede. Responsabili tecnici di queste attività saranno Alfio Glozzo , Roberto Basili e Paolo Annesi. Per il completamento dell’integrazione del motore di ricerca sul progetto “semantic scouting” Paolo si interfaccerà con Enrico Daga, con il quale ha già preso accordi per la realizzazione di ulteriori specifiche. Supervisori del lavoro finale saranno Aldo Gangemi e Roberto Basili, attraverso meeting nelle due sedi di Tor Vergata e del CNR, durante i quali si esporrà il lavoro svolto o in via di sviluppo, attraverso presentazioni e demo.

Personal tools