Twitter Italian Negation Corpus

Photo: Pixabay

The Twitter Italian Negation Corpus (TIN corpus) consists of 10,000 tweets in Italian.

The posts were tweeted from users in ten Italian and non-Italian cities: Milan, Rome, Naples, Palermo, Bologna, Turin, Florence, Cagliari, Genua and New York City. The corpus was collected in August 2019 using a web scraping data collection method.

By means of the python script (Twitter Stream Italian Negation, TSIN 2019), we collected data stratified by place (here: city and surrounding area of up to 20 miles), language (here: Italian) and size (here: 1000 tweets per query/city). This stream was carried out in a first, broad sample for the 20 Italian regional capitals and 10 non-Italian cities, which have significant Italian minority communities (Berlin, Brussels, Buenos Aries, London, Montreal, NBYC, Paris, Rio de Janeiro, Sydney, Zürich; see AIRE 2017). The results were subsequently edited to ensure that no one user was responsible for more than 3% tweets of the total volume. This method led to the selection of the 10 cities listed above.

The tweets are accompanied by metadata, including but not limited to information on the city, year and date of tweet. In order to create frequency lists, spaces were added to replace any punctuation in order to standardise word boundaries, and capital letters were replaced by lower-case letters.

Photo: Pixabay

Il Twitter Italian Negation Corpus (corpus TIN) consiste di 10.000 tweets in italiano.

I tweets sono stati cinguettati da utenti in dieci città italiane e non italiane, ossia Milano, Roma, Napoli, Palermo, Bologna, Torino, Firenze, Cagliari, Genova e New York City. Il corpus è stato raccolto nell’agosto del 2019 tramite il metodo di raccolta dati web scraping.

Tramite l’esecuzione di uno script Python (Twitter Stream Italian Negation, TSIN 2019) sono stati raccolti dati stratificati per luogo (qui: città e circondario fino a 20 miglia), lingua (qui: italiano) e quantità (qui: 1000 tweets per query/città). Inizialmente lo script è stato applicato a un campione di città piuttosto ampio, composto dai venti capoluoghi di regione italiani e da dieci città non italiane in cui risiede una comunità italofona significativa (ossia, Berlino, Bruxelles, Buenos Aires, Londra, Montreal, NYC, Parigi, Rio de Janeiro, Sydney, Zurigo; cfr. AIRE 2017). Da questo primo campione sono state escluse le città in cui il numero di cinguettii per singolo/a utente superasse il 3% del totale. In questo modo sono state selezionate le dieci città sopra menzionate.

I tweets sono corredati di metadati indicanti, per esempio, la città, l'anno e la data del cinguettio. Per ogni tweet sono stati salvati anche il nome dello/la utente così come eventuali hashtag e link esterni. Per la creazione delle liste di frequenza sono stati aggiunti degli spazi prima dei segni di interpunzione in modo da uniformare i confini delle parole. Inoltre le lettere maiuscole sono state convertite in minuscole.