A n-grams collection extracted from the Portuguese Web

Description

The n-grams collection was extracted from the collected documents whose identified language was Portuguese. We extracted word n-grams up to the fifht order (5-grams). A set of regular expressions to tokenize the text were applied. After the extraction, all n-grams with tokens having more than 32 characters were discarded. N-grams with frequencies below 5 were discarded as well. The n-grams collection is available as a set of UTF-8 encoded files, containing the n-grams and their frequencies (2010-11-10).

This collection was build by David Batista, winner of the 2nd place of the Arquivo.pt award 2021 with the work Politiquices.pt.

Related publication: https://www.davidsbatista.net/assets/documents/publications/WPT05_fala2010.pdf
Also published at Harvard Dataverse

Producteur

Dernière mise à jour

29 août 2023

Licence

Creative Commons CCZero

Qualité des métadonnées
100.0/100

Il n'y a pas encore de réutilisation pour ce jeu de données.

Publiez une réutilisation Qu'est-ce qu'une réutilisation ?

Il n'y a pas encore de discussion pour ce jeu de données.

Il n'y a pas encore de ressources communautaires pour ce jeu de données.

Partagez vos ressources En savoir plus sur la communauté

Informations

Tags

ID

64ee072ff1b5a534ce7a4ed3

Temporalité

Création

29 août 2023

Fréquence

Punctual

Couverture temporelle

01/01/1996 à 02/12/2022

Dernière mise à jour

29 août 2023

Couverture spatiale

Couverture territoriale

Portugal

Granularité de la couverture territoriale

Country

Actions

Intégrer sur votre site

Réutilisations de ce jeu de données

0

Favoris

0