A n-grams collection extracted from the Portuguese Web
Description
The n-grams collection was extracted from the collected documents whose identified language was Portuguese. We extracted word n-grams up to the fifht order (5-grams). A set of regular expressions to tokenize the text were applied. After the extraction, all n-grams with tokens having more than 32 characters were discarded. N-grams with frequencies below 5 were discarded as well. The n-grams collection is available as a set of UTF-8 encoded files, containing the n-grams and their frequencies (2010-11-10).
This collection was build by David Batista, winner of the 2nd place of the Arquivo.pt award 2021 with the work Politiquices.pt.
Related publication: https://www.davidsbatista.net/assets/documents/publications/WPT05_fala2010.pdf
Also published at Harvard Dataverse
Producteur
Dernière mise à jour
29 août 2023
Licence
Qualité des métadonnées :
Description des données renseignée
Fichiers documentés
Licence renseignée
Fréquence de mise à jour respectée
Formats de fichiers standards
Couverture temporelle renseignée
Couverture spatiale renseignée
Tous les fichiers sont disponibles
Qualité des métadonnées
Il n'y a pas encore de réutilisation pour ce jeu de données.
Il n'y a pas encore de discussion pour ce jeu de données.
Il n'y a pas encore de ressources communautaires pour ce jeu de données.
Informations
Tags
Licence
ID
64ee072ff1b5a534ce7a4ed3
Temporalité
Création
29 août 2023
Fréquence
Punctual
Couverture temporelle
01/01/1996 à 02/12/2022
Dernière mise à jour
29 août 2023
Couverture spatiale
Couverture territoriale
Portugal
Granularité de la couverture territoriale
Country
Actions
Intégrer sur votre site
Statistiques des 12 derniers mois
Réutilisations de ce jeu de données
0
Favoris
0