A n-grams collection extracted from the Portuguese Web

Name: A n-grams collection extracted from the Portuguese Web
Creator: Arquivo.pt - pesquise páginas do passado
License: http://www.opendefinition.org/licenses/cc-zero
Keywords: n-grams-portuguese

Description

The n-grams collection was extracted from the collected documents whose identified language was Portuguese. We extracted word n-grams up to the fifht order (5-grams). A set of regular expressions to tokenize the text were applied. After the extraction, all n-grams with tokens having more than 32 characters were discarded. N-grams with frequencies below 5 were discarded as well. The n-grams collection is available as a set of UTF-8 encoded files, containing the n-grams and their frequencies (2010-11-10).

This collection was build by David Batista, winner of the 2nd place of the Arquivo.pt award 2021 with the work Politiquices.pt.

Producteur

Arquivo.pt - pesquise páginas do passado

Dernière mise à jour

29 août 2023

Licence

Creative Commons CCZero

Qualité des métadonnées

100.0/100

1 Fichier principal

a-n-grams-collection-extractet-from-the-portuguese-web-dataverse-files.zip

Mis à jour le 29 août 2023

zip (1.5Go)

0 téléchargements

URL: https://dados.gov.pt/s/resources/a-n-grams-collection-extracted-from-the-portuguese-web/20230829-160321/a-n-grams-collection-extractet-from-the-portuguese-web-dataverse-files.zip
URL stable: https://dados.gov.pt/fr/datasets/r/4d2385f1-e094-4ec4-b988-31c0dc9dc383
sha1: 1f9cf8e2e44d180d1c72e4612de055edc6fa32e8
Type MIME: application/zip

Créée le: 29 août 2023
Modifiée le: 29 août 2023

Taille: 1.5Go

Il n'y a pas encore de réutilisation pour ce jeu de données.

Publiez une réutilisation Qu'est-ce qu'une réutilisation ?

Il n'y a pas encore de discussion pour ce jeu de données.

Il n'y a pas encore de ressources communautaires pour ce jeu de données.

Partagez vos ressources En savoir plus sur la communauté

Informations

Licence

Creative Commons CCZero

ID

64ee072ff1b5a534ce7a4ed3

Temporalité

Création

29 août 2023

Fréquence

Punctual

Couverture temporelle

01/01/1996 à 02/12/2022

Dernière mise à jour

29 août 2023

Couverture spatiale

Couverture territoriale

Portugal

Granularité de la couverture territoriale

Country

Actions

Intégrer sur votre site

<div data-udata-dataset="64ee072ff1b5a534ce7a4ed3"></div><script  src="https://dados.gov.pt/static/oembed.js" async defer></script>

Statistiques des 12 derniers mois

Télécharger les statistiques de trafic au format CSV

A n-grams collection extracted from the Portuguese Web

Description

Producteur

Dernière mise à jour

Licence

Qualité des métadonnées :

Qualité des métadonnées

Informations

Tags

Licence

ID

Temporalité

Création

Fréquence

Couverture temporelle

Dernière mise à jour

Couverture spatiale

Couverture territoriale

Granularité de la couverture territoriale

Actions

Intégrer sur votre site

Statistiques des 12 derniers mois

Réutilisations de ce jeu de données

Favoris