A n-grams collection extracted from the Portuguese Web

Qualité des métadonnées : 1.0/1
Qualité des métadonnées :
Description des données renseignée
Ressources documentées
Licence renseignée
Fréquence de mise à jour respectée
Formats de fichiers standards
Couverture temporelle renseignée
Couverture spatiale renseignée
Mis à jour le 29 août 2023 — Creative Commons CCZero

Arquivo.pt - pesquise páginas do passado

O Arquivo.pt permite pesquisar e aceder a páginas da web preservadas desde 1996. O Arquivo.pt é um serviço público gerido pela Fundação para a Ciência e a Tecnologia (FCT) que arquiva continuamente os conteúdos de websites de interesse para a comunidade portuguesa. O Arquivo.pt disponibiliza…

48 jeux de données

Informations

Licence
Creative Commons CCZero
ID
64ee072ff1b5a534ce7a4ed3

Temporalité

Couverture temporelle
01/01/1996 à 02/12/2022
Fréquence
Ponctuelle
Date de création
29 août 2023
Dernière mise à jour de ressource
29 août 2023

Dimensions géographiques

Granularité de la couverture territoriale
Pays
Couverture territoriale
Portugal

Intégrer sur votre site

URL stable

Description

The n-grams collection was extracted from the collected documents whose identified language was Portuguese. We extracted word n-grams up to the fifht order (5-grams). A set of regular expressions to tokenize the text were applied. After the extraction, all n-grams with tokens having more than 32 characters were discarded. N-grams with frequencies below 5 were discarded as well. The n-grams collection is available as a set of UTF-8 encoded files, containing the n-grams and their frequencies (2010-11-10).

This collection was build by David Batista, winner of the 2nd place of the Arquivo.pt award 2021 with the work Politiquices.pt.

Related publication: https://www.davidsbatista.net/assets/documents/publications/WPT05_fala2010.pdf
Also published at Harvard Dataverse

Fichiers 1

Pré-Visualização 0

     


  • Os ficheiros JSON e XML descarregados a partir deste painel de pré-visualização são gerados a partir do ficheiro selecionado e podem não corresponder aos recursos originais alojados na plataforma com o mesmo formato.

Ressources communautaires 0

Vous avez construit une base de données plus complète que celles présentées ici ? C'est le moment de la partager !

Explorez les réutilisations de ce jeu de données.

Avez-vous utilisé ces données ? Référencez votre travail et augmentez votre visibilité.

Discussion entre l'organisation et la communauté à propos de ce jeu de données.