A n-grams collection extracted from the Portuguese Web

Descrição

The n-grams collection was extracted from the collected documents whose identified language was Portuguese. We extracted word n-grams up to the fifht order (5-grams). A set of regular expressions to tokenize the text were applied. After the extraction, all n-grams with tokens having more than 32 characters were discarded. N-grams with frequencies below 5 were discarded as well. The n-grams collection is available as a set of UTF-8 encoded files, containing the n-grams and their frequencies (2010-11-10).

This collection was build by David Batista, winner of the 2nd place of the Arquivo.pt award 2021 with the work Politiquices.pt.

Related publication: https://www.davidsbatista.net/assets/documents/publications/WPT05_fala2010.pdf
Also published at Harvard Dataverse

Produtor

Última atualização

29 de agosto de 2023

Licença

Creative Commons CCZero

Qualidade dos metadados
100.0/100

Ainda não existem reutilizações para este conjunto de dados.

Publicar uma reutilização What's a reuse ?

Ainda não existem discussões para este conjunto de dados.

Ainda não existem recursos comunitários para este conjunto de dados.

Partilhe os seus recursos Saiba mais sobre a comunidade

Informação

Etiquetas

ID

64ee072ff1b5a534ce7a4ed3

Temporalidade

Criação

29 de agosto de 2023

Frequência

Punctual

Cobertura temporal

01/01/1996 à 02/12/2022

Última atualização

29 de agosto de 2023

Cobertura espacial

Cobertura territorial

Portugal

Granularidade da cobertura territorial

Países

Acções

Embutir

Reuses of this dataset

0

Subscritores

0