A n-grams collection extracted from the Portuguese Web
Descrição
The n-grams collection was extracted from the collected documents whose identified language was Portuguese. We extracted word n-grams up to the fifht order (5-grams). A set of regular expressions to tokenize the text were applied. After the extraction, all n-grams with tokens having more than 32 characters were discarded. N-grams with frequencies below 5 were discarded as well. The n-grams collection is available as a set of UTF-8 encoded files, containing the n-grams and their frequencies (2010-11-10).
This collection was build by David Batista, winner of the 2nd place of the Arquivo.pt award 2021 with the work Politiquices.pt.
Related publication: https://www.davidsbatista.net/assets/documents/publications/WPT05_fala2010.pdf
Also published at Harvard Dataverse
Produtor
Última atualização
29 de agosto de 2023
Licença
Qualidade dos metadados:
Descrição dos dados preenchidos
Ficheiros documentados
Licença preenchida
Frequência de actualizações respeitada
Formatos de ficheiros padrão
Cobertura de tempo fornecida
Cobertura espacial fornecida
Todos os ficheiros estão disponíveis
Qualidade dos metadados
Ainda não existem reutilizações para este conjunto de dados.
Ainda não existem discussões para este conjunto de dados.
Ainda não existem recursos comunitários para este conjunto de dados.
Informação
Etiquetas
Licença
ID
64ee072ff1b5a534ce7a4ed3
Temporalidade
Criação
29 de agosto de 2023
Frequência
Punctual
Cobertura temporal
01/01/1996 à 02/12/2022
Última atualização
29 de agosto de 2023
Cobertura espacial
Cobertura territorial
Portugal
Granularidade da cobertura territorial
Países
Acções
Embutir
Estatísticas do ano
Reuses of this dataset
0
Subscritores
0