A n-grams collection extracted from the Portuguese Web

Qualidade dos metadados : 1.0/1
Qualidade dos metadados :
Descrição dos dados preenchidos
Recursos documentados
Licença preenchida
Frequência de actualizações respeitada
Formatos de ficheiros padrão
Cobertura de tempo fornecida
Cobertura espacial fornecida
Actualizado em 29 de agosto de 2023 — Creative Commons CCZero

Arquivo.pt - pesquise páginas do passado

O Arquivo.pt permite pesquisar e aceder a páginas da web preservadas desde 1996. O Arquivo.pt é um serviço público gerido pela Fundação para a Ciência e a Tecnologia (FCT) que arquiva continuamente os conteúdos de websites de interesse para a comunidade portuguesa. O Arquivo.pt disponibiliza…

51 conjuntos de dados

Informações

Licença
Creative Commons CCZero
ID
64ee072ff1b5a534ce7a4ed3

Temporalidade

Cobertura temporal
01/01/1996 à 02/12/2022
Frequência
Pontual
Data de criação
29 de agosto de 2023
Última actualização de recursos
29 de agosto de 2023

Dimensões geográficas

Granularidade da cobertura territorial
País
Cobertura territorial
Portugal

Embutir

URL Estável

Descrição

The n-grams collection was extracted from the collected documents whose identified language was Portuguese. We extracted word n-grams up to the fifht order (5-grams). A set of regular expressions to tokenize the text were applied. After the extraction, all n-grams with tokens having more than 32 characters were discarded. N-grams with frequencies below 5 were discarded as well. The n-grams collection is available as a set of UTF-8 encoded files, containing the n-grams and their frequencies (2010-11-10).

This collection was build by David Batista, winner of the 2nd place of the Arquivo.pt award 2021 with the work Politiquices.pt.

Related publication: https://www.davidsbatista.net/assets/documents/publications/WPT05_fala2010.pdf
Also published at Harvard Dataverse

Ficheiros 1

Pré-Visualização 0

     


  • Os ficheiros JSON e XML descarregados a partir deste painel de pré-visualização são gerados a partir do ficheiro selecionado e podem não corresponder aos recursos originais alojados na plataforma com o mesmo formato.

Recursos comunitários 0

construiu uma base de dados mais completa do que as aqui apresentadas? Agora é o momento de o partilhar !

Explorar as reutilizações deste conjunto de dados.

Já utilizou estes dados? Faça referência ao seu trabalho e aumente a sua visibilidade.

Discussão entre a organização e a comunidade sobre este conjunto de dados.