A n-grams collection extracted from the Portuguese Web
Qualidade dos metadados :
Arquivo.pt - pesquise páginas do passado
O Arquivo.pt permite pesquisar e aceder a páginas da web preservadas desde 1996. O Arquivo.pt é um serviço público gerido pela Fundação para a Ciência e a Tecnologia (FCT) que arquiva continuamente os conteúdos de websites de interesse para a comunidade portuguesa. O Arquivo.pt disponibiliza…
Informações
- Licença
- Creative Commons CCZero
- ID
- 64ee072ff1b5a534ce7a4ed3
Temporalidade
- Cobertura temporal
- 01/01/1996 à 02/12/2022
- Frequência
- Pontual
- Data de criação
- 29 de agosto de 2023
- Última actualização de recursos
- 29 de agosto de 2023
Dimensões geográficas
- Granularidade da cobertura territorial
- País
- Cobertura territorial
- Portugal
Embutir
URL Estável
Descrição
The n-grams collection was extracted from the collected documents whose identified language was Portuguese. We extracted word n-grams up to the fifht order (5-grams). A set of regular expressions to tokenize the text were applied. After the extraction, all n-grams with tokens having more than 32 characters were discarded. N-grams with frequencies below 5 were discarded as well. The n-grams collection is available as a set of UTF-8 encoded files, containing the n-grams and their frequencies (2010-11-10).
This collection was build by David Batista, winner of the 2nd place of the Arquivo.pt award 2021 with the work Politiquices.pt.
Related publication: https://www.davidsbatista.net/assets/documents/publications/WPT05_fala2010.pdf
Also published at Harvard Dataverse
Ficheiros 1
Pré-Visualização 0
- Os ficheiros JSON e XML descarregados a partir deste painel de pré-visualização são gerados a partir do ficheiro selecionado e podem não corresponder aos recursos originais alojados na plataforma com o mesmo formato.
Recursos comunitários 0
construiu uma base de dados mais completa do que as aqui apresentadas? Agora é o momento de o partilhar !
Reutilizações 0
Explorar as reutilizações deste conjunto de dados.
Já utilizou estes dados? Faça referência ao seu trabalho e aumente a sua visibilidade.
Discussão entre a organização e a comunidade sobre este conjunto de dados.