A n-grams collection extracted from the Portuguese Web

Name: A n-grams collection extracted from the Portuguese Web
Creator: Arquivo.pt - pesquise páginas do passado
License: http://www.opendefinition.org/licenses/cc-zero
Keywords: n-grams-portuguese

Descrição

The n-grams collection was extracted from the collected documents whose identified language was Portuguese. We extracted word n-grams up to the fifht order (5-grams). A set of regular expressions to tokenize the text were applied. After the extraction, all n-grams with tokens having more than 32 characters were discarded. N-grams with frequencies below 5 were discarded as well. The n-grams collection is available as a set of UTF-8 encoded files, containing the n-grams and their frequencies (2010-11-10).

This collection was build by David Batista, winner of the 2nd place of the Arquivo.pt award 2021 with the work Politiquices.pt.

Produtor

Arquivo.pt - pesquise páginas do passado

Última atualização

29 de agosto de 2023

Licença

Creative Commons CCZero

Qualidade dos metadados

100.0/100

Ficheiro principal

a-n-grams-collection-extractet-from-the-portuguese-web-dataverse-files.zip

Actualizado à 29 de agosto de 2023

zip (1.5GB)

0 descarregas

URL: https://dados.gov.pt/s/resources/a-n-grams-collection-extracted-from-the-portuguese-web/20230829-160321/a-n-grams-collection-extractet-from-the-portuguese-web-dataverse-files.zip
URL Estável: https://dados.gov.pt/pt/datasets/r/4d2385f1-e094-4ec4-b988-31c0dc9dc383
sha1: 1f9cf8e2e44d180d1c72e4612de055edc6fa32e8
Tipo MIME: application/zip

Criado em: 29 de agosto de 2023
Modificado em: 29 de agosto de 2023

Tamanho: 1.5GB

Ainda não existem reutilizações para este conjunto de dados.

Publicar uma reutilização What's a reuse ?

Ainda não existem discussões para este conjunto de dados.

Ainda não existem recursos comunitários para este conjunto de dados.

Partilhe os seus recursos Saiba mais sobre a comunidade

Informação

Licença

Creative Commons CCZero

ID

64ee072ff1b5a534ce7a4ed3

Temporalidade

Criação

29 de agosto de 2023

Frequência

Punctual

Cobertura temporal

01/01/1996 à 02/12/2022

Última atualização

29 de agosto de 2023

Cobertura espacial

Cobertura territorial

Portugal

Granularidade da cobertura territorial

Países

Acções

Embutir

<div data-udata-dataset="64ee072ff1b5a534ce7a4ed3"></div><script  src="https://dados.gov.pt/static/oembed.js" async defer></script>

Estatísticas do ano

Download traffic metrics as CSV

A n-grams collection extracted from the Portuguese Web

Descrição

Produtor

Última atualização

Licença

Qualidade dos metadados:

Qualidade dos metadados

Informação

Etiquetas

Licença

ID

Temporalidade

Criação

Frequência

Cobertura temporal

Última atualização

Cobertura espacial

Cobertura territorial

Granularidade da cobertura territorial

Acções

Embutir

Estatísticas do ano

Reuses of this dataset

Subscritores