A n-grams collection extracted from the Portuguese Web
Qualité des métadonnées :
Arquivo.pt - pesquise páginas do passado
O Arquivo.pt permite pesquisar e aceder a páginas da web preservadas desde 1996. O Arquivo.pt é um serviço público gerido pela Fundação para a Ciência e a Tecnologia (FCT) que arquiva continuamente os conteúdos de websites de interesse para a comunidade portuguesa. O Arquivo.pt disponibiliza…
Informations
- Licence
- Creative Commons CCZero
- ID
- 64ee072ff1b5a534ce7a4ed3
Temporalité
- Couverture temporelle
- 01/01/1996 à 02/12/2022
- Fréquence
- Ponctuelle
- Date de création
- 29 août 2023
- Dernière mise à jour de ressource
- 29 août 2023
Dimensions géographiques
- Granularité de la couverture territoriale
- Pays
- Couverture territoriale
- Portugal
Intégrer sur votre site
URL stable
Description
The n-grams collection was extracted from the collected documents whose identified language was Portuguese. We extracted word n-grams up to the fifht order (5-grams). A set of regular expressions to tokenize the text were applied. After the extraction, all n-grams with tokens having more than 32 characters were discarded. N-grams with frequencies below 5 were discarded as well. The n-grams collection is available as a set of UTF-8 encoded files, containing the n-grams and their frequencies (2010-11-10).
This collection was build by David Batista, winner of the 2nd place of the Arquivo.pt award 2021 with the work Politiquices.pt.
Related publication: https://www.davidsbatista.net/assets/documents/publications/WPT05_fala2010.pdf
Also published at Harvard Dataverse
Fichiers 1
Pré-Visualização 0
- Os ficheiros JSON e XML descarregados a partir deste painel de pré-visualização são gerados a partir do ficheiro selecionado e podem não corresponder aos recursos originais alojados na plataforma com o mesmo formato.
Ressources communautaires 0
Vous avez construit une base de données plus complète que celles présentées ici ? C'est le moment de la partager !
Réutilisations 0
Explorez les réutilisations de ce jeu de données.
Avez-vous utilisé ces données ? Référencez votre travail et augmentez votre visibilité.
Discussion entre l'organisation et la communauté à propos de ce jeu de données.