"id";"title";"slug";"acronym";"url";"organization";"organization_id";"description";"frequency";"license";"temporal_coverage.start";"temporal_coverage.end";"spatial.granularity";"spatial.zones";"private";"featured";"created_at";"last_modified";"tags";"archived";"resources_count";"harvest.backend";"harvest.domain";"harvest.created_at";"harvest.modified_at";"quality_score";"metric.discussions";"metric.reuses";"metric.followers";"metric.views" "64ef12e13b16afe4db7a4ed4";"2019 European Parliamentary Elections - CoNLL-U texts";"2019-european-parliamentary-elections-conll-u-texts";"";"https://dados.gov.pt/pt/datasets/2019-european-parliamentary-elections-conll-u-texts/";"Arquivo.pt - pesquise páginas do passado";"6087fbf7454ae34be8d6ce4e";"This dataset is composed of the automatically parsed texts present in the ""2019 European Parliamentary Elections - Raw texts"" collection. The texts were automatically annotated using the UDify tool with its multilingual model. (2023-04-27) Related publications: Diego Alves,Computational typological analysis of syntactic structures in European languages, Doctoral thesis, Zagreb University, 2023. Daniel Gomes, Secondments@Arquivo.pt and new research tools available, Cleopatra project, May 2023, Hannover.";"punctual";"Creative Commons CCZero";"2019-05-22";"2019-07-17";"country";"European Union";False;False;"2023-08-30T10:58:57.870000";"2023-08-30T17:56:08.142000";"dependency-parsing,european-parliamentary-elections,multilingualism,social-sciences";False;5;"";"";"";"";"1.00";0;0;0;0 "64ef0f213b16afe4db7a4ed3";"2019 European Parliamentary Elections - Raw texts";"2019-european-parliamentary-elections-raw-texts";"";"https://dados.gov.pt/pt/datasets/2019-european-parliamentary-elections-raw-texts/";"Arquivo.pt - pesquise páginas do passado";"6087fbf7454ae34be8d6ce4e";"This corpus is composed of raw texts extracted from the EAWP23 collection of the Arquivo.pt which is composed of internet websites about the 2019 European Parliamentary Elections for all 24 European Union official languages. (2023-04-27) This data set was created by Diego Alves and was also published at [Harvest Dataverse](https://doi.org/10.7910/DVN/WCGNHU). Related publications: Diego Alves,[Computational typological analysis of syntactic structures in European languages](https://repozitorij.unizg.hr/islandora/object/ffzg:8462), Doctoral thesis, Zagreb University, 2023. Daniel Gomes, [Secondments@Arquivo.pt and new research tools available](https://sobre.arquivo.pt/wp-content/uploads/arquivo-pt-secondment-cleopatra-daniel-gomes-diego-alves.pdf), Cleopatra project, May 2023, Hannover. ";"punctual";"Creative Commons CCZero";"2019-05-22";"2019-07-16";"country";"European Union";False;False;"2023-08-30T10:42:57.599000";"2023-08-30T10:50:49.182000";"european-parliamentary-elections,multilingualism,raw-text,social-sciences";False;1;"";"";"";"";"1.00";0;0;0;0 "630c91ad07819028088b6452";"Eleições Europeias 2019. Recolha de conteúdos Web para preservação no Arquivo.pt";"eleicoes-europeias-2019-recolha-de-conteudos-web-para-preservacao-no-arquivo-pt";"";"https://dados.gov.pt/pt/datasets/eleicoes-europeias-2019-recolha-de-conteudos-web-para-preservacao-no-arquivo-pt/";"Arquivo.pt - pesquise páginas do passado";"6087fbf7454ae34be8d6ce4e";"No dia 26 de maio de 2019 realizaram-se as Eleições Europeias em Portugal. O Arquivo.pt lançou uma recolha especial de conteúdos eleitorais e expandiu a recolha a todos os países da União Europeia por via da língua. Começou-se por definir uma lista de termos de pesquisa (keywords). Os termos de pesquisa foram traduzidos para 24 línguas oficiais. Utilizou-se o Bing Search API para realizar as pesquisas de forma automática. Como resultado, obteve-se uma lista com os primeiros resultados para cada termo de pesquisa. Além da identificação automática de conteúdos, lançou-se uma lista colaborativa para recolher sugestões nacionais e internacionais de conteúdos eleitorais. A recolha ou crawl teve várias etapas: - recolha pré-eleitoral (1) - 1º crawl - testou a identificação e recolha em outras línguas além do português - recolha pré-eleitoral (2) - 2º crawl - gerou termos nas 24 línguas oficiais da União Europeia - recolha pós-eleitoral (3) - 3º crawl - usou uma lista de termos com a tradução revista pel Publications Office da UE - recolha pós-eleitoral (4) - 4º crawl - uma recolha final pós-eleitoral que reune os resultados do Bing e os contributos da comunidade Mais informação: Os conteúdos gravados foram reunidos na coleção EAWP23 que tem como datas limite 2019-05-22 e 2019-07-17 e um volume de informação de 4.8 Terabytes (ver https://arquivo.pt/collections). Notícia no site informativo do Arquivo.pt: https://sobre.arquivo.pt/pt/colecao-sobre-as-eleicoes-europeias-2019/ Pesquisa no Arquivo.pt: https://arquivo.pt/ee2019 ";"punctual";"Creative Commons Attribution 4.0 - CC BY 4.0";"2019-05-22";"2019-07-17";"country";"European Union";False;False;"2022-08-29T11:15:09.978000";"2022-08-29T11:32:02.046000";"arquivo-da-web,eleicoes,europa,politica,preservacao-digital";False;5;"";"";"";"";"1.00";0;0;0;3 "612e1792078190d8de20af69";"Websites dos projetos de Investigação & Desenvolvimento financiados pela Comissão Europeia: FP4, FP5, FP6, FP7";"websites-dos-projetos-de-investigacao-desenvolvimento-financiados-pela-comissao-europeia-fp4-fp5-fp6-fp7";"";"https://dados.gov.pt/pt/datasets/websites-dos-projetos-de-investigacao-desenvolvimento-financiados-pela-comissao-europeia-fp4-fp5-fp6-fp7/";"Arquivo.pt - pesquise páginas do passado";"6087fbf7454ae34be8d6ce4e";"Este conjunto de dados contém as listas de Websites de projetos de investigação dos Progamas-Quadro 4º, 5º 6º e 7º ou Framework Programms FP4, FP5, FP6, FP7, financiados pela Comissão Europeia. Em 2016, constatou-se que a informação online relativa a projetos de I&D não estava a ser exaustivamente documentada. Por exemplo, a informação referente aos endereços dos websites dos projetos financiados no programa 7º Programa-Quadro (FP7) disponibilizada através do Portal de Dados Abertos da União Europeia (EU Open Data Portal) estava omissa para 92% dos projetos. O Arquivo.pt desenvolveu uma metodologia para identificar automaticamente endereços Web em falta relativos a esses projetos de investigação e, em seguida, recolheu e disponbilizou os seus conteúdos. O Software e conjuntos de dados experimentais para identificar automaticamente sites de I&D está acessível em https://github.com/arquivo/Research-Websites-Preservation Para saber mais detalhes sobre a metodologia utilizada e os resultados obtidos, ver: https://sobre.arquivo.pt/pt/arquivo-pt-preservou-sites-sobre-projetos-de-investigacao-desenvolvimento-financiados-pela-comissao-europeia/";"punctual";"Creative Commons Attribution 4.0 - CC BY 4.0";"2004-01-01";"2013-12-31";"country-group";"European Union";False;False;"2021-08-31T12:50:42.675000";"2021-08-31T13:42:51.018000";"arquivo-da-web,ciencia-aberta,comunidade-europeia,preservacao-digital,programas-quadro";False;4;"";"";"";"";"1.00";0;0;0;29 "60ffdaf7078190fe3e0dd6bc";"Websites dos projetos de Investigação & Desenvolvimento financiados pela Comissão Europeia: H2020";"websites-dos-projetos-de-investigacao-desenvolvimento-financiados-pela-comissao-europeia-h2020";"";"https://dados.gov.pt/pt/datasets/websites-dos-projetos-de-investigacao-desenvolvimento-financiados-pela-comissao-europeia-h2020/";"Arquivo.pt - pesquise páginas do passado";"6087fbf7454ae34be8d6ce4e";"O Programa-Quadro de Pesquisa e Inovação Horizonte 2020 (H2020), implementado pela Comissão Europeia a partir de 2014, financiou milhares de projetos (31 116 projetos, dados de dezembro de 2020). Destes, apenas 16 744 (46 %) mencionaram um Website relacionado com o projeto. O Arquivo.pt utilizou a informação disponibilizada no portal CORDIS (https://cordis.europa.eu/projects) para identificar, recolher e disponibilizar para fins de investigação os Websites e outros conteúdos relativos aos projetos. Além disso, o Arquivo.pt prosseguiu com a identificação de Websites relativos aos projetos que não mencionaram endereços Web. As atividades, os resultados e outras publicações relativas a projetos encontram-se publicadas na Web, mesmo que os seus autores não as refiram. Através de uma metodologia automática, aplicada em 2016 aos Programas-Quadro, foram identificados novos conteúdos Web do H2020 e recolhidos no primeiro trimestre de 2021. ";"punctual";"Creative Commons Attribution 4.0 - CC BY 4.0";"2014-01-01";"2021-08-31";"country-group";"European Union";False;False;"2021-07-27T11:07:51.442000";"2023-04-13T14:56:35.254000";"h2020,inovacao,investigacao,investigadores,projectos-de-investigacao,projetos";False;2;"";"";"";"";"1.00";0;0;0;267