Procura-PALavras (P-PAL)

O P-PAL é um interface web para uma nova base lexical do Português Europeu (PE), que disponibiliza um conjunto alargado de informações sobre características e estatísticas lexicais e sublexicais de palavras portuguesas com diferentes níveis de análise (palavra como um todo, sílabas, trigramas, bigramas/bifones, letras/fones), e extraídas de um corpus lematizado e não-lematizado (formas) do Português Europeu de grandes dimensões e diversificado na sua constituição interna (para mais informações acerca do corpus do P-PAL, clique aqui PDF

Ao entrar na aplicação, o utilizador é confrontado com uma caixa de diálogo, perguntando qual das pesquisas disponíveis deseja realizar:

Analisar palavras previamente selecionadas num conjunto de atributos e estatísticas lexicais e/ou sublexicais definidos pelo utilizador no menu de análises na base de lemas ou na base de formas . OU Obter palavras que cumpram um conjunto de atributos e estatísticas lexicais e/ou sublexicais definidos pelo utilizador no menu de análises na base de lemas ou na base de formas .

De seguida o menu de análises é apresentado. No P-PAL, os atributos e estatísticas lexicais e sublexicais das palavras são oferecidos a partir de quatro campos principais:

  • Medidas de frequência lexical: ex. número de vezes em que a palavra ocorre no corpus (frequência absoluta), frequência por milhão de palavras, Log10 da frequência absoluta e da frequência por milhão de palavras, escala logarítmica Zipf.
  • Medidas morfosintácticas: ex. categoria/s gramatical/ais que a palavra pode assumir, género e número gramatical, categoria gramatical dominante, frequência e distribuição relativa da categoria gramatical dominante e não dominante.
  • Medidas ortográficas: informações de diferentes níveis de análise considerando tanto a estrutura ortográfica da palavra como um todo (ex., número de letras, estrutura consoante(C)-vogal(V)), e medidas de vizinhança ortográfica (ex. densidade e frequência dos vizinhos ortográficos por substituição, vizinhos fonográficos, distância ortográfica de Levenshtein (OLD20), ponto de unicidade ortográfico (OUP)), como medidas sublexicais relativas às sílabas (ex. número de sílabas ortográficas, frequências silábicas posicionais type e token), aos trigramas (ex. soma de frequências dos trigramas, frequências de trigramas posicionais type e token), aos bigramas (ex. soma de frequências dos bigramas, frequências de bigramas posicionais type e token) e às letras das palavras (ex. soma da frequência de letras, média da frequência de letras).
  • Medidas fonológicas: informações de diferentes níveis de análise considerando tanto a estrutura fonológica da palavra como um todo (ex. pronunciação, número de fonemas, padrão de acento), e medidas de vizinhança fonológica (ex. densidade e frequência dos vizinhos fonológicos por substituição, vizinhos por transposição e fonográficos), como medidas sublexicais relativas às sílabas (ex. número de sílabas fonológicas, frequências silábicas posicionais type e token), aos bifones (ex. soma de frequências dos bifones, frequências de bifones posicionais type e token) e aos fonemas das palavras (ex. soma da frequência dos fonemas, média da frequência dos fonemas).

A única medida que, por omissão, se encontra selecionada no P-PAL é a medida de frequência lexical por milhão de palavras devido à importância que esta variável assume em toda a investigação que recorre a estímulos verbais. Todos os outros atributos e estatísticas deverão ser selecionados do menu de análises, colocando um tique no quadrado que se encontra à esquerda de cada atributo/estatística.

Se o utilizador pretende "obter palavras", deverá, adicionalmente, definir os requisitos (valores mínimos e/ou máximos) a que as palavras deverão obedecer nos filtros associados a cada atributo/estatística selecionada. Se, pelo contrário, pretende "analisar palavras", deverá fazer o upload do ficheiro (.txt ou.xls) que contém as palavras a serem analisadas nos atributos/estatísticas selecionados no menu de análises.

Para mais informações acerca do interface do P-PAL clique aqui. (brevemente)

Por favor cite a aplicação P-PAL como: Soares, A. P., Iriarte, A., Almeida, J. J., Simões, A., Costa, A., Machado, J., & Perea, M. (submitted). Procura-PALavras (P-PAL): A web-based interface for a new European Portuguese lexical database. Behavior Research Methods.

Para aceder à aplicação, clique aqui

Forma, ou forma de palavra, é cada uma das potenciais ocorrências de uma mesma palavra. Assim, cantar, canto, cantava, cantei, cantamos, etc. são formas da mesma palavra, convencionalmente representadas pelo lema cantar.

Entendemos por lema a forma de palavra escolhida convencionalmente como representante de todas as formas flexionadas que pode apresentar uma palavra. No caso dos verbos, o infinitivo (ser) é a forma escolhida para representar todas as formas do paradigma verbal (sou, és, é, era,…). No caso dos nomes e adjectivos, é a forma masculina singular (menino, bonito) que representa todo o paradigma nominal (menino, menina, meninos, meninas) ou adjectival (bonito, bonita, bonitos, bonitas). Para os nomes de género fixo, masculino ou feminino, é usada a forma singular (ex.: animal, comboio, costa, adivinha). Também consta da base lexical dos lemas a forma no singular das palavras cuja flexão de género deriva de um radical distinto (homem/mulher).