Há alguns dias, iniciei um projeto para expandir meu vocabulário em hindi baseado nos diálogos do filme “Frozen”. Uma das perguntas que me fiz no momento foi muito interessante: Quantas palavras você precisa saber para entender o texto?
Portanto, decidi realizar uma experiência semelhante usando legendas do filme “Frozen” em polonês, inglês, alemão, francês e árabe.
Eu me perguntei sobre as seguintes questões:
Ter 20% das palavras das legendas realmente permite compreender 80% de todo o texto em cada um desses idiomas?
Além disso, uma proporção semelhante se aplica apenas a línguas onde a conjugação de verbos e substantivos é muito simples, como inglês, sueco, e outras? Ou será que também se aplica à aprendizagem de línguas como o polonês, onde as palavras podem aparecer de várias formas?
Aqui está o plano que estabeleci para executar:
Primeiro, usarei legendas do filme “Frozen” em vários idiomas e dividirei todas as frases em palavras individuais.
Em segundo lugar, tratarei como uma palavra:
- Todas as palavras, incluindo nomes próprios, como Elsa, Anna, etc.
- Cada forma de uma palavra que aparece no texto. Por exemplo, formas verbais como “é”, “era”, “será” ou substantivos como “boneco de neve”, “bonecos de neve” em outras línguas serão tratados como palavras separadas.
- Palavras conectadas por um apóstrofo serão tratadas como uma palavra, por exemplo, “I’m,” “he’s” em inglês ou “c’est” em francês.
- Palavras conectadas por um hífen serão separadas, por exemplo, “attrape-moi” em francês torna-se duas palavras: “attrape” e “moi”.
- Se uma palavra pode ter dois significados, vou considerar como uma palavra na minha análise. Por exemplo, Em polonês “może” significa “talvez” e “ele/ela pode” e vão ser contados como uma palavra só.
- Se uma palavra escrita estiver conectada a outra, por exemplo, o árabe “e”, que é “و”, será tratado como parte da próxima palavra. Assim, por exemplo, “ولكن” é uma palavra, não duas.
Então, aqui estão os resultados dos meus experimentos:
Quantas palavras você precisa saber para entender um texto em inglês?
Aqui estão os dados básicos:
- Número total de palavras (incluindo repetições): 7747
- Número de palavras únicas: 1241
- As palavras são repetidas em média: 6,2 vezes
Porcentagem de palavras: | Permite compreender: |
5% | 52,3% |
10% | 65,64% |
20% | 78.55% |
35% | 87,20% |
50% | 91.98% |
10 palavras mais comuns:
- you, I, the, to, a, and, no, it, me, is
Quantas palavras você precisa saber para entender um texto em polonês?
Aqui estão os dados básicos:
- Número total de palavras (incluindo repetições): 6374
- Número de palavras únicas: 1885
- As palavras são repetidas em média: 3,4 vezes
Porcentagem de palavras: | Permite compreender: |
5% | 48,59% |
10% | 59,81% |
20% | 70,76% |
35% | 80,31% |
50% | 85,21% |
10 palavras mais comuns:
- nie, to, się, jest, i, w, co, z, tak, na
Quantas palavras você precisa saber para entender um texto em alemão?
Aqui estão os dados básicos:
- Número total de palavras (incluindo repetições): 6022
- Número de palavras únicas: 1366
- As palavras são repetidas em média: 4,4 vezes
Porcentagem de palavras: | Permite compreender: |
5% | 49,04% |
10% | 63,05% |
20% | 75,12% |
35% | 83,68% |
50% | 88,66% |
10 palavras mais comuns:
- ich, ist, du, nicht, das, und, sie, es, wir, die
Quantas palavras você precisa saber para entender um texto em francês?
Aqui estão os dados básicos:
- Número total de palavras (incluindo repetições): 7630
- Número de palavras únicas: 1471
- As palavras são repetidas em média: 5,2 vezes
Porcentagem de palavras: | Permite compreender: |
5% | 52,27% |
10% | 65,53% |
20% | 77,47% |
35% | 85,56% |
50% | 90,37% |
10 palavras mais comuns:
- je, de, la, pas, tu, ne, le, c’est, que, un
Quantas palavras você precisa saber para entender um texto em árabe?
Aqui estão os dados básicos:
- Número total de palavras (incluindo repetições): 5988
- Número de palavras únicas: 2441
- As palavras são repetidas em média: 2,5 vezes
Porcentagem de palavras: | Permite compreender: |
5% | 42,20% |
10% | 52,83% |
20% | 63,65% |
35% | 73,54% |
50% | 79,64% |
10 palavras mais comuns:
- لا, أن, من, هذا, في, كلا, آنا, أنا, على, ما
Conclusões do experimento
O princípio de Pareto funciona bem em línguas dominadas por palavras com poucas formas. Em idiomas onde as palavras são repetidas até 6 vezes, como o inglês, conhecer 20% das palavras é suficiente para compreender 80% do texto. O mesmo se aplica ao francês e ao alemão, onde 20% das palavras são suficientes para compreender mais de 75-77% do texto.
No caso da língua polonesa, que possui um número significativo de formas nominais, a situação não é tão favorável. Conhecer 20% das palavras permite compreender apenas cerca de 70% do texto. Para entender 80% do texto, você precisa conhecer 35% das palavras.
Basicamente, o árabe teve o pior desempenho, principalmente porque a palavra “e” é combinada com a palavra seguinte, reduzindo significativamente a repetição de palavras individuais no texto. Além disso, pelo que percebi, as palavras das legendas às quais tive acesso nem sempre estavam separadas de forma consistente por espaços, o que poderia ter afetado o resultado. Quando separei a palavra “e”, os resultados ficaram muito mais próximos do idioma polonês (20% das palavras permitiram a compreensão de 66% do texto). Se eu tivesse separado todas as palavras de forma consistente, acredito que os resultados teriam sido ainda mais próximos da língua polonesa.
Em geral, podemos tirar as seguintes conclusões:
Conhecer 20% dos lexemas é suficiente para compreender 80% do texto em praticamente qualquer idioma. Um lexema aqui é entendido como uma unidade que contém todas as formas de palavras, então, por exemplo, o lexema “bałwan” também inclui formas como “bałwana”, “bałwanem” etc.
Quando levamos em conta todas as palavras, não apenas os lexemas, saber 20% permite compreender 60-80% do texto dependendo da complexidade da gramática da língua. Quanto mais formas verbais e nominais e mais combinações de palavras um idioma permitir, menor será a porcentagem de compreensão do texto.
Portanto, a dificuldade de aprender um idioma pode ser avaliada pela taxa média de repetição de palavras no texto. Quanto maior essa taxa, menos palavras serão necessárias para a compreensão do texto. Claro, outro fator a considerar é a porcentagem de exceções à regra quando se trata de flexões verbais e nominais. Por exemplo, em polonês, um desafio é criar a forma do genitivo singular de substantivos masculinos. Em outras línguas, pode haver muitas exceções nas conjugações verbais. Em contraste, o Esperanto, que teoricamente tem formas mais flexionadas do que o inglês, pode ser mais fácil de aprender porque todas as formas são regulares.
Se você quiser realizar um experimento semelhante por conta própria, aqui está um breve guia passo a passo:
- Encontre as legendas do filme e abra no Excel.
- Substitua todos os sinais de pontuação por espaços, por exemplo., ,.!?”();:
- Substitua os hífens por um espaço, ou seja, “-” com ” “.
- Substitua espaços duplos por espaços simples.
- Classifique a coluna com frases em ordem alfabética.
- Remova linhas com números de linha nas legendas e linhas de anotação de tempo, por exemplo, “00:01:56,866 –> 00:02:01,037.”
- Execute o comando “Texto para Colunas” e defina o espaço como separador.
- Palavras individuais serão colocadas em colunas.
- Classifique cada coluna para eliminar células vazias.
- Transfira o conteúdo de cada coluna para a primeira coluna.
- Adicione um título de coluna, por exemplo, “Palavras”.
- Crie uma tabela dinâmica, colocando “Palavras” no campo de linha e “Contar palavras” no campo de dados.
Artigo originalmente publicado em sekretypoliglotow.pl em polonês. Você pode encontrá-lo aqui.