{"id":7981,"date":"2023-10-02T22:51:03","date_gmt":"2023-10-02T20:51:03","guid":{"rendered":"https:\/\/elemelingua.com\/?p=7981"},"modified":"2023-10-02T22:51:03","modified_gmt":"2023-10-02T20:51:03","slug":"quantas-palavras-voce-precisa-saber-para-entender-um-texto","status":"publish","type":"post","link":"https:\/\/elemelingua.com\/pt-br\/quantas-palavras-voce-precisa-saber-para-entender-um-texto\/","title":{"rendered":"Quantas palavras voc\u00ea precisa saber para entender um texto?"},"content":{"rendered":"\n<p id=\"h-a-few-days-ago-i-started-a-project-to-expand-my-hindi-vocabulary-based-on-dialogues-from-the-movie-frozen-one-of-the-questions-i-asked-myself-then-was-very-interesting-how-many-words-do-you-need-to-know-to-understand-the-text\">H\u00e1 alguns dias, iniciei um projeto para expandir meu vocabul\u00e1rio em hindi baseado nos di\u00e1logos do filme &#8220;Frozen&#8221;. Uma das perguntas que me fiz no momento foi muito interessante: <strong>Quantas palavras voc\u00ea precisa saber para entender o texto?<\/strong> <\/p>\n\n<p id=\"h-i-was-also-inspired-by-an-article-here-learning-languages-very-quickly-with-the-help-of-some-very-basic-data-science-in-which-the-author-collected-subtitles-for-many-episodes-of-favorite-series-in-swedish-and-analyzed-the-words-contained-in-them-using-a-script-he-developed-he-concluded-that-in-the-case-of-this-language-the-pareto-principle-indeed-holds-20-of-the-words-were-enough-to-understand-80-of-the-text\">Tamb\u00e9m me inspirei em um artigo aqui: <a href=\"https:\/\/hackernoon.com\/learning-languages-very-quickly-with-the-help-of-some-very-basic-data-science-cdbf95288333\">Aprender l\u00ednguas muito rapidamente \u2013 com a ajuda de uma ci\u00eancia de dados muito b\u00e1sica<\/a>, em que o autor coletou legendas para muitos epis\u00f3dios de s\u00e9ries favoritas em sueco e analisou as palavras contidas nelas usando um roteiro que ele desenvolveu . Ele concluiu que, no caso desta l\u00edngua, o princ\u00edpio de Pareto realmente se aplica &#8211; 20% das palavras eram suficientes para compreender 80% do texto. <\/p>\n\n<p id=\"h-i-decided-to-conduct-a-similar-experiment-using-subtitles-from-the-movie-frozen-in-polish-english-german-french-and-arabic\">Portanto, decidi realizar uma experi\u00eancia semelhante usando legendas do filme &#8220;Frozen&#8221; em polon\u00eas, ingl\u00eas, alem\u00e3o, franc\u00eas e \u00e1rabe.<\/p>\n\n<h2 id=\"h-i-wondered-about-the-following-issues\">Eu me perguntei sobre as seguintes quest\u00f5es:<\/h2>\n\n<p>Ter 20% das palavras das legendas realmente permite compreender 80% de todo o texto em cada um desses idiomas?<\/p>\n\n<p>Al\u00e9m disso, uma propor\u00e7\u00e3o semelhante se aplica apenas a l\u00ednguas onde a conjuga\u00e7\u00e3o de verbos e substantivos \u00e9 muito simples, como ingl\u00eas, sueco, e outras? Ou ser\u00e1 que tamb\u00e9m se aplica \u00e0 aprendizagem de l\u00ednguas como o polon\u00eas, onde as palavras podem aparecer de v\u00e1rias formas?<\/p>\n\n<h2 id=\"h-here-s-the-plan-i-ve-set-for-myself-to-carry-out\">Aqui est\u00e1 o plano que estabeleci para executar:<\/h2>\n\n<p>Primeiro, usarei legendas do filme &#8220;Frozen&#8221; em v\u00e1rios idiomas e dividirei todas as frases em palavras individuais.<\/p>\n\n<p>Em segundo lugar, tratarei como uma palavra:<\/p>\n\n<ul><li>Todas as palavras, incluindo nomes pr\u00f3prios, como Elsa, Anna, etc.<\/li><li>Cada forma de uma palavra que aparece no texto. Por exemplo, formas verbais como &#8220;\u00e9&#8221;, &#8220;era&#8221;, &#8220;ser\u00e1&#8221; ou substantivos como &#8220;boneco de neve&#8221;, &#8220;bonecos de neve&#8221; em outras l\u00ednguas ser\u00e3o tratados como palavras separadas.<\/li><li>Palavras conectadas por um ap\u00f3strofo ser\u00e3o tratadas como uma palavra, por exemplo, &#8220;I&#8217;m,&#8221; &#8220;he&#8217;s&#8221; em ingl\u00eas ou &#8220;c&#8217;est&#8221; em franc\u00eas.<\/li><li>Palavras conectadas por um h\u00edfen ser\u00e3o separadas, por exemplo, \u201cattrape-moi\u201d em franc\u00eas torna-se duas palavras: \u201cattrape\u201d e \u201cmoi\u201d.<\/li><li>Se uma palavra pode ter dois significados, vou considerar como uma palavra na minha an\u00e1lise. Por exemplo, Em polon\u00eas &#8220;mo\u017ce&#8221; significa &#8220;talvez&#8221; e &#8220;ele\/ela pode&#8221; e v\u00e3o ser contados como uma palavra s\u00f3.<\/li><li>Se uma palavra escrita estiver conectada a outra, por exemplo, o \u00e1rabe &#8220;e&#8221;, que \u00e9 &#8220;\u0648&#8221;, ser\u00e1 tratado como parte da pr\u00f3xima palavra. Assim, por exemplo, &#8220;\u0648\u0644\u0643\u0646&#8221; \u00e9 uma palavra, n\u00e3o duas.<\/li><\/ul>\n\n<p id=\"h-here-are-the-results-of-my-experiments\">Ent\u00e3o, aqui est\u00e3o os resultados dos meus experimentos:<\/p>\n\n<h2 id=\"h-how-many-words-do-you-need-to-know-to-understand-a-text-in-english\">Quantas palavras voc\u00ea precisa saber para entender um texto em ingl\u00eas?<\/h2>\n\n<h2 id=\"h-\"><img loading=\"lazy\" width=\"300\" height=\"267\" src=\"https:\/\/lh5.googleusercontent.com\/kjYbhKEyhkrZSynYfDvMUzeJgfhankM6exrdMS2mkjORRrwLOAVTQZbl2Hr3a6bqonYPaP4s8Tw6wefrTa_z_TO8fS8n6BDqdfGQooFrCCyuL2xylNkG4fu3dhj7KsZJQgsPJ086r6Ms9FfdNMFBL4U\"\/><\/h2>\n\n<p id=\"h-here-is-the-basic-data\">Aqui est\u00e3o os dados b\u00e1sicos:<\/p>\n\n<ul><li>N\u00famero total de palavras (incluindo repeti\u00e7\u00f5es): 7747<\/li><li>N\u00famero de palavras \u00fanicas: 1241<\/li><li>As palavras s\u00e3o repetidas em m\u00e9dia: 6,2 vezes<\/li><\/ul>\n\n<figure class=\"wp-block-table\"><table><tbody><tr><td><strong>Porcentagem de palavras:<\/strong><\/td><td><strong>Permite compreender:<\/strong><\/td><\/tr><tr><td>5%<\/td><td>52,3%<\/td><\/tr><tr><td>10%<\/td><td>65,64%<\/td><\/tr><tr><td>20%<\/td><td>78.55%<\/td><\/tr><tr><td>35%<\/td><td>87,20%<\/td><\/tr><tr><td>50%<\/td><td>91.98%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p id=\"h-10-most-common-words\"><strong>10 palavras mais comuns:<\/strong><\/p>\n\n<ul><li>you, I, the, to, a, and, no, it, me, is<\/li><\/ul>\n\n<h2 id=\"h-how-many-words-do-you-need-to-know-to-understand-a-text-in-polish\">Quantas palavras voc\u00ea precisa saber para entender um texto em polon\u00eas?<\/h2>\n\n<h2 id=\"h-\"><img loading=\"lazy\" width=\"300\" height=\"267\" src=\"https:\/\/lh5.googleusercontent.com\/egefM5LWssHNoWAAym--pFQUjEp8la4j2EyU_tcujw_Cgojz0af4_cwdEMsXrkmIycxH4GLR653evtTtDVprJTD70j0lQekKNePQPdoC60tm2uApfXZtr08-bewO8Z8NSJeCxtPK9D0ThHFT1C7FN8I\"\/><\/h2>\n\n<p id=\"h-here-is-the-basic-data\">Aqui est\u00e3o os dados b\u00e1sicos:<\/p>\n\n<ul><li>N\u00famero total de palavras (incluindo repeti\u00e7\u00f5es): 6374<\/li><li>N\u00famero de palavras \u00fanicas: 1885<\/li><li>As palavras s\u00e3o repetidas em m\u00e9dia: 3,4 vezes<\/li><\/ul>\n\n<figure class=\"wp-block-table\"><table><tbody><tr><td><strong>Porcentagem de palavras:<\/strong><\/td><td><strong>Permite compreender:<\/strong><\/td><\/tr><tr><td>5%<\/td><td>48,59%<\/td><\/tr><tr><td>10%<\/td><td>59,81%<\/td><\/tr><tr><td>20%<\/td><td>70,76%<\/td><\/tr><tr><td>35%<\/td><td>80,31%<\/td><\/tr><tr><td>50%<\/td><td>85,21%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p id=\"h-10-most-common-words-1\"><strong>10 palavras mais comuns:<\/strong><\/p>\n\n<ul><li>nie, to, si\u0119, jest, i, w, co, z, tak, na<\/li><\/ul>\n\n<h2 id=\"h-how-many-words-do-you-need-to-know-to-understand-a-text-in-german\">Quantas palavras voc\u00ea precisa saber para entender um texto em alem\u00e3o?<\/h2>\n\n<h2 id=\"h-\"><img loading=\"lazy\" width=\"300\" height=\"267\" src=\"https:\/\/lh5.googleusercontent.com\/VdZX3iYeB_l1a_Zlj3PtR1Nby0zu5vcRT-EDzwulaojY2JPkdYEfdbVd5U5zHRvLj10zxJo4QN4yCTJjuZm2wt-gzYm3JVnuPU2lUV-lOJ-By3JpnGWWGXkeZ3g2aqy2--rLL64sy67Dk_xpVSVHO1c\"\/><\/h2>\n\n<p id=\"h-here-is-the-basic-data\">Aqui est\u00e3o os dados b\u00e1sicos:<\/p>\n\n<ul><li>N\u00famero total de palavras (incluindo repeti\u00e7\u00f5es): 6022<\/li><li>N\u00famero de palavras \u00fanicas: 1366<\/li><li>As palavras s\u00e3o repetidas em m\u00e9dia: 4,4 vezes<\/li><\/ul>\n\n<figure class=\"wp-block-table\"><table><tbody><tr><td><strong>Porcentagem de palavras:<\/strong><\/td><td><strong>Permite compreender:<\/strong><\/td><\/tr><tr><td>5%<\/td><td>49,04%<\/td><\/tr><tr><td>10%<\/td><td>63,05%<\/td><\/tr><tr><td>20%<\/td><td>75,12%<\/td><\/tr><tr><td>35%<\/td><td>83,68%<\/td><\/tr><tr><td>50%<\/td><td>88,66%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p id=\"h-10-most-common-words-2\"><strong>10 palavras mais comuns:<\/strong><\/p>\n\n<ul><li>ich, ist, du, nicht, das, und, sie, es, wir, die<\/li><\/ul>\n\n<h2 id=\"h-how-many-words-do-you-need-to-know-to-understand-a-text-in-french\">Quantas palavras voc\u00ea precisa saber para entender um texto em franc\u00eas?<\/h2>\n\n<h2 id=\"h-\"><img loading=\"lazy\" width=\"300\" height=\"267\" src=\"https:\/\/lh6.googleusercontent.com\/d7MjhmkOUqEhN5DpLhQ5RNhz-uF4qeE0n1qVCTilciV1haaDcm8ZN9g3k75_LGwWmZ1ehH_FMi3XH6e11kajiUTMUWND2UPtzS8P1tlpspoeLNhBA1_IGsM3I1obIo9MEBAmIrEj5b6DIpvHZyD04mY\"\/><\/h2>\n\n<p id=\"h-here-is-the-basic-data\">Aqui est\u00e3o os dados b\u00e1sicos:<\/p>\n\n<ul><li>N\u00famero total de palavras (incluindo repeti\u00e7\u00f5es): 7630<\/li><li>N\u00famero de palavras \u00fanicas: 1471<\/li><li>As palavras s\u00e3o repetidas em m\u00e9dia: 5,2 vezes<\/li><\/ul>\n\n<figure class=\"wp-block-table\"><table><tbody><tr><td><strong>Porcentagem de palavras:<\/strong><\/td><td><strong>Permite compreender:<\/strong><\/td><\/tr><tr><td>5%<\/td><td>52,27%<\/td><\/tr><tr><td>10%<\/td><td>65,53%<\/td><\/tr><tr><td>20%<\/td><td>77,47%<\/td><\/tr><tr><td>35%<\/td><td>85,56%<\/td><\/tr><tr><td>50%<\/td><td>90,37%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p id=\"h-10-most-common-words-3\"><strong>10 palavras mais comuns:<\/strong><\/p>\n\n<ul><li>je, de, la, pas, tu, ne, le, c\u2019est, que, un<\/li><\/ul>\n\n<h2>Quantas palavras voc\u00ea precisa saber para entender um texto em \u00e1rabe?<\/h2>\n\n<h2><img loading=\"lazy\" width=\"300\" height=\"267\" src=\"https:\/\/lh4.googleusercontent.com\/lGIz_mXiesb2TyTcx_vnt2AWkgqKAShdzyz0agVol6TCjorszKO1Qet4X2CQPjBG85iAdf8slGICYbM7wYHIj0J9HsStZqaElFpPueKKls6v7XLgbKUwnOaZIbrIenXV_TAzC0Wj_COKuXh1xRtYp6M\"\/><\/h2>\n\n<p>Aqui est\u00e3o os dados b\u00e1sicos:<\/p>\n\n<ul><li>N\u00famero total de palavras (incluindo repeti\u00e7\u00f5es): 5988<\/li><li>N\u00famero de palavras \u00fanicas: 2441<\/li><li>As palavras s\u00e3o repetidas em m\u00e9dia: 2,5 vezes<\/li><\/ul>\n\n<figure class=\"wp-block-table\"><table><tbody><tr><td><strong>Porcentagem de palavras:<\/strong><\/td><td><strong>Permite compreender:<\/strong><\/td><\/tr><tr><td>5%<\/td><td>42,20%<\/td><\/tr><tr><td>10%<\/td><td>52,83%<\/td><\/tr><tr><td>20%<\/td><td>63,65%<\/td><\/tr><tr><td>35%<\/td><td>73,54%<\/td><\/tr><tr><td>50%<\/td><td>79,64%<\/td><\/tr><\/tbody><\/table><\/figure>\n\n<p><strong>10 palavras mais comuns:<\/strong><\/p>\n\n<ul><li>\u0644\u0627, \u0623\u0646, \u0645\u0646, \u0647\u0630\u0627, \u0641\u064a, \u0643\u0644\u0627, \u0622\u0646\u0627, \u0623\u0646\u0627, \u0639\u0644\u0649, \u0645\u0627<\/li><\/ul>\n\n<h2>Conclus\u00f5es do experimento<\/h2>\n\n<p>O princ\u00edpio de Pareto funciona bem em l\u00ednguas dominadas por palavras com poucas formas. Em idiomas onde as palavras s\u00e3o repetidas at\u00e9 6 vezes, como o ingl\u00eas, conhecer 20% das palavras \u00e9 suficiente para compreender 80% do texto. O mesmo se aplica ao franc\u00eas e ao alem\u00e3o, onde 20% das palavras s\u00e3o suficientes para compreender mais de 75-77% do texto.<\/p>\n\n<p>No caso da l\u00edngua polonesa, que possui um n\u00famero significativo de formas nominais, a situa\u00e7\u00e3o n\u00e3o \u00e9 t\u00e3o favor\u00e1vel. Conhecer 20% das palavras permite compreender apenas cerca de 70% do texto. Para entender 80% do texto, voc\u00ea precisa conhecer 35% das palavras.<\/p>\n\n<p>Basicamente, o \u00e1rabe teve o pior desempenho, principalmente porque a palavra \u201ce\u201d \u00e9 combinada com a palavra seguinte, reduzindo significativamente a repeti\u00e7\u00e3o de palavras individuais no texto. Al\u00e9m disso, pelo que percebi, as palavras das legendas \u00e0s quais tive acesso nem sempre estavam separadas de forma consistente por espa\u00e7os, o que poderia ter afetado o resultado. Quando separei a palavra \u201ce\u201d, os resultados ficaram muito mais pr\u00f3ximos do idioma polon\u00eas (20% das palavras permitiram a compreens\u00e3o de 66% do texto). Se eu tivesse separado todas as palavras de forma consistente, acredito que os resultados teriam sido ainda mais pr\u00f3ximos da l\u00edngua polonesa.<\/p>\n\n<h2>Em geral, podemos tirar as seguintes conclus\u00f5es:<\/h2>\n\n<p>Conhecer 20% dos lexemas \u00e9 suficiente para compreender 80% do texto em praticamente qualquer idioma. Um lexema aqui \u00e9 entendido como uma unidade que cont\u00e9m todas as formas de palavras, ent\u00e3o, por exemplo, o lexema &#8220;ba\u0142wan&#8221; tamb\u00e9m inclui formas como &#8220;ba\u0142wana&#8221;, &#8220;ba\u0142wanem&#8221; etc.<\/p>\n\n<p>Quando levamos em conta todas as palavras, n\u00e3o apenas os lexemas, saber 20% permite compreender 60-80% do texto dependendo da complexidade da gram\u00e1tica da l\u00edngua. Quanto mais formas verbais e nominais e mais combina\u00e7\u00f5es de palavras um idioma permitir, menor ser\u00e1 a porcentagem de compreens\u00e3o do texto.<\/p>\n\n<p>Portanto, a dificuldade de aprender um idioma pode ser avaliada pela <strong>taxa m\u00e9dia de repeti\u00e7\u00e3o de palavras<\/strong> no texto. Quanto maior essa taxa, menos palavras ser\u00e3o necess\u00e1rias para a compreens\u00e3o do texto. Claro, outro fator a considerar \u00e9 a <strong>porcentagem de exce\u00e7\u00f5es \u00e0 regra<\/strong> quando se trata de flex\u00f5es verbais e nominais. Por exemplo, em polon\u00eas, um desafio \u00e9 criar a forma do genitivo singular de substantivos masculinos. Em outras l\u00ednguas, pode haver muitas exce\u00e7\u00f5es nas conjuga\u00e7\u00f5es verbais. Em contraste, o Esperanto, que teoricamente tem formas mais flexionadas do que o ingl\u00eas, pode ser mais f\u00e1cil de aprender porque todas as formas s\u00e3o regulares.<\/p>\n\n<h2><meta charset=\"utf-8\"\/>Se voc\u00ea quiser realizar um experimento semelhante por conta pr\u00f3pria, aqui est\u00e1 um breve guia passo a passo:<\/h2>\n\n<ol><li>Encontre as legendas do filme e abra no Excel.<\/li><li>Substitua todos os sinais de pontua\u00e7\u00e3o por espa\u00e7os, por exemplo., ,.!?\u201d();:<\/li><li>Substitua os h\u00edfens por um espa\u00e7o, ou seja, &#8220;-&#8221; com &#8221; &#8220;.<\/li><li>Substitua espa\u00e7os duplos por espa\u00e7os simples.<\/li><li>Classifique a coluna com frases em ordem alfab\u00e9tica.<\/li><li>Remova linhas com n\u00fameros de linha nas legendas e linhas de anota\u00e7\u00e3o de tempo, por exemplo, &#8220;00:01:56,866 \u2013&gt; 00:02:01,037.&#8221;<\/li><li>Execute o comando &#8220;Texto para Colunas&#8221; e defina o espa\u00e7o como separador.<\/li><li>Palavras individuais ser\u00e3o colocadas em colunas.<\/li><li>Classifique cada coluna para eliminar c\u00e9lulas vazias.<\/li><li>Transfira o conte\u00fado de cada coluna para a primeira coluna.<\/li><li>Adicione um t\u00edtulo de coluna, por exemplo, &#8220;Palavras&#8221;.<\/li><li>Crie uma tabela din\u00e2mica, colocando \u201cPalavras\u201d no campo de linha e \u201cContar palavras\u201d no campo de dados.<\/li><\/ol>\n\n<p><strong><em>Artigo originalmente publicado em sekretypoliglotow.pl em polon\u00eas<\/em><\/strong>. Voc\u00ea pode encontr\u00e1-lo <a href=\"https:\/\/sekretypoliglotow.pl\/slow-trzeba-znac-zeby-zrozumiec-tekst\/\">aqui.<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>H\u00e1 alguns dias, iniciei um projeto para expandir meu vocabul\u00e1rio em hindi baseado nos di\u00e1logos do filme &#8220;Frozen&#8221;. Uma das perguntas que me fiz no momento foi muito interessante: Quantas palavras voc\u00ea precisa saber para entender o texto? Tamb\u00e9m me inspirei em um artigo aqui: Aprender l\u00ednguas muito rapidamente \u2013 com a ajuda de uma [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":7914,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"spay_email":""},"categories":[110],"tags":[],"jetpack_featured_media_url":"https:\/\/elemelingua.com\/wp-content\/uploads\/2023\/09\/Slowka.png","_links":{"self":[{"href":"https:\/\/elemelingua.com\/pt-br\/wp-json\/wp\/v2\/posts\/7981"}],"collection":[{"href":"https:\/\/elemelingua.com\/pt-br\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/elemelingua.com\/pt-br\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/elemelingua.com\/pt-br\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/elemelingua.com\/pt-br\/wp-json\/wp\/v2\/comments?post=7981"}],"version-history":[{"count":1,"href":"https:\/\/elemelingua.com\/pt-br\/wp-json\/wp\/v2\/posts\/7981\/revisions"}],"predecessor-version":[{"id":7982,"href":"https:\/\/elemelingua.com\/pt-br\/wp-json\/wp\/v2\/posts\/7981\/revisions\/7982"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/elemelingua.com\/pt-br\/wp-json\/wp\/v2\/media\/7914"}],"wp:attachment":[{"href":"https:\/\/elemelingua.com\/pt-br\/wp-json\/wp\/v2\/media?parent=7981"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/elemelingua.com\/pt-br\/wp-json\/wp\/v2\/categories?post=7981"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/elemelingua.com\/pt-br\/wp-json\/wp\/v2\/tags?post=7981"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}