Palabras Aleatorias

Probabilidad y Español ... ¡Vaya combinación!

Letras al azar

Pensarías que es fácil crear palabras aleatorias ... solo hay que elegir letras al azar y juntarlas, ¡y listo! Ya tienes una palabra al azar.

Bueno, aquí hay 20 palabras hechas de esa manera:

tldkl oewkx dmwol vuptg hvwjk naqid avypr zwtip zgnzs bvdhd
muyfd ighgd xhlng oyecn vjnsl ssjrx gxald tukxj rvfoq yxzxq

¡Resulta que esas palabras no solo son tonterías, sino bastante difíciles de pronunciar!

(Intenta decir "tldkl" o "xhlng")

Verás, la probabilidad de obtener una palabra de verdad es muy baja ... tendrías que probar muchas combinaciones aleatorias antes de tener suerte.

¿Por qué? Bueno, la cuestión es que el Español (Castellano) tiene alrededor de 88,000 palabras identificadas en el Diccionario de la Real Academia Española y además otras 70,000 palabras identificadas en el Diccionario de Americanismos, que son palabras propias del Español utilizadas en todo el continente Americano, aunque en este último hay muchas variantes de una misma palabras que en un diccionario académico ocuparían una sola entrada. Por lo tanto diremos, de forma aproximada, que el Español cuenta con 110,000 palabras.

Volviendo al tema, ¿cuántas palabras diferentes se pueden formar con solo 5 letras?

27 × 27 × 27 × 27 × 27 = ¡14,348,907 palabras posibles de 5 letras!

Y esas son solo las palabras de 5 letras ...

Supongamos que hay 35,000 palabras en español que tienen 5 letras. Entonces la probabilidad de hacer una palabra real al azar sería:

35,000 / 14,348,907 = 0.0024, es decir, una probabilidad de 0.2%

Entonces las palabras reales son raras. Y podemos ver que juntando letras al azar es muy poco probable que se produzca una palabra real.

Vocales

Podemos mejorar nuestro éxito al agregar una restricción en la que una palabra tenga al menos una vocal, ya que casi todas las palabras en español tienen una. Algo así:

ectot gjaqv kuifg vzicu zspsu pdidb wqdis uerrs ucgej okimw
fnevz ewxko ljgew aglgo jpfoq dcytu uwkcj dzioy wekdx xuybk

Esto es una gran mejora. Se pueden pronunciar más palabras.

Pero todavía la mayoría son palabras extrañas como "zspsu" y "xuybk"

Frecuencia de las letras

Entonces, nuestra próxima mejora es usar menos letras como j, x, z y q y más letras como e, t y s.

De hecho, la frecuencia de las letras en el idioma Español es bien conocida. Aquí está cuántas veces esperaría ver una letra por cada 1,000 letras:

a b c d e f g h i j k l m n ñ o p q r s t u v w x y z
124 14 46 59 137 7 10 7 62 4 0 50 31 67 3 86 25 9 69 80 46 39 9 0 2 9 5

¿Puedes ver que la "e" es común, pero la "w" es rara?

Entonces, al seleccionar letras basadas en esas frecuencias (un poco como rodar un dado de 1,000 lados donde dicho dado tiene 124 a's, 14 b's ... y ninguna k ni w), podemos obtener algo como lo siguiente:

elnao etgov segty laast aessn siuon oenha eaoas ncoot ctwka
dmswo dpuoh eewis ebdni laarm syucs idvos lhina igahh soyie

Todavía no hay palabras reales, pero algunas están cerca. Y la mayoría de ellas se pueden pronunciar. (¡Algunas de esas palabras pueden ser muy buenos nombres si estás escribiendo una novela de ciencia ficción!)

¡Inténtalo tu mismo!

Puedes probar los tres métodos aquí ... Prueba a ver si tienes suerte y encuentras una palabra real:

pero aún podemos hacerlo mejor ...

Frecuencia de 2 letras consecutivas

Podemos llevar la idea de la frecuencia de letras un paso más allá al preguntarnos

"¿Cuál es la frecuencia de las letras que siguen a otra letra"

Por ejemplo, si ya tenemos una "s", es muy probable que la siguiente letra sea una "a" (haciendo "sa").

Para ilustrar esto, construí un Tabla de Frecuencias de Dos Letras (de Las Aventuras de Alicia en el País de las Maravillas). Aquí está la línea para "s":

Frec a b c d e f g h i j k l m n o p q r s t u v w x y z
s 238
41
727 11
3197 459

275 18 12 990

149 153 333 125
65
54

*****

the cur the bund hof arytowno d sheromasees asemedosouro f
soacthake d imon binofowat oaten d heng wa

Los resultados son notables ... sin sentido, pero casi como un lenguaje extraño.

De hecho, no solo estamos haciendo palabras al azar ahora, ¡estamos haciendo oraciones al azar!

Frecuencia de más letras

¿Por qué parar ahí? Podemos hacer tablas de frecuencias de tres letras o más ...

Frecuencia de 3 letras consecutivas

¿Cómo funcionan las frecuencias de 3 letras?

Bueno, digamos que ya tengo dos letras (como "ei") ... entonces:

Aquí hay una muestra:

Either great into get very deep welled of it it, and
to wondere started into the book about hear!

¡Eso se ve bien! Al tomar muestras de una fuente real podemos obtener buenos resultados.

Frecuencia de 4 letras consecutivas

Usando el mismo método que empleé para grupos de 3 letras hice lo mismo con una cuarta letra y obtuve:

Either the sides or conversations in time to
happen next. First, she look down mind

Frecuencia de 5 letras consecutivas

Y con frecuencias de 5 letras:

There was just in time it all seemed quite natural);
but to take out of time as she had not like to do

¡Inténtalo tu mismo!

Sí, escribí algo para que juegues. Tiene los primeros 6 párrafos de Las Aventuras de Alicia en el País de las Maravillas), pero puedes poner tu propio texto allí.

Prueba con algo de Gabriel García Márquez, tu escritor favorito, un discurso político, etc., y mira lo que ocurre ... incluso podría combinar citas de diferentes autores para ver lo que surge de tal combinación.