Hace mucho tiempo, allá por la década de los 30, un lingüista llamado George Kingsley Zipf notó algo muy extraño sobre el comportamiento en la repetición de las palabras en cualquier texto en inglés lo suficientemente largo. Al contabilizar las veces que cada palabra se repetía, y al acomodarlas según su rango de repetición, la segunda palabra que más se repetía aparecía casi EXACTAMENTE la mitad de veces que lo hacía la primera palabra. La tercera palabra se repetía la tercera parte de lo que se repetía la primera. Y así sucesivamente.
Comentarios
Lo genial es que la Ley de Zipf es una distribución que se da en otros muchos casos. Por ejemplo, en la población de las ciudades se da bastante bien. Pongamos por caso Estados Unidos:
Nueva York tiene unos 8.000.000 de habitantes.
Los Ángeles, 4.000.000 aprox.
Chicago, 2.700.000 aprox.
Houston, algo más de 2.000.000.
Phoenix, del orden de 1.500.000.
#4 Se llama distribución Zeta.
https://es.wikipedia.org/wiki/Distribuci%C3%B3n_zeta
No es un misterio matemático, es un misterio lingúístico en todo caso.
#3 No tienen porque ser las mismas palabras. De echo, esto se usa para reventar claves cristalográficas. En función de la distribución de palabras, se puede saber el idioma del testo encristalado. También se ha usado para traducir lenguas muertas. O por ejemplo, en Manuscrito Voynich, cumple la Ley de Zipf, por lo que se piensa que su contenido tiene sentido y no es un troleo.
Los idiomas artificiales como el Klingon, no cumplen la Ley de Zipf. Aunque la noticia diga lo contrario.
#2 Es interesante. ¿Podría entonces usarse el no cumplimiento de la ley de Zipf como indicativo de idioma artificial? Por otro lado, tengo la intuición de que no es lo mismo en todos los idiomas, y tiene que haber diferencias significativas. Por ejemplo, dice que en inglés es el artículo "the" el que tiene la mayor frecuencia en todo texto. Me parece lógico, y también que sea lo mismo en español, los artículos son determinantes que se usan mucho en el habla, pero en español concuerdan en género y número con el nombre, así que o se trata a todos los artículos como iguales o la aparición de los mismos estará repartida entre todas las formas, el, la, las, los...
¿Esto es cierto?
¿ Se cumple en idiomas como el chino?