Hace 4 años | Por palehari a es.quora.com
Publicado hace 4 años por palehari a es.quora.com

Hace mucho tiempo, allá por la década de los 30, un lingüista llamado George Kingsley Zipf notó algo muy extraño sobre el comportamiento en la repetición de las palabras en cualquier texto en inglés lo suficientemente largo. Al contabilizar las veces que cada palabra se repetía, y al acomodarlas según su rango de repetición, la segunda palabra que más se repetía aparecía casi EXACTAMENTE la mitad de veces que lo hacía la primera palabra. La tercera palabra se repetía la tercera parte de lo que se repetía la primera. Y así sucesivamente.

Comentarios

themarquesito

Lo genial es que la Ley de Zipf es una distribución que se da en otros muchos casos. Por ejemplo, en la población de las ciudades se da bastante bien. Pongamos por caso Estados Unidos:
Nueva York tiene unos 8.000.000 de habitantes.
Los Ángeles, 4.000.000 aprox.
Chicago, 2.700.000 aprox.
Houston, algo más de 2.000.000.
Phoenix, del orden de 1.500.000.

gonas
t

No es un misterio matemático, es un misterio lingúístico en todo caso.

gonas

#3 No tienen porque ser las mismas palabras. De echo, esto se usa para reventar claves cristalográficas. En función de la distribución de palabras, se puede saber el idioma del testo encristalado. También se ha usado para traducir lenguas muertas. O por ejemplo, en Manuscrito Voynich, cumple la Ley de Zipf, por lo que se piensa que su contenido tiene sentido y no es un troleo.

gonas

Los idiomas artificiales como el Klingon, no cumplen la Ley de Zipf. Aunque la noticia diga lo contrario.

m

#2 Es interesante. ¿Podría entonces usarse el no cumplimiento de la ley de Zipf como indicativo de idioma artificial? Por otro lado, tengo la intuición de que no es lo mismo en todos los idiomas, y tiene que haber diferencias significativas. Por ejemplo, dice que en inglés es el artículo "the" el que tiene la mayor frecuencia en todo texto. Me parece lógico, y también que sea lo mismo en español, los artículos son determinantes que se usan mucho en el habla, pero en español concuerdan en género y número con el nombre, así que o se trata a todos los artículos como iguales o la aparición de los mismos estará repartida entre todas las formas, el, la, las, los...

D

¿Esto es cierto?
¿ Se cumple en idiomas como el chino?