Dmc 7 Nov 2007
Cadenes de correus electrònics (i matemàtiques)
Enviat per Félix a la categoria General
Avui he tornat a rebre un altre e-mail per formar una cadena d’aquestes per defendre causes molt nobles. Primer de tot dir, per si encara qualcú no se n’ha adonat, que la major part d’aquestes cadenes no tenen altre objectiu que el de fer-se amb les direccions electròniques de gent que després no sap perquè li arriba tant de spam (o coses pitjors si un és tan ingenu com per obrir els arxius adjunts que li arriben en e-mails de gent que no coneix). Això està relacionat amb el que en el mon dels hackers s’anomena “Enginyeria Social“. Molts ja sabeu que una manera d’evitar cadenes de correus electrònics és esborrar del text les direccions de tota la gent que ho ha reenviat i reenviar-ho com a còpia oculta (CO).
No em detindré parlant d’aquestes cadenes que diuen que donaran noséquants cèntims per cada vegada que se reenviï un correu perquè ja em sembla molt fort que la gent se cregui que hi ha una superentitat que es dedica a revisar si un e-mail amb un cert tipus de contingut s’envia i quantes vegades se fa. Això per no dir que és totalment il·legal que ningú pugui accedir al contingut dels meus e-mails sense una ordre judicial (excepte Bush clar).
Però fa poc temps que començ a rebre un altre tipus de cadenes. Vos explic. Aquestes ja directament te diuen que quan ho reenviïs esborris les direccions anteriors i utilitzis la còpia oculta. Com ja he dit abans, totes tenen causes molt nobles i es dediquen a fer llistats de firmes a mode de protesta o reivindicació. Qui posi el seu nom a una determinada posició de la llista ha de reenviar la llista a l’origen (per recopilar les llistes i poder presentar-les com a argument de força en contra o a favor de la causa).
Analitzem aquestes cadenes des d’un punt de vista matemàtic. Simplificarem molt el problema i suposarem que la persona que escriu el missatge original és A i que cada persona que reb el missatge segueix la cadena i ho reenvia a dues persones (son poquetes) que encara no han rebut el missatge.
Primera generació:
A
Segona generació:
AB
AC
Tercera generació:
ABD
ABE
ACF
ACG
Quarta generació:
ABDH
ABDI
ABEJ
ABEK
ACFL
ACFM
ACGN
ACGO
(tot això queda més bonic i clar amb un arbre, però…)
A aquesta generació circulen 8 llistes distintes però totes elles amb membres comuns (per exemple a les dues primeres llistes surten A, B i D). Està clar que el nombre de llistes que circulen a la generació n és igual a la potència de base 2 i exponent n-1.
…
Ara pensau que el missatge diu que qui escrigui el seu nom al nombre 200 retorni el missatge a una direcció de correu electrònic (en teoria és la direcció del membre A).
Hem d’adonar-nos que A rebrà una quantitat de llistes que no se correspon (multiplicada per 200) amb la quantitat de gent (sense repetir) que de veritat ha signat. A aquesta situació simplificada si arribessin totes les llistes de la generació dues-centes a A (2 elevat a 199 són moltes llistes) encara podríem saber quina quantitat de gent ha signat (no és molt difícil trobar com calcular la solució, ho deix per si a qualcú li fa ganes pensar-hi). Però a la realitat sabem que no tothom segueix la cadena (jo per exemple) i llavors no tenim una funció tan maca com l’exponencial de base 2 (o qualsevol altra base) i la cosa és molt més complexa. Si a l’element original li arriben 1000 llistes, com pot saber quina quantitat de gent real (sense repetir) està a favor de la seva causa? I una cosa tenc clara, no es posarà a contar la gent revisant una per una les llistes.
Segueixo pensant que aquestes cadenes són per enganar la gent.
Salutacions,
Félix.
8 Novembre 2007 a les 11:54
Hola Félix
La pregunta té a veure amb el que s’anomena els diferents “coeficients d’agrupament” (clustering coefficients, en l’idioma de l’imperi) de la xarxa social on es mou el mail.
Primera pregunta. Si X envia 20 mails a amics, i cada un d’aquests rebota el mail a 20 amics més, quina és la probabilitat que un d’aquests amics l’envii a un altre de la llista de 20 contactes de X?
Mal de saber. Aleshores l’aproximam per: Dos amics de X, quina fracció d’amics tenen en comú? O, al camp científic (perquè el científics no tenim vida privada i només ens relacionam amb col·legues, es veu): Dos col·laboradors de X, quina és la probabilitat que hagin col·laborat entre ells? D’això se’n diu el primer coeficient d’agrupament.
Aquestes probabilitats estan estudiades en diverses societats i per a diverses situacions, analitzant enquestes o bases de dades. La revista Social Networks sol contenir articles sobre aquest tema.
Pregunta 2: Si X envia 20 mails a amics, i cada un d’aquests rebota el mail a 20 amics més, quina és la probabilitat que dos d’aquests l’enviin a una mateixa persona de fora de la llista de 20 contactes de X? Això està relacionat amb el segon coeficient d’agrupament.
La resta de preguntes (Si X envia 20 mails a amics, i cada un d’aquests rebota el mail a 20 amics més, i cada un d’aquests a 20 amics més, quina és la probabilitat que dos d’aquests darrers l’enviin a una mateixa persona? etc.) directament s’estimen a partir dels valors anteriors. Aquest punt és un tema ben interessant, ple de tècniques duríssimes, sovint importades de la mecànica estadística.
No sé els que envien els teus mails de causes nobles, però pots estar segur que els analistes d’empreses de marketing tenen ben clars aquests valors en dissenyar campanyes que s basin en el boca a orella.
8 Novembre 2007 a les 16:16
Hola Cesc. Molt interessant això dels coeficients d’agrupament. No havia sentit parlar-ne mai. És evident la seva utilitat pel mon del marketing.
Però crec que en el cas que expós la cosa és complica perquè a més s’hauria de contemplar un altre “coeficient de seguiment de cadenes”
En qualsevol cas no veig clar que ajudi a solucionar el problema de quina quantitat de gent (sense repetir) hi ha en 1000 llistes que he rebut (si és que té una solució, que no sigui revisar manualment/informàticament totes les llistes). A la fi és el que serveix a A per presentar-ho com a recolçament d’una proposta o queixa.
Gracies pel comentari,
Félix.
9 Novembre 2007 a les 0:18
Serveix per estimar el nombre esperat de persones a l’arbre de llistes(suma de (nombre de persones)x(probabilitat que el conjunt de firmants de les llistes tingui exactament aquest nombre de persones)). Aquest valor esperat (o una mica més :-)) és un bon indicador de quantes firmes s’han recollit fins al moment.
Després, si la cosa s’ha de fer oficial, ja no hi ha més remei que comprovar els noms. Però així ja et pots fer una idea si t’acostes al nombre que desitjes de firmes diferents o no.
9 Novembre 2007 a les 1:28
Acabaré fent una cadena que digui que me la torni qui escrigui el nom a la posició 100 i farem càlculs :-p Quina peressa! Si a qualcú li fa ganes que després ens conti com ha anat. També li servirà per saber quins són els coeficients d’agrupament dels seus correus.
9 Novembre 2007 a les 7:01
Doncs es un experiment ben interessant per fer, nomes amb tres o quatre rondes, en una classe grandeta, per veure com s’agrupen els amics dins la classe: apareixerien els petits grupets d’amics etc. A més amb Campus Extens es pot fer per missatgeria i posant nomes els codis a la llista, amb la qual cosa és una mica més anònim.