Differenze per "SimoneFittabile/IDP"

Differenze tra le versioni 7 e 8

Indice di popolarità

Introduzione

Semplice semplice, perché non tirar fuori un numero che possa rappresentare il voto per un pacchetto, cioè un programma specifico? Le votazioni si fanno su tutto o quasi, e, se non si vogliono stabilire troppi parametri per dare un numero ad un programma, scegliamo allora il voto della massa. Che cos'è? È quello che si ottiene facendo una media dei gusti degli utenti che utilizzano quel programma rispetto all'insieme dei programmi installati sulle loro macchine. Tutto sarà anonimo, automatizzato, semplice più che mai: il risultato sarà un numero da 1 a 100, quello che chiamo l'Indice Di Popolarità (d'ora innanzi !IDP)

Circonduzione

attachment:andamento.png BR I dati provengono dall'[http://popcon.ubuntu.com Ubuntu popularity contest] d'ora innanzi chiamato popcon, progetto che si occupa di elaborare in loco i dati relativi all'accesso settimanale dei pacchetti installati, e una volta inviati ad un server centrale di analizzare i campioni ricevuti. Anche se non propriamente (o non ancora) molto affidabili i campioni (ad oggi ~9400) si riferiscono (o almeno il sottoscritto spera che non siano dati forgiati ad-hoc da qualche zuzzurellone) a dati di utenti concreti che hanno installato, aggiornato, utilizzato pacchetti. Questi dati di default vengono inviati al server popcon.ubuntu.com una volta a settimana (tramite un crontab settato la domenica mattina). Nelle ultime due settimane i campioni stanno lievitando con incrementi ragguardevoli. Stiamo a vedere se è una questione di passaparola*.BR I dati ci sono, pochi o tanti che siano (e ammesso che non siano di fantasia): il dato che più mi interessa tra quelli figuranti nelle statistiche del popcon è il cosiddetto voto.BR BR Voto: definizioneBR dal [http://popcon.ubuntu.com sito del popcon] {{{voto: numero di persone che usano il pacchetto regolarmente }}} dalla FAQ([file:///usr/share/doc/popularity-contest/FAQ])

 Un computer vota per un pacchetto se, secondo i dati raccolti nel rapporto (inviato dal conputer verso il server che raccoglie le statistiche), un programma facente parte o strettamente dipendente dal pacchetto è stato usato in un lasso di tempo inferiore ai 30 giorni. Il computo viene effettuato lato server.

Ora che sappiamo cosa rappresenta in concreto un voto, dobbiamo anche sapere che le statistiche sono stilate in due tipi principali di graduatorie:

globale
di categoria

La globale ovviamente comprende l'insieme di *tutti* i pacchetti coperti dai dati statistici, non propriamente tutti i pacchetti reperibili per Ubuntu, ma circa.BR Quella di categoria comprende, invece, solo i pacchetti che fanno parte di una particolare sezione, che cioé hanno cioè un preciso utilizzo. Le categorie attualmente utilizzate su Ubuntu sono: admin, kde, python, comm, libdevel, science, devel, libs, doc, mail e molte altre. Vista la particolarità della graduatoria di categoria, è facilmente intuibile che di per sè sarà più competitiva (il pacchetto verrà equiparato a suoi 'simili'), ma al contempo, non terrà conto della globalità del software disponibile sulla distribuzione. BR Questa generica considerazione mi ha portato a considerarle entrambe nel ricavare l'!IDP.

=== ===

Come ricavarlo

Ecco, scaricando i dati da [http://popcon.ubuntu.com/by_vote.gz] (1) e da [http://popcon.ubuntu.com/RAMO/SEZIONE/by_vote.gz] (2) (dove RAMO è main|restricted|universe|multiverse a seconda del caso di appartenenza e SEZIONE è la sottosezione di appartenenza cioè admin|...|x11), si hanno due file con le classifiche ordinate: il primo file scaricato (1) rappresenta la classifica di tutti i pacchetti partecipanti alla statistica (esempio 30144), il secondo (2) solo quelli nello stesso ramo del repo e nella stessa categoria (esempio 619 per universe/utils).
Ora nei due file cerco la posizione in graduatoria del pacchetto desiderato (esempio htop, 1112° nel primo e 14° nel secondo)

BR Avendo annotato tutti questi numeri inutili, si mette insieme la bella formuletta della media aritmetica tra la posizione in classifica generale con quella in classifica della categoria, trasformata in percentuale (media per bilanciare la posizione in classifica generale e in categoria di appartenenza)

Cioè: I = ( ( (NG - PG) / NG) + ( (NC - PC) / NC) ) * 100 / 2

I=((NG-PG)/NG+((NC-PC)/NC))*50

NG : Numero totale di pacchetti nel file globale (1)
PG : Posizione (rank) del pacchetto desiderato nel file globale(1)
NC : Numero totale di pacchetti nel file della categoria (2)
PC : Posizione (rank) del pacchetto desiderato nel file della categoria (2)

BR per esempio(htop): I = [http://www.google.it/search?hl=it&ie=UTF-8&oe=UTF-8&q=%28%2830144-1112%29%2F30144%2B%28%28619-14%29%2F619%29%29*50&btnG=Cerca&meta= ((30144-1112)/30144+((619-14)/619))*50] ~= 97%

-  ⇤ ← Versione 7 del 03/02/2007 22.00.55 → 
  Dimensione: 2524
  Autore: SimoneFittabile
  Commento:
+   ← Versione 8 del 04/02/2007 12.30.04 → ⇥
  Dimensione: 5003
  Autore: SimoneFittabile
  Commento:
-Le cancellazioni sono segnalate in questo modo.
+Le aggiunte sono segnalate in questo modo.
 Linea 3:
+=== Introduzione ===
Semplice semplice, perché non tirar fuori un numero che possa rappresentare il voto per un pacchetto, cioè un programma specifico? Le votazioni si fanno su tutto o quasi, e, se non si vogliono stabilire troppi parametri per dare un numero ad un programma, scegliamo allora il voto della massa. Che cos'è?
È quello che si ottiene facendo una media dei gusti degli utenti che utilizzano quel programma rispetto all'insieme dei programmi installati sulle loro macchine. Tutto sarà anonimo, automatizzato, semplice più che mai: il risultato sarà un numero da 1 a 100, quello che chiamo l'Indice Di Popolarità (d'ora innanzi !IDP)
-Linea 4:
+Linea 7:
-I dati provengono dall'[http://popcon.ubuntu.com Ubuntu pop-contest] e anche se non propriamente (o non ancora) 'universali' (dico questo perchè l'ultimo aggiornamento, al 15 di Gennaio, rivela '''solo''' 1774 campioni, al 31Genn invece 7439,1febb 8095,2febb 8487,3 febb 8910) sono sempre dati di utenti concreti che hanno installato il pacchetto in oggetto e, secondo i canoni del popcontest, lo utilizzano frequentemente.
Infatti la popolarità che voglio tirar fuori è strettamente legata al dato che sul sito di popcontest (vd.fondo pagina sotto key) viene definito '''''vote'''''.
...dalla FAQ:
+=== Circonduzione ===
attachment:andamento.png
[[BR]]
I dati provengono dall'[http://popcon.ubuntu.com Ubuntu popularity contest] d'ora innanzi chiamato popcon, progetto che si occupa di elaborare in loco i dati relativi all'accesso settimanale dei pacchetti installati, e una volta inviati ad un server centrale di analizzare i campioni ricevuti. Anche se non propriamente (o non ancora) molto affidabili i campioni (ad oggi ~9400) si riferiscono (o almeno il sottoscritto spera che non siano dati forgiati ad-hoc da qualche zuzzurellone) a dati di utenti concreti che hanno installato, aggiornato, utilizzato pacchetti. Questi dati di default vengono inviati al server popcon.ubuntu.com una volta a settimana (tramite un crontab settato la domenica mattina). Nelle ultime due settimane i campioni stanno lievitando con incrementi ragguardevoli. Stiamo a vedere se è una questione di passaparola*.[[BR]]
I dati ci sono, pochi o tanti che siano (e ammesso che non siano di fantasia): il dato che più mi interessa tra quelli figuranti nelle statistiche del popcon è il cosiddetto ''voto''.[[BR]][[BR]]
'''Voto: definizione'''[[BR]]
''dal [http://popcon.ubuntu.com sito del popcon]''
{{{voto: numero di persone che usano il pacchetto regolarmente
}}}
''dalla FAQ([file:///usr/share/doc/popularity-contest/FAQ])''
-Linea 8:
+Linea 18:
- A computer 'votes' for a package if according to the data provided in the
   report, a program provided or depending on the package was used less than
   thirty days ago. This computation is performed by the popcon server.
+ Un computer vota per un pacchetto se, secondo i dati raccolti nel rapporto (inviato dal conputer verso il server che raccoglie le statistiche), un programma facente parte o strettamente dipendente dal pacchetto è stato usato in un lasso di tempo inferiore ai 30 giorni. Il computo viene effettuato lato server.
-Linea 13:
+Linea 21:
+Ora che sappiamo cosa rappresenta in concreto un voto, dobbiamo anche sapere che le statistiche sono stilate in due tipi principali di graduatorie:
 * ''globale''
 * ''di categoria''
La ''globale'' ovviamente comprende l'insieme di *tutti* i pacchetti coperti dai dati statistici, non propriamente tutti i pacchetti reperibili per Ubuntu, ma circa.[[BR]]
Quella ''di categoria'' comprende, invece, solo i pacchetti che fanno parte di una particolare sezione, che cioé hanno cioè un preciso utilizzo. Le categorie attualmente utilizzate su Ubuntu sono: admin, kde, python, comm, libdevel, science, devel, libs, doc, mail e molte altre. Vista la particolarità della graduatoria di categoria, è facilmente intuibile che di per sè sarà più competitiva (il pacchetto verrà equiparato a suoi 'simili'), ma al contempo, non terrà conto della globalità del software disponibile sulla distribuzione. [[BR]]
Questa generica considerazione mi ha portato a considerarle entrambe nel ricavare l'!IDP.

=== ===