Differenze per "SimoneFittabile/IDP"

Differenze tra le versioni 7 e 10 (in 3 versioni)

Indice di popolarità

Fa un po' ridere (e un po' piangere per la banalità), ma in questa uggiosa domenica di Febbraio è il meglio che posso inventare.

Introduzione

Semplice semplice, perché non tirar fuori un numero che possa rappresentare il voto per un pacchetto, cioè un programma specifico? Le votazioni si fanno su tutto o quasi, e, se non si vogliono stabilire troppi parametri per dare un numero ad un programma, scegliamo allora il voto della massa. Che cos'è? È quello che si ottiene facendo una media dei gusti degli utenti che utilizzano quel programma rispetto all'insieme dei programmi installati sulle loro macchine. Tutto sarà anonimo, automatizzato, semplice più che mai: il risultato sarà un numero da 1 a 100, quello che chiamo l'Indice Di Popolarità (d'ora innanzi IDP)

Circonduzione

attachment:andamento.png BR I dati provengono dall'[http://popcon.ubuntu.com Ubuntu popularity contest] d'ora innanzi chiamato popcon, progetto che si occupa di elaborare in loco i dati relativi all'accesso settimanale dei pacchetti installati, e una volta inviati ad un server centrale di analizzare i campioni ricevuti. Anche se non propriamente (o non ancora) molto affidabili i campioni (ad oggi ~9400) si riferiscono (o almeno il sottoscritto spera che non siano dati forgiati ad-hoc da qualche zuzzurellone) a dati di utenti concreti che hanno installato, aggiornato, utilizzato pacchetti. Questi dati di default vengono inviati al server popcon.ubuntu.com una volta a settimana (tramite un crontab settato la domenica mattina). Nelle ultime due settimane i campioni stanno lievitando con incrementi ragguardevoli. Stiamo a vedere se è una questione di passaparola*.BR Voto BR I dati ci sono, pochi o tanti che siano (e ammesso che non siano di fantasia): il dato che più mi interessa tra quelli figuranti nelle statistiche del popcon è il cosiddetto voto.BR BR Voto: definizioneBR dal [http://popcon.ubuntu.com sito del popcon] {{{voto: numero di persone che usano il pacchetto regolarmente }}} dalla FAQ ([file:///usr/share/doc/popularity-contest/FAQ /usr/share/doc/popularity-contest/FAQ])

 Un computer vota per un pacchetto se, secondo i dati raccolti nel rapporto (inviato dal computer verso il server che raccoglie le statistiche), un programma facente parte o strettamente dipendente dal pacchetto è stato usato in un lasso di tempo inferiore ai 30 giorni. Il computo viene effettuato lato server.

Graduatorie BR Ora che sappiamo cosa rappresenta in concreto un voto, dobbiamo anche sapere che le statistiche sono stilate in due tipi principali di graduatorie:

globale
di categoria

La globale ovviamente comprende l'insieme di *tutti* i pacchetti coperti dai dati statistici, non propriamente tutti i pacchetti reperibili per Ubuntu, ma circa.BR Quella di categoria comprende, invece, solo i pacchetti che fanno parte di una particolare sezione, che cioé hanno cioè un preciso utilizzo. Le categorie attualmente utilizzate su Ubuntu sono: admin, kde, python, comm, libdevel, science, devel, libs, doc, mail e molte altre. Vista la particolarità della graduatoria di categoria, è facilmente intuibile che di per sè sarà più competitiva (il pacchetto verrà equiparato a suoi 'simili'), ma al contempo, non terrà conto della globalità del software disponibile sulla distribuzione.BR Questa generica considerazione mi ha portato a considerarle entrambe nel ricavare l'IDP. BR Se è così allora l'IDP può essere rappresentato dalla media semplice (aritmetica) delle due graduatorie:BR (1) ( voto Globale + voto di Categoria ) diviso 2. BR Ma da cosa scaturiscono in pratica voto Globale e voto di Categoria? Prendiamo il Globale, la sua graduatoria consiste in una lista ordinata per voto decrescente e posizione assoluta crescente (voto + alto, n°1 in graduatoria, via via fino a voto + basso, ultima posizione in graduatoria). Nella graduatoria isoliamo i dati essenziali: sono posizione, numero dei pacchetti totale (che coincide con l'ultima posizione in graduatoria). BR Il voto globale, espresso in forma percentuale può essere dato da: (2) ( totale - posizione ) diviso totale per 100. BR Nella stessa misura si trova il voto di Categoria applicando il dato totale ed il dato posizione relativi alla categoria di appartenenza del pacchetto, in esame. BR========================================BR Ricapitolando BR

L'IDP si calcola come (1) (voto Globale + voto di Categoria) / 2
Il voto Globale sarà dato da (2) (totale G - posizione G) / totale G * 100
Il voto di Categoria similmente sarà dato da (2) (totale C - posizione C) / totale C * 100

BR BR Formula Sostituendo e semplificando si avrà:

IDP = (vG + cG) / 2 = [(tG - pG) / tG * 100 + (tC - pC) / tC * 100] / 2 = {[(tG - pG) / tG + (tC - pC) / tC]*100} / 2 = [(tG - pG) / tG + (tC - pC) / tC] * 100 / 2 = [(tG - pG) / tG + (tC - pC) / tC] * 50

=== ===

Come ricavarlo

Ecco, scaricando i dati da [http://popcon.ubuntu.com/by_vote.gz] (1) e da [http://popcon.ubuntu.com/RAMO/SEZIONE/by_vote.gz] (2) (dove RAMO è main|restricted|universe|multiverse a seconda del caso di appartenenza e SEZIONE è la sottosezione di appartenenza cioè admin|...|x11), si hanno due file con le classifiche ordinate: il primo file scaricato (1) rappresenta la classifica di tutti i pacchetti partecipanti alla statistica (esempio 30144), il secondo (2) solo quelli nello stesso ramo del repo e nella stessa categoria (esempio 619 per universe/utils).
Ora nei due file cerco la posizione in graduatoria del pacchetto desiderato (esempio htop, 1112° nel primo e 14° nel secondo)

BR Avendo annotato tutti questi numeri inutili, si mette insieme la bella formuletta della media aritmetica tra la posizione in classifica generale con quella in classifica della categoria, trasformata in percentuale (media per bilanciare la posizione in classifica generale e in categoria di appartenenza)

Cioè: I = ( ( (NG - PG) / NG) + ( (NC - PC) / NC) ) * 100 / 2

I=((NG-PG)/NG+((NC-PC)/NC))*50

NG : Numero totale di pacchetti nel file globale (1)
PG : Posizione (rank) del pacchetto desiderato nel file globale(1)
NC : Numero totale di pacchetti nel file della categoria (2)
PC : Posizione (rank) del pacchetto desiderato nel file della categoria (2)

BR per esempio(htop): I = [http://www.google.it/search?hl=it&ie=UTF-8&oe=UTF-8&q=%28%2830144-1112%29%2F30144%2B%28%28619-14%29%2F619%29%29*50&btnG=Cerca&meta= ((30144-1112)/30144+((619-14)/619))*50] ~= 97%

-  ⇤ ← Versione 7 del 03/02/2007 22.00.55 → 
  Dimensione: 2524
  Autore: SimoneFittabile
  Commento:
+   ← Versione 10 del 04/02/2007 14.05.58 → ⇥
  Dimensione: 6852
  Autore: SimoneFittabile
  Commento:
-Le cancellazioni sono segnalate in questo modo.
+Le aggiunte sono segnalate in questo modo.
 Linea 3:
+Fa un po' ridere (e un po' piangere per la banalità), ma in questa uggiosa domenica di Febbraio è il meglio che posso inventare.
=== Introduzione ===
Semplice semplice, perché non tirar fuori un numero che possa rappresentare il voto per un pacchetto, cioè un programma specifico? Le votazioni si fanno su tutto o quasi, e, se non si vogliono stabilire troppi parametri per dare un numero ad un programma, scegliamo allora il voto della massa. Che cos'è?
È quello che si ottiene facendo una media dei gusti degli utenti che utilizzano quel programma rispetto all'insieme dei programmi installati sulle loro macchine. Tutto sarà anonimo, automatizzato, semplice più che mai: il risultato sarà un numero da 1 a 100, quello che chiamo l'Indice Di Popolarità (d'ora innanzi IDP)
-Linea 4:
+Linea 8:
-I dati provengono dall'[http://popcon.ubuntu.com Ubuntu pop-contest] e anche se non propriamente (o non ancora) 'universali' (dico questo perchè l'ultimo aggiornamento, al 15 di Gennaio, rivela '''solo''' 1774 campioni, al 31Genn invece 7439,1febb 8095,2febb 8487,3 febb 8910) sono sempre dati di utenti concreti che hanno installato il pacchetto in oggetto e, secondo i canoni del popcontest, lo utilizzano frequentemente.
Infatti la popolarità che voglio tirar fuori è strettamente legata al dato che sul sito di popcontest (vd.fondo pagina sotto key) viene definito '''''vote'''''.
...dalla FAQ:
+=== Circonduzione ===
attachment:andamento.png
[[BR]]
I dati provengono dall'[http://popcon.ubuntu.com Ubuntu popularity contest] d'ora innanzi chiamato popcon, progetto che si occupa di elaborare in loco i dati relativi all'accesso settimanale dei pacchetti installati, e una volta inviati ad un server centrale di analizzare i campioni ricevuti. Anche se non propriamente (o non ancora) molto affidabili i campioni (ad oggi ~9400) si riferiscono (o almeno il sottoscritto spera che non siano dati forgiati ad-hoc da qualche zuzzurellone) a dati di utenti concreti che hanno installato, aggiornato, utilizzato pacchetti. Questi dati di default vengono inviati al server popcon.ubuntu.com una volta a settimana (tramite un crontab settato la domenica mattina). Nelle ultime due settimane i campioni stanno lievitando con incrementi ragguardevoli. Stiamo a vedere se è una questione di passaparola*.[[BR]]
''Voto''
[[BR]]
I dati ci sono, pochi o tanti che siano (e ammesso che non siano di fantasia): il dato che più mi interessa tra quelli figuranti nelle statistiche del popcon è il cosiddetto ''voto''.[[BR]][[BR]]
'''Voto: definizione'''[[BR]]
''dal [http://popcon.ubuntu.com sito del popcon]''
{{{voto: numero di persone che usano il pacchetto regolarmente
}}}
''dalla FAQ ([file:///usr/share/doc/popularity-contest/FAQ /usr/share/doc/popularity-contest/FAQ])''
-Linea 8:
+Linea 21:
- A computer 'votes' for a package if according to the data provided in the
   report, a program provided or depending on the package was used less than
   thirty days ago. This computation is performed by the popcon server.
+ Un computer vota per un pacchetto se, secondo i dati raccolti nel rapporto (inviato dal computer verso il server che raccoglie le statistiche), un programma facente parte o strettamente dipendente dal pacchetto è stato usato in un lasso di tempo inferiore ai 30 giorni. Il computo viene effettuato lato server.
-Linea 12:
+Linea 23:
+''Graduatorie''
[[BR]]
Ora che sappiamo cosa rappresenta in concreto un voto, dobbiamo anche sapere che le statistiche sono stilate in due tipi principali di graduatorie:
 * ''globale''
 * ''di categoria''
La ''globale'' ovviamente comprende l'insieme di *tutti* i pacchetti coperti dai dati statistici, non propriamente tutti i pacchetti reperibili per Ubuntu, ma circa.[[BR]]
Quella ''di categoria'' comprende, invece, solo i pacchetti che fanno parte di una particolare sezione, che cioé hanno cioè un preciso utilizzo. Le categorie attualmente utilizzate su Ubuntu sono: admin, kde, python, comm, libdevel, science, devel, libs, doc, mail e molte altre. Vista la particolarità della graduatoria di categoria, è facilmente intuibile che di per sè sarà più competitiva (il pacchetto verrà equiparato a suoi 'simili'), ma al contempo, non terrà conto della globalità del software disponibile sulla distribuzione.[[BR]]
Questa generica considerazione mi ha portato a considerarle entrambe nel ricavare l'IDP.
[[BR]]
Se è così allora l'IDP può essere rappresentato dalla media semplice (aritmetica) delle due graduatorie:[[BR]]
''(1)'' '''( voto Globale + voto di Categoria ) diviso 2'''.
[[BR]]
Ma da cosa scaturiscono in pratica ''voto Globale'' e ''voto di Categoria''? Prendiamo il Globale, la sua graduatoria consiste in una lista ordinata per voto decrescente e posizione assoluta crescente (voto + alto, n°1 in graduatoria, via via fino a voto + basso, ultima posizione in graduatoria). Nella graduatoria isoliamo i dati essenziali: sono '''posizione''', numero dei pacchetti '''totale''' (che coincide con l'ultima posizione in graduatoria).
[[BR]] Il voto globale, espresso in forma percentuale può essere dato da: ''(2)'' '''( totale - posizione ) diviso totale per 100'''.
[[BR]] Nella stessa misura si trova il voto di Categoria applicando il dato totale ed il dato posizione relativi alla categoria di appartenenza del pacchetto, in esame.
[[BR]]========================================[[BR]]
'''Ricapitolando'''
[[BR]]
 * L'IDP si calcola come ''(1)'' (voto '''Globale''' + voto di '''Categoria''') / 2
 * Il voto Globale sarà dato da ''(2)'' ('''totale''' G - '''posizione''' G) / '''totale''' G * 100
 * Il voto di Categoria similmente sarà dato da ''(2)'' ('''totale''' C - '''posizione''' C) / '''totale''' C * 100
-Linea 13:
+Linea 45:
+[[BR]][[BR]]
'''Formula'''
Sostituendo e semplificando si avrà:
 '''IDP''' = (vG + cG) / 2 = [(tG - pG) / tG * 100 + (tC - pC) / tC * 100] / 2 = {[(tG - pG) / tG + (tC - pC) / tC]*100} / 2 = [(tG - pG) / tG + (tC - pC) / tC] * 100 / 2 = '''[(tG - pG) / tG + (tC - pC) / tC] * 50'''
[[BR]]

=== ===