�ݺ�ߣ

Universit`a degli Studi di Napoli Federico II
Facolt`a di Scienze Politiche
Corso di Laurea Magistrale in Scienze Statistiche per le Decisioni
Relazione di fine Seminario Elementi di SAS ed SQL
Analisi statistiche con SAS ed SQL
Nozioni base per l’utilizzo di SAS e la costruzione di un database con SQL
Candidati:
Barbara Amendola
Erika Serotino
Ida Riccio
Marco D’Alessandro
Professore:
Ragozini Giancarlo
Anno Accademico 2017–2018

Indice
1 Elementi di SAS 4
1.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Struttura di un «programma» SAS . . . . . . . . . . . . . . . . . . 7
1.2.1 Cosa è un SAS Data Set? . . . . . . . . . . . . . . . . . . . 8
1.2.2 SAS DATA STEP . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Esempio applicativo . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.1 Un dataset di esempio: CARS . . . . . . . . . . . . . . . . . 14
1.3.2 Statistiche descrittive . . . . . . . . . . . . . . . . . . . . . . 15
1.3.3 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . . 17
2 Elementi di SQL 20
2.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.2 Creazione di un database . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.1 Popolazione di un database . . . . . . . . . . . . . . . . . . 22
2.2.2 Interrogare il database . . . . . . . . . . . . . . . . . . . . . 22
2.3 Progettazione di un database Studenti . . . . . . . . . . . . . . . . 23
2.3.1 Il linguaggio SQL . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.2 PostgreSQL . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.3 Query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1

Elenco delle figure
1.1 Funzionamento e componenti di SAS . . . . . . . . . . . . . . . . . 6
1.2 Struttura rettangolare di un archivio SAS . . . . . . . . . . . . . . 8
1.3 Flowchart dello schema operativo di un DATA STEP . . . . . . . . 11
1.4 Finestra principale di SAS Studio . . . . . . . . . . . . . . . . . . . 12
1.5 Tabella log . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.6 Risultati dell’esecuzione di un codice . . . . . . . . . . . . . . . . . 13
1.7 CARS dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.8 Caratteristiche delle variabili coinvolte nell’analisi . . . . . . . . . . 15
1.9 Statistiche descrittive di alcune variabili . . . . . . . . . . . . . . . 15
1.10 Grafici di sintesi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
1.11 Output di un modello di regressione lineare semplice . . . . . . . . 18
1.12 Analisi dei residui come output grafico di SAS . . . . . . . . . . . . 19
2.1 Schermata principale di PostgreSQL . . . . . . . . . . . . . . . . . 25
2.2 Creazione delle tabelle . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3 Messaggio di corretta esecuzione del comando . . . . . . . . . . . . 26
2.4 Popolamento del database . . . . . . . . . . . . . . . . . . . . . . . 27
2.5 Prima query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6 Seconda query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.7 Terza query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.8 Quarta query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.9 Quinta query . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2

Elenco delle tabelle
2.1 Studenti . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.2 Esami . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3

Capitolo 1
Elementi di SAS
1.1 Introduzione
Il Statistical Analysis System (SAS)1
è un prodotto di base statistica ampia-
mente diffuso, in quanto l’uso di archivi di dati organizzati è divenuto ad oggi
obbligatorio. Tale software è molto simile all’SPSS (acronimo di Statistical
Package for the Social Sciences), ovvero programma integrato che richiama,
di volta, in volta, specifiche applicazioni, definizione di un preciso linguaggio di
comando per tutte le procedure, nascita dei "system file" (archivi contenenti dati e
metadati: nome delle variabili, posizioni occupate nei record, nomi delle modalità,
ecc.) "autodescrittivi". Pertanto, non essendo tale software predisposto alla lettura
di archivi autodescrittivi quali file di tipo ASCII, EBCDIC, qualunque procedura
SAS può essere applicata esclusivamente ai SAS data set (archivi costituiti da
dati più) metadati organizzati che potranno poi essere sottoposti al trattamento di
una o più applicazioni già realizzate ed incluse nel sistema SAS.2
SAS è un complesso di prodotti software integrati (sviluppati dal SAS Institute)
che permettono ad un programmatore:
• l’inserimento, la ricerca e la gestione di dati (data entry);
• la generazione di report e grafici;
1
SAS è un linguaggio di programmazione molto particolare, in quanto è stato studiato per
l’analisi statistica di dati.
2
SAS è completamente diverso da tutti gli altri linguaggi di programmazione.
4

• la computazione di analisi statistiche e matematiche;
• la pianificazione, la previsione ed il supporto alle decisioni;
• di fare ricerca operativa e project management;
• di gestire la qualità;
• di sviluppare applicazioni.
Così come altri linguaggi di programmazione di quarta generazione orientati ai dati
quali SQL (si veda al Capitolo 2), SAS assume una struttura dei file predefinita e
lascia al Sistema operativo l’identificazione dei file. Questo permette al program-
matore e all’utente di concentrarsi sulla gestione del dato trovandosi all’interno di
una sorta di loop. Altre funzioni permettono la generazione di statistiche o report
con la semplice definizione del dataset corretto.
Al confronto di altri linguaggi di programmazione generici, poi, questo approccio
permette all’utente di preoccuparsi meno della conservazione dei dati per con-
centrarsi maggiormente sulle informazioni immagazzinate. Questo permette di
sfumare il concetto di programmazione permettendo ad utenti, che non ricadono
nel concetto di programmatori, di sviluppare agilmente applicazioni.
Il nocciolo del sistema SAS è basato su un pool di applicazioni:
• Base SAS Software, utilizzato per la gestione dei dati;
• SAS procedures software, utilizzato per l’analisi ed il reporting;
• Macro facility, ossia un tool per estendere e personalizzare le applicazioni;
• DATA step debugger, ossia un tool per individuare gli eventuali problemi
nelle applicazioni sviluppate;
• SAS windowing environment, ovvero un’ interfaccia grafica ed interattiva per
eseguire e testare le applicazioni sviluppate nell’ambiente SAS.
Osserviamo ora alcune caratteristiche degli elementi e funzionalità del software.
1. Struttura dei Dati: solitamente si utilizzano strutture rettangolari; tuttavia
nel software in oggetto vi sono anche dati relazionali, nonché vettori e matrici
come oggetti;
5

2. Capacità grafiche: si può trattare di grafica discreta e/o continua e ciò
risulta utile per analisi esplorative, presentazione analisi (report), verifica
dell’adattamento di un modello. Alcuni pacchetti consentono anche grafici
dinamici;
3. Flessibilità: è infatti molto semplice eseguire calcoli o predisporre algoritmi
non previsti dal pacchetto per prodotti con linguaggio come con il software
in oggetto nonché la disponibilità dello stesso di librerie di dominio pubblico
in Statlib;
4. Disponibilità su piattaforme: mentre molti prodotti sono disponibili
distintamente per alcuni sistemi operativi e non per altri, il software in oggetto
ha il vantaggio di essere disponibile su più piattaforme, come Windows e
Unix.
Una caratteristica importante e vantaggiosa del sistema SAS è che esso è anche
"interfacciato" con i principali data base esistenti su workstation ecc. (di cui un
importante esempio è Oracle). La struttura operativa del software può essere
rappresentata nella seguente immagine (Figura 1.1):
Figura 1.1: Funzionamento e componenti di SAS
6

1.2 Struttura di un «programma» SAS
SAS è basato su di un linguaggio «comando» formato da 3 elementi fondamentali:
1. parole chiave SAS (es. PROC, PUT, DATA, FORMAT, etc);
2. nomi SAS (es. variabili, archivi, procedure, opzioni, etc);
3. caratteri speciali ed operatori.
Esso è inoltre basato su criteri sintattici molto simili a quelli dei più avanzati
linguaggi di programmazione simbolici ad alto livello (ad esempio FORTRAN).
Un “programma SAS” (o per meglio dire un lavoro effettuato con il SAS) si articola
in uno o più passi, più propriamente detti STEP, che possono essere di due tipi:
• Il DATA STEP (letteralmente, “passo di dati”) serve, soprattutto, a creare
e gestire i SAS DATA SET, ossia gli archivi organizzati, che potranno poi
essere sottoposti al trattamento di una o più applicazioni già realizzate ed
incluse nel sistema SAS. Osserviamo che è inoltre possibile utilizzare questo
tipo di STEP anche per scrivere e far eseguire programmi del tutto simili a
quelli di tipo tradizionale. Nella specifica applicazione pratica, inizia sempre
con una particolare istruzione, ovvero la DATA;
• Il PROC STEP (letteralmente, “passo di procedura”), nello specifico, serve
a richiamare una procedura SAS. Le procedure sono in pratica applicazioni già
realizzate e rese disponibili agli utenti e organizzate in gruppi omogenei (che
possono essere acquisiti, in base alle necessità). Generalmente, le procedure
vengono applicate ai SAS DATA SET (non potendo trattare archivi non
autodescrittivi, ossia normali file di tipo ASCII, EBCDIC, etc., ovvero nel
“linguaggio macchina”) Il linguaggio di comando delle procedure è ovviamente
coerente con quello previsto dal DATA STEP. Nella specifica applicazione
pratica, tutte le istruzioni SAS (anche quelle inserite nelle procedure) ter-
minano con un preciso carattere ";" che fa da delimitatore, permettendo un
tracciato libero nella scrittura dei programmi.
7

1.2.1 Cosa è un SAS Data Set?
Vediamo ora cosa si intende e da cosa è costituito un SAS DATA SET, anche detto
archivio SAS e rappresentato in seguito graﬁcamente nella Figura 2.
Figura 1.2: Struttura rettangolare di un archivio SAS
Come abbiamo già accennato, un archivio SAS è rettangolare e autodescrittivo,
ovvero contiene sia i dati sia i metadati, dove per metadati si intendono le informa-
zioni sul contenuto dei dati stessi (es. nomi, caratteristiche e posizioni occupate
dalle variabili, numero di osservazioni, ecc.).
Le variabili vengono identiﬁcate nei programmi SAS da nomi, che possono essere
costituiti da stringhe di caratteri (max. 32): iniziano con una lettera o con un
"underscore" ("−"), senza contenere alcun altro carattere speciale, ma solo lettere e
cifre; non c’è distinzione fra maiuscolo e minuscolo. Questa sintassi è valida per
tutti i nomi SAS (max. 8-32 byte), salvo limitate eccezioni; ad esempio, i nomi
8

dei formati definiti dall’utente non possono terminare per un carattere numerico.
Ogni variabile SAS ha inoltre vari attributi, quali ad esempio tipo, lunghezza,
formato interno ed esterno, label. Osserviamo, inoltre, che in un archivio SAS oltre
alle variabili definite dall’utente esistono alcune variabili automatiche generate dal
sistema con le relative informazioni (i già citati metadati). Esse possono contenere
informazioni di vario tipo (date, tempi, valori esadecimali, logiche, ecc.), ai fini
della loro registrazione nei SAS DATA SET, ed hanno soltanto due possibili nature:
• numeriche;
• carattere.
Tutti gli altri tipi di variabili sono ricondotti a queste due forme (ad esempio, per
le variabili logiche viene utilizzato il valore numerico 0 per "falso" ed un qualunque
altro valore, in genere 1, per "vero").
Le variabili numeriche possono contenere solo numeri, preceduti o meno da un
segno e contenenti anche un possibile punto decimale. Sono accettate però anche
particolari notazioni: un esempio notevole si ha quando si vuole indicare la mancanza
di informazione in relazione ad un particolare "data value", ossia la presenza di un
"missing value". La label (etichetta, ovvero un metadato) può essere associata al
nome di una variabile per mezzo di una apposita istruzione. Essa è costituita, in
particolare, da una stringa di caratteri (fino a 40 byte) e viene stampata da molte
procedure accanto, od in luogo, del nome della variabile, permettendo così una più
facile lettura degli output.
1.2.2 SAS DATA STEP
Uno o più archivi SAS possono essere costruiti tramite un DATA STEP partendo
da uno o più archivi ASCII (creati tramite un editore, un programma di video-
scrittura o da un qualunque altro programma) e/o da uno o più archivi SAS già
creati in precedenza, nonché anche o alternativamente da dati inseriti, in modo
opportuno, al termine delle istruzioni che lo compongono.
Un’ ulteriore alternativa è quella di creare un archivio SAS "importando" archivi
di diverso tipo (ad esempio di tipo Excel, dBase o Lotus, nel caso di personal
computer). Tuttavia, ciò non avviene mediante un DATA STEP, bensì utilizzando
9

apposite procedure. Da un punto di vista pratico, un DATA STEP inizia con
l’istruzione:
DATA x;
dove x identifica il nome dell’archivio SAS che stiamo costruendo. L’espressione x
può, inoltre, essere costituita da:
• un nome SAS, ad esempio: DATA PROVA;
• un doppio nome, ad esempio: DATA LIB1.PROVA;
• da niente, ad esempio: DATA;
Nello specifico: nei casi a) e c) verrà creato un archivio SAS temporaneo,
mentre nel caso b), caratterizzato da due nomi separati da un punto, sarà costruito
un SAS DATA SET permanente.
È importante sottolineare che un DATA STEP termina quando ha inizio o un altro
DATA STEP o un PROC STEP e lo stesso vale per i PROC STEP; nel caso di un
utilizzo di tipo interattivo, invece, è necessario terminare l’ultimo DATA STEP o
PROC STEP con la seguente apposita istruzione:
RUN;
E’ inoltre una importante caratteristica generale, ossia valida per tutti i casi sopra
citati, di un DATA STEP segue un preciso schema operativo, ovvero le istruzioni
incluse nel DATA STEP vengono eseguite tante volte quante sono le osservazioni
da trattare (a meno che non vi sia alcuna istruzione di tipo INPUT, SET, MERGE,
o UPDATE, per le quali è prevista una sola esecuzione dell’istruzione stessa).
Nello specifico, viene letta un’osservazione, trattata eseguendo tutte le istruzioni
presenti nel DATA STEP ed infine viene scritta l’osservazione nell’archivio in
output, dopodiché il sistema SAS legge una nuova osservazione, la tratta, la scrive e
va avanti in questo modo fino a quando terminano i record dell’archivio in ingresso.
A quel punto questo DATA STEP è terminato ed il sistema si predispone per
eseguire lo STEP successivo. Tale processo viene rappresentato schematicamente
nella Figura 3, mediante il seguente flowchart.
10

Figura 1.3: Flowchart dello schema operativo di un DATA STEP
Prima di passare alla classificazione delle istruzioni DATA STEP, categorizziamo,
più in generale, le istruzioni SAS. Queste ultime sono classificabili in base a vari
criteri. Una prima divisione può essere effettuata in base alle seguenti categorie:
• istruzioni utilizzate nel DATA STEP;
• istruzioni usate da (una o più) PROC STEP (ovvero procedura);
• istruzioni che possono essere incluse in un qualsiasi punto dei programmi.
Le istruzioni utilizzate nel DATA STEP sono poi classificabili in 4 gruppi:
11

1. gestione archivi (es. l’istruzione BY indica che l’archivio va trattato per
gruppi, CARDS indica l’inserimento di dati nel programma, DATA indica
l’inizio del DATA STEP oppure il nome dell’archivio creato);
2. azione (es. l’istruzione ABORT cessa l’esecuzione del DATA STEP, CALL
richiama un sottoprogramma, OUTPUT registra una osservazione);
3. controllo (es. l’istruzione DO definisce un gruppo di istruzioni, SELECT
definisce l’esecuzione condizionata di gruppi di istruzioni, END termina una
DO oppure una SELECT);
4. informazione (es. l’istruzione ARRAY definisce vettori e matrici, FORMAT
stabilisce il formato di uscita, LABEL associa descrizioni alle variabili).
Analogamente, esistono rispettive istruzioni nel PROC STEP, infatti le suddette
istruzioni vengono utilizzate anche nelle procedure e, corrispondentemente all’i-
struzione DATA che indica l’inizio del DATA STEP, vi è l’istruzione PROC che
identifica una procedura da utilizzare.
1.3 Esempio applicativo
I programmi SAS sono creati usando una interfaccia utente nota come SAS Studio.
Questa è la finestra di apertura dell’ambiente SAS (Figura 1.4). Sulla sinistra vi è
il menù a tendina utilizzato per navigare su varie specificità del programma. Sulla
destra, poi, vi è l’area di lavoro usata per scrivere le linee di codice ed eseguirle.
Figura 1.4: Finestra principale di SAS Studio
12

Il menù a tendina contiene funzionalità per creare e gestire programmi. Esso
consente anche l’utilizzo delle funzionalità pre-installate con il programma.
L’esecuzione di un codice viene fatta utilizzando la prima icona in alto a sinistra
della relativa area di lavoro, o alternativamente utilizzando il tasto F3 di un qualsiasi
computer. Il log del codice eseguito è disponibile nella tabella Log, che descrive
gli errori, gli avvisi o le note riguardanti l’esecuzione del programma: questa è la
ﬁnestra dove si ottengono tutte le informazioni per risolvere il codice (Figura 1.5).
Figura 1.5: Tabella log
Inﬁne, il risultato dell’esecuzione di un codice è disponibile nella tabella dei risultati
(Figura 1.6). Di default, i risultati sono formattati come tabelle html.
Figura 1.6: Risultati dell’esecuzione di un codice
13

1.3.1 Un dataset di esempio: CARS
SAS Studio dispone di una serie di built-in datasets che sono già installati nel soft-
ware SAS. Essi possono essere esplorati ed usati per la formulazione di espressioni
campionarie per l’analisi dei dati. Per esplorare questi dataset basta andare in Li-
braries -> My Libraries -> SASHELP. Espandendo questa ﬁnestra, possiamo
vedere la lista dei nomi di tutti i dataset già disponibili in SAS.
Poniamo la nostra attenzione, in particolare, su un dataset denominato CARS: esso
contiene 428 osservazioni di 15 variabili, relative ad alcuni modelli di automobili
del 2004. Visualizziamo le prime osservazioni del dataset nella Figura 1.7:
Figura 1.7: CARS dataset
Giusto per completezza, scriviamo le variabili coinvolte nell’analisi di questo da-
taset (parzialmente elencate nel menù a tendina): marca, modello, tipo, origine,
trasmissione, prezzo di listino, prezzo di fatturazione, grandezza del motore, cilindra-
ta, potenza del motore, peso, lunghezza, interasse, distanza in città ed in autostrada.
Le variabili sono molto utili nell’analisi dei dati. Esse vengono usate in espressioni
nelle quali è applicata l’analisi statistica. Per esempio, considerando il nostro
14

dataset, per esplorare le variabili e la loro tipologia basta fare doppio click su di
esse (si veda la Figura 1.8).
Figura 1.8: Caratteristiche delle variabili coinvolte nell’analisi
1.3.2 Statistiche descrittive
Come primo passo, utilizzando alcune delle variabili di cui sopra, è possibile
produrre delle statistiche di sintesi utilizzando l’opzione Tasks del menù a tendina.
Per esempio, si può produrre una sintesi delle variabili distanza su strada, distanza
su autostrada e peso del veicolo, come illustrato sapientemente in Figura 1.9.
Figura 1.9: Statistiche descrittive di alcune variabili
15

Le statistiche descrittive mostrate riguardano la media, la deviazione standard, il
minimo ed il massimo della distribuzione delle variabili oggetto di analisi. L’ultima
colonna della tabella, invece, indica il numero delle osservazioni usate nell’analisi.
È possibile, come anche per tutti i software di analisi statistica, creare dei grafici
che illustrano più dettagliatamente le caratteristiche delle variabili considerate. I
principali grafici che è possibile creare con SAS sono: istogrammi (con annesse
curve di densità stimate), diagrammi a barre verticali (con annessa suddivisione in
gruppi), grafici a torta e box-plots. Questi sono sintetizzati in Figura 1.10:
Figura 1.10: Grafici di sintesi
16

Presentiamo brevemente le descrizioni dei grafici sopra inseriri:
• in alto a sinistra è presente un istogramma (con funzione di densità stimata)
della variabile potenza del motore;
• in alto a destra è presente un diagramma a barre verticali della variabile
lunghezza del veicolo raggruppata per il tipo di veicolo;
• in basso a sinistra è presente, poi, un grafico a torta della variabile tipo di
veicolo, dove ciascuna parte rappresenta la percentuale di veicoli di quel tipo;
• in basso a destra, infine, sono presenti i boxplots della variabile potenza del
motore, ciascuno dei quali riflette un determinato tipo di veicolo.
1.3.3 Regressione lineare
Il modello di regressione lineare è usato per identificare la relazione tra una
variabile dipendente ed una o più variabili indipendenti. Viene qui proposto un
modello della relazione, e le stime dei valori dei parametri sono usate per sviluppare
una equazione stimata di regressione. Vari test vengono poi usati per determinare
se il modello è soddisfacente: se il modello è tale allora, l’equazione di regressione
stimata può essere usata per prevedere i valori della variabile dipendente dati i
valori assunti dalle variabili indipendenti.
L’esempio proposto nelle seguenti righe riguarda la correlazione tra le variabili
potenza del motore e peso del veicolo, quindi una regressione lineare semplice.
In SAS la procedura PROC REG è usata per trovare il modello di regressione
lineare tra 2 variabili. A titolo puramente illustrativo mostriamo la linea di codice
utilizzata per produrre i risultati, ma, si può semplicemente sfruttare il solito menù
a tendina per riportare direttamente i risultati del modello:
PROC SQL;
create table CARS1 as
SELECT invoice,horsepower,length,weight
FROM
SASHELP.CARS
WHERE make in (’Audi’,’BMW’);
17

RUN;
proc reg data=cars1;
model horsepower= weight ;
run;
Quando viene eseguito il codice sopra riportato, otteniamo il seguente risultato,
come esplicitato in Figura 1.11:
Figura 1.11: Output di un modello di regressione lineare semplice
dove la prima tabella riporta il numero di osservazioni usate per la regressione;
la seconda tabella riporta i risultati dell’ANOVA eﬀettuata sui residui; la terza
tabella ha come indicatore principale l’indice R2
della bontà di adattamento del
nostro modello ai dati a disposizione (opportunamente corretto in un modello di
18

regressione lineare multiplo); l’ultima tabella riporta, infine, le stime dei parametri,
i loro errori standard e la statistica-test t (con relativo p-value).
Il codice riportato qualche riga fa, restituisce anche l’output grafico delle varie
stime dei parametri e dell’analisi dei residui, come mostrato nella Figura 1.12.
Essendo questa una procedura avanzata di SAS, essa non si ferma esclusivamente
nel dare i valori dell’intercetta come output.
Figura 1.12: Analisi dei residui come output grafico di SAS
19

Capitolo 2
Elementi di SQL
2.1 Introduzione
SQL, acronimo di Structured Query Language, è un linguaggio di riferimento
sviluppato alla fine degli anni ’70 e nasce all’interno dei laboratori di ricerca del-
l’IBM per lavorare con database che seguano il modello relazionale.
Inizialmente, questo linguaggio si chiamava SEQUEL e fu implementato in un
prototipo chiamato SEQUEL-XRM, e le sperimentazioni con tale prototipo porta-
rono ad una revisione del linguaggio (SEQUEL/2) che in seguito cambiò nome per
motivi legali, diventando SQL.
Nel corso degli anni ’80 numerose compagnie commercializzarono prodotti basati su
SQL, che divenne lo standard industriale per quanto riguarda i database relazionali.
SQL è un linguaggio per database basati sul modello relazionale progettato per:
• creare e modificare schemi di database (DDL: Data Definition Language);
• inserire, modificare e gestire dati memorizzati (DML: Data Manipulation
Language);
• interrogare i dati memorizzati (DQL: Data Query Language);
• creare e gestire strumenti di controllo ed accesso ai dati (DCL: Data Control
Language).
20

Nonostante il suo nome, non si tratta dunque solo di un semplice linguaggio
di interrogazione, ma alcuni suoi sottoinsiemi si occupano della creazione, della
gestione e dell’amministrazione del database.
2.2 Creazione di un database
La creazione di un database consiste nella creazione delle tabelle che lo compongono.
In realtà, prima di poter procedere alla creazione delle tabelle, normalmente occorre
creare il database, il che di solito significa definire uno spazio dei nomi separato
per ogni insieme di tabelle. La sintassi SQL utilizzata per la creazione del database
è la seguente:
CREATE DATABASE nome_database
ed una volta creato il database è possibile creare le tabelle che lo compongono
mediante l’istruzione “CREATE TABLE”, procedura che sarà illustrata nella
sezione dedicata alla parte applicativa.
Durante la creazione delle tabelle possono poi essere specificate due chiavi.
Una chiave primaria è un insieme di attributi che viene utilizzata per individuare
univocamente una t-upla o riga presente in una tabella; ad esempio, il codice fiscale
per la tabella contenente il personale di un’azienda.
Una chiave esterna, invece, è un vincolo di integrità referenziale tra due o più
tabelle; essa identifica una o più colonne di una tabella (referenziante) che referenzia
una o più colonne di un’altra tabella (referenziata), dunque, rappresenta uno o più
campi che fanno riferimento alla chiave primaria di un’altra tabella.
Ad esempio, si supponga di disporre di due tabelle: una tabella CUSTOMER, in
cui sono inclusi tutti i dati dei clienti e una tabella ORDERS, in cui sono contenuti
tutti gli ordini dei clienti. Il vincolo impostato stabilisce che tutti gli ordini devono
essere associati a un cliente presente nella tabella CUSTOMER. In questo caso,
verrà posizionata una chiave esterna sulla tabella ORDERS che sia in relazione con
la chiave primaria della tabella CUSTOMER. In questo modo, è possibile garantire
che tutti gli ordini della tabella ORDERS sono correlati a un cliente presente nella
tabella CUSTOMER. Cioè, nella tabella ORDERS non possono essere contenute
informazioni relative a un cliente che non è incluso nella tabella CUSTOMER.
21

2.2.1 Popolazione di un database
Col termine “popolazione di un database” si intende l’attività di inserimento dei
dati al suo interno. In un database relazionale ciò corrisponde alla creazione delle
righe che compongono le tabelle che costituiscono il database.
L’istruzione SQL che effettua l’inserimento di una riga in una tabella è INSERT.
La sintassi con cui essa viene usata più comunemente è:
INSERT INTO nome tabella (elenco delle colonne)
VALUES (valori attribuiti)
Questo costrutto permette di inserire i dati in un dataset relazionale mentre nella
sezione successiva vedremo come è possibile estrarre i dati.
2.2.2 Interrogare il database
DQL (Data Query Language – linguaggio di interrogazione dei dati) comprende i
comandi per leggere ed elaborare i dati presenti in un database.
L’interrogazione (o query) è la funzionalità più usata di un database e le clausole
di cui dispone l’istruzione SELECT sono numerose ed a volte possono dar luogo
a combinazioni piuttosto complicate, ma interessanti. Col comando “SELECT”,
infatti, è possibile estrarre i dati, in modo mirato, dal database mediante l’utilizzo
di costrutti di programmazione denominati appunto “query”.
La sintassi completa è la seguente:
select*from ”, di cui si vedrà nel dettaglio nella parte applicativa, sono clausole
rispettivamente di proiezione, in quanto stabiliscono quali colonne devono essere
riportate nel risultato finale, e di selezione poiché stabiliscono da quale tabella
estrarre i dati; queste sono le uniche clausole obbligatorie ma è possibile aggiungere
ulteriori clausole come where che permette di definire un filtro sulle righe che
saranno analizzate oppure join che combina solo le righe delle due tabelle che
soddisfano un certo predicato di confronto, come in un’operazione di intersezione.
Le nozioni basilari fin qui esposte saranno illustrate in modo esemplificativo
mediante il caso studio presente nella sezione successiva.
22

2.3 Progettazione di un database Studenti
In questa sede di lavoro, l’obiettivo è stato quello di progettare un database
riguardante l’esito dell’esame di Statistica di alcuni studenti universitari. Ciascuno
di essi è identiﬁcato dal nome, cognome, matricola ed età. Per quanto concerne
l’esame, esso è identiﬁcato dal codice del corso di laurea, dallo studente, dal mese
in cui l’esame è stato sostenuto e dalla votazione.
Per poter progettare il data base in questione, proseguiamo per passi.
Innanzitutto focalizziamoci sulle informazioni relative agli studenti, che possono
essere sintetizzate nella tabella che segue:
Matricola Cognome Nome Età
Tabella 2.1: Studenti
Procediamo adesso con le ulteriori informazioni a nostra disposizione, riguardanti
questa volta l’esame sostenuto dagli studenti coinvolti nell’analisi. In modo analogo:
CodiceCorso Studente Mese Voto
Tabella 2.2: Esami
2.3.1 Il linguaggio SQL
Il passo successivo consiste nel tradurre le due tabelle illustrate poc’anzi, in
linguaggio SQL.
/*Table:STUDENTI */
create table STUDENTI(
MATRICOLA NUMERIC not null,
23

COGNOME CHAR(20) not null,
NOME CHAR(20) not null,
ETA NUMERIC not null,
constraint PK_STUDENTI primary key(MATRICOLA)
);
Si è ipotizzato che:
• la matricola relativa a ciascuno studente sia di natura numerica;
• il cognome ed il nome siano rappresentati da una stringa di 20 caratteri di
lunghezza fissa;
• l’età sia di natura numerica.
/*Table:ESAMI */
create table ESAMI(
CODICECORSO NUMERIC not null,
STUDENTE NUMERIC not null references STUDENTI(MATRICOLA),
MESE CHAR(20) not null,
VOTO INTEGER not null,
constraint PK_ESAMI primary key(CODICECORSO, STUDENTE, MESE)
);
Per quanto concerne le variabili contenute nella tabella ESAMI abbiamo, in questo
caso, ipotizzato che:
• il codice del corso di laurea sia di tipo numerico;
• ogni studente sia univocamente identificato da un codice alfanumerico a 3
cifre (ciascuno studente, inoltre, è identificato dagli elementi della matrice
STUDENTI, come da riferimento);
• il mese di conseguimento dell’esame sia identificato da una stringa di 20
caratteri di lunghezza fissa;
• il voto dell’esame sia un numero intero.
24

2.3.2 PostgreSQL
Il database progettato nella fase precedente in tramite lo schema relazionale verrà,
nel seguito di questo paragrafo, tradotto in linguaggio SQL. Come software di
DataBase Management System (DBMS) è stato scelto PostgreSQL.3
Quindi, come
primo passo lanciamo l’interfaccia grafica pgadmin e creiamo un nuovo database,
denominato STUDENTI.
pgadmin, in particolare, è un’applicazione C++ libera, una interfaccia grafica
che consente di amministrare in modo semplificato database di PostgreSQL: essa
permette di creare un database da zero, creare le tabelle ed eseguire operazioni
di ottimizzazione sulle stesse. Presenta, inoltre, un feedback sulla creazione delle
tabelle per evitare eventuali errori.
Figura 2.1: Schermata principale di PostgreSQL
Il passo successivo consiste nell’aprire il pannello per il codice SQL e lanciare i vari
comandi per creare le tabelle. Nel nostro caso, le tabelle da creare sono 2.
3
È un completo DBMS ad oggetti rilasciato con licenza libera (stile Licenza BSD). Spesso
viene abbreviato come "Postgres", sebbene questo sia un nome vecchio dello stesso progetto. In
PostgreSQL, tutti gli oggetti (con l’eccezione di ruoli e tablespace) sono situati in uno schema.
Esso agisce effettivamente come un namespace, permettendo agli oggetti con lo stesso nome di
coesistere nella stessa base di dati.
25

Figura 2.2: Creazione delle tabelle
Questo è il risultato della corretta esecuzione dei comandi:
Figura 2.3: Messaggio di corretta esecuzione del comando
Passiamo, adesso, alla fase successiva riguardante il popolamento del database.
Tale procedura è eseguibile mediante i comandi di seguito riportati:
26

Figura 2.4: Popolamento del database
2.3.3 Query
La prima query che andremo ad eﬀettuare estrae tutte le informazioni degli studenti:
/*Estrae tutte le informazioni degli studenti*/
select*from studenti
Di seguito è riportato l’output della query:
Figura 2.5: Prima query
27

Il risultato della query produce, dunque, la tabella studenti, così come dichiarata
inizialmente: le sue colonne sono rappresentate dalle variabili matricola, cogno-
me, nome ed età, mentre le sue righe (osservazioni) sono rappresentate dai 7 studenti.
La seconda query che andremo ad eﬀettuare estrae tutte le informazioni riguardanti
gli esami sostenuti dagli studenti coinvolti nell’analisi:
/*Estrae tutte le informazioni degli esami*/
select * from esami
Figura 2.6: Seconda query
Il risultato della query, in questo caso, è rappresentato dalla tabella esami, così come
anch’essa dichiarata inizialmente: le sue colonne sono questa volta rappresentate
dalle variabili codice corso, studente, mese e voto.
La terza query che andremo ad eﬀettuare estrae il numero di matricola degli
studenti ed il voto d’esame:
/*Estrarre voto d’esame e matricola dello studente */
select voto, studente from esami.
28

Figura 2.7: Terza query
Il risultato della terza query è rappresentato solamente da due colonne, ossia quella
della variabile voto e quella della variabile studente, entrambe contenute all’interno
della macrotabella esami in precedenza costruita.
La quarta query che andremo ad eﬀettuare è più articolata rispetto alle precedenti,
ed estrae le informazioni degli studenti il cui voto d’esame è maggiore di quello
dello studente Costa Fausto (24).
select * from studenti join esami on matricola=studente
where voto > any (select voto from esami
join studenti on studente=matricola
where cognome=’costa’
and nome=’fausto’);
29

Figura 2.8: Quarta query
Molto intuitivamente, si può vedere come la query estrae dal database iniziale tutte
le informazioni relative agli studenti il cui voto all’esame di Statistica è superiore a
quello di un altro studente, dichiarato nella query stessa.
La quinta ed ultima query che andremo ad eﬀettuare ricalca quella precedente, ed
in questo caso estrae le informazioni degli studenti il cui voto d’esame è inferiore
rispetto alla votazione dello studente Costa Fausto:
select * from studenti join esami on matricola=studente
where voto < any (select voto from esami
join studenti on studente=matricola
where cognome=’costa’
and nome=’fausto’);
30

Di seguito è riportato l’output dell’ultima query:
Figura 2.9: Quinta query
Diﬀerentemente dalla query precedente, questa volta il risultato è rappresentato da
una sola osservazione poichè solamente uno studente presenta voto minore rispetto
a quanto dichiarato nella query stessa.
31

Bibliograﬁa
[1] Ron Cody. Learning SAS by Example: a programmer’s guide. North Carolina
(USA), SAS Press, 2007
[2] SAS Institute. SAS Visual Analytics 6.2. Manuale dell’utente, 2013
[3] SAS Institute. Step-by-Step Programming with Base SAS Software. Manuale
dell’utente, 2001
[4] The PostgreSQL Global Development Group, PostgreSQL 10.2 Documentation.
University of California, 1994.
[5] Luca Ferrari. Introduzione a PostgreSQL, il più avanzato database OpenSource
al mondo. �ݺ�ߣs docente.
[6] SQL Developer, user manual, 2006.
[7] Lezioni seminariali di Elementi di SAS ed SQL, prof. G. Ragozini.
32

�ݺ�ߣ

Tesina di fine seminario sas ed sql

Recommended

More Related Content

Similar to Tesina di fine seminario sas ed sql (20)

More from Marco D'Alessandro (13)

Tesina di fine seminario sas ed sql