Funzioni > Analisi dati > Analisi dei componenti principali > Esempio: analisi dei componenti principali 2
Esempio: analisi dei componenti principali 2
Utilizzare le funzioni Nipals e Nipals2 per analizzare dati complessi quali gli spettri NIR (Near-Infrared) delle pillole farmaceutiche con cinque diversi dosaggi degli ingredienti attivi (dati per gentile concessione di Bruker Optics, Inc.). È possibile creare un modello per distinguere ogni dosaggio in base allo spettro, anche se i dosaggi effettivi non sono noti. Questo modello può essere utilizzato per il controllo qualità in fase di produzione di ulteriori pillole.
1. Definire l'insieme di dati seguente:
* 
Questo insieme di dati descrive uno studio in doppio cieco in un test clinico.
Fare clic per copiare questa espressione
La prima colonna rappresenta il numero d'onda (1/lunghezza d'onda) in cm-1. Vi sono cinque spettri sequenziali di ogni dosaggio, che costituiscono le 25 colonne rimanenti.
2. Utilizzare le funzioni submatrix, cols e rows per estrarre i 25 spettri.
Fare clic per copiare questa espressione
3. Utilizzare le funzioni max e match per trovare il valore massimo e lo spettro che lo contiene. Poiché i valori di dati sono molto piccoli, impostare TOL su un valore ancora più piccolo.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Il valore massimo è contenuto nella riga 210 e nella colonna 17 della matrice di dati.
4. Tracciare il grafico dei primi due spettri di ogni dosaggio, per un totale di 10 insiemi di dati. Le coppie degli insiemi di dati sono rappresentate nelle colonne [1,2], [6,7], [11,12], [16,17] e [21,22] della matrice di dati Data.
Per ottenere una scala ragionevole dell'asse orizzontale, dividere i numeri d'onda per 1000. In modo analogo, poiché i valori degli spettri sono piccoli, li si moltiplica per 1000.
Utilizzare un indicatore orizzontale per mostrare il valore massimo degli spettri.
Fare clic per copiare questa espressione
Per convenzione, il grafico dei numeri d'onda viene tracciato in ordine decrescente. Pertanto a Data<0> non è consentito mostrare i numeri d'onda nell'ordine corretto.
Nessuna parte dello spettro può essere utilizzata per distinguere facilmente un dosaggio da un altro: presentano tutte la stessa forma di base e valori di assorbimento simili.
La maggior parte dei dati è ridondante. Vi sono 236 punti in ogni spettro, ovvero 236 variabili misurate (assorbimento per una lunghezza d'onda specifica della luce), ma la variazione di questi punti è chiaramente in correlazione.
5. Suddividere la matrice Data in due insieme di dati: numeri d'onda (colonna 0) e spettri per ogni pillola (matrice secondaria S). Per uniformarsi alla convezione comune, trasporre gli spettri di ogni pillola in modo che ogni colonna corrisponda a una variabile indipendente.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
6. Definire il numero di componenti principali, nonché il numero massimo di iterazioni, prima di applicare la funzione Nipals ai dati. La funzione Nipals consente di centrare i dati, sottraendo lo spettro medio da ogni riga.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
7. Scegliere uno spettro da ricostruire.
Fare clic per copiare questa espressione
8. Estrarre i punteggi e i carichi dall'output della funzione Nipals.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
9. Utilizzare la funzione mean per calcolare lo spettro medio.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
10. Effettuare una stima dello spettro originale moltiplicando la matrice dei vettori di carico con la matrice dei punteggi, quindi aggiungendo gli lo spettro medio.
Fare clic per copiare questa espressione
11. Tracciare il grafico dello spettro originale e di quello ricostruito. Scalare gli assi verticale e orizzontale per ottenere valori ragionevoli.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Tutti gli spettri vengono rappresentati in modo appropriato utilizzando solo due componenti principali per l'analisi dei componenti principali.
12. Riordinare i punteggi in due matrici. Ogni colonna delle matrici rappresenta i punteggi per uno dei cinque dosaggi delle pillole.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
13. Tracciare il grafico dei punteggi del primo fattore a confronto con i punteggi del secondo fattore. Ogni dosaggio viene mostrato con un colore diverso.
Fare clic per copiare questa espressione
Alcuni raggruppamenti di dati sono evidenti, ma è risulta comunque difficile distinguere un dosaggio da un altro. L'aggiunta di un terzo punteggio al grafico potrebbe risultare utile.
14. Utilizzare la funzione Nipals2 per aggiungere quattro componenti principali al modello creato con due componenti principali.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
La matrice di output di NIPALS2 ha la stessa forma di quella di NIPALS, ma con colonne e righe aggiuntive che corrispondono ai componenti principali aggiuntivi. Il numero di punteggi e carichi è ora aumentato a 6.
15. Estrarre i carichi e i punteggi dalla matrice NIPALS2 per creare un nuovo modello dello spettro scelto.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
16. Tracciare il grafico dei due modelli dello spettro scelto e confrontarli. Scalare gli assi orizzontale e verticale per ottenere valori ragionevoli.
Fare clic per copiare questa espressione
17. Estrarre la varianza cumulativa da NIPALS2.
Fare clic per copiare questa espressione
18. Tracciare il grafico della varianza cumulativa rispetto al numero di componenti principali.
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Fare clic per copiare questa espressione
Sebbene i primi due componenti principali (PC) rappresentino il 99% della varianza, la chiave per il raggruppamento dei dati in base al dosaggio è rappresentata dal terzo PC. L'analisi dei componenti principali comprime i dati nei fattori più dominanti, ma non in quelli più pertinenti.
È stato utile?