Program studiów, czyli czego uczymy

Absolwenci studiów będą posiadać umiejętności pozwalające na precyzyjną analizę danych z punktu widzenia zasad statystyki, fachowe szacowanie błędów oraz istotności uzyskanych wyników. Nabędą wiedzę i umiejętności pozwalające na posługiwanie się współczesnymi narzędziami analizy danych, pozwalającymi na tworzenie dedykowanych modeli danych oraz ich efektywną analizę. Część zdobytych kompetencji dotyczyć będzie planowania rozwiązań informatycznych, umiejętności przekazywania w sposób zrozumiały złożonej wiedzy oraz pracy zespołowej. Szeroki wachlarz poznanych technologii pozwoli absolwentom na możliwość poszukiwania korzystnego miejsca pracy.

Program nauczania jest tak skonstruowany aby w studiach mogły uczestniczyć zarówno osoby początkujące, jak również osoby już znające nauczane systemy, lecz chcące uporządkować i rozszerzyć posiadaną wiedzę.

Wszystkie przedmioty wykładane są od podstaw. Prowadzący, na życzenie prowadzą indywidualne konsultacje pomiędzy zjazdami.

Temat	Liczba godzin	Wykłady	Laboratoria	ects
Wykład wprowadzający	2	2	0	0
Podstawy statystycznej analizy danych	32	16	16	5
Wstęp do analizy wielowymiarowej	6	6	0	0
SQL Server	24	8	16	4
Pakiet R	24	6	18	4
Power BI	24	8	16	4

Python	24	8	16	4
Business Intelligence	24	8	16	4
Oracle Data Mining	24	8	16	4
Rozwiązania Chmurowe	24	8	16	4

SUMA (oba semestry)	208	90	118	33

Opis przedmiotów

Studia rozpoczynają się od wykładu wprowadzającego w ich tematykę. Następnie krok po kroku wprowadzane są podstawy statystycznej analizy danych oraz statystyki matematycznej. Poparte są one ciekawymi przykładami opartymi na rzeczywistych danych. Te i analogiczne dane są również analizowane w środowisku R, a w drugim semestrze w środowisku Python. Niezależnie, uczestnicy studiów uczą się pracy z relacyjnymi bazami danych, w szczególności tworzenia rozbudowanych raportów w oparciu o język SQL. Drugi semestr studiów poświęcony jest przede wszystkim dwóm podstawowym obecnie technologiom: chmurom obliczeniowym oraz zaawansowanym metodom analizy danych. Te ostatnie obejmują metody modelowania oraz analizy danych, jak również prezentacji i wymiany wyników.

Podstawy statystycznej analizy danych

W analizie danych niezbędna jest znajomość podstawowych zagadnień statystyki opisowej i matematycznej. Ilościowy opis analizowanych danych i ich prezentację graficzną umożliwia znajomość statystyki opisowej. Do wnioskowania statystycznego na podstawie badanych danych niezbędna jest podstawowa wiedza z zakresu analizy błędów, która z kolei stanowi podstawę statystyki matematycznej.

Ilościowy opis danych statystycznych, miary średnie, wariancja, odchylenie standardowe, kwantyle.
Graficzna prezentacja danych, wykres pudełkowy, histogram.
Skośność i kurtoza rozkładu empirycznego.
Błąd statystyczny, błąd wartości średniej.
Rozkład Gaussa i rozkłady z próby.
Estymatory, testy statystyczne, przedziały ufności.
Analiza dwóch zmiennych, regresja liniowa. Regresja liniowa wielu zmiennych.

W ramach ćwiczeń, przykłady analizy danych prowadzone są w programie Excel oraz w Pakiecie R.

Wstęp do analizy wielowymiarowej

Istota danych wielowymiarowych i podstawowe problemy związane z ich analizą.
Transformacja danych oraz redukcja wymiaru.
Podstawowe metody analizy danych wielowymiarowych, techniki Data Mining i Machine Learning.

MS SQL Server

Microsoft SQL Server to jeden z najpopularniejszych serwerów bazodanowych na świecie. Na jego przykładzie słuchacze studiów poznają podstawy relacyjnych baz danych oraz język SQL.

Wstęp do relacyjnych baz danych i języka SQL.
Wydobywanie danych z bazy danych i formatowanie wyników.
Filtrowanie rekordów.
Grupowanie danych.
Wydobywanie danych z wielu tabel.

Pakiet R

R jest językiem programowania dystrybuowanym na licencji open-source. Służy do analiz statystycznych i wizualizacji danych. Zdobył dużą popularność w środowiskach naukowych i akademickich, ale jest też wykorzystywany w wielu firmach i instytucjach: Facebook, Google, Merck, Altera, Pfizer, LinkedIn, Shell, Novartis, Ford, Mozilla, czy Twitter. Jest wciąż rozbudowywany, pojawiają się nowe specjalistyczne pakiety.

W ramach przedmiotu Podstawy Statystycznej Analizy Danych (6 godz.).

Wstęp do środowiska R, instalacja pakietów, wczytywanie i zapisywanie danych, struktury danych w R, przekształcanie danych, filtrowanie.
Elementy programowania: tworzenie skryptów obliczeniowych, obliczenia z wykorzystaniem pętli, budowa własnych funkcji.
Prezentowanie danych i wyników: wykresy słupkowe, kołowe, histogramy, wykresy pudełkowe (boxplot).
Metody statystyczne: statystyczny opis danych, przedziały ufności, testy parametryczne, testy zgodności i niezależności.

W ramach przedmiotu Pakiet R (18 godz.).

Regresja liniowa jednej i wielu zmiennych, kryteria informacyjne, punkty odstające i wpływowe, metody graficzne.
Regresja logistyczna, drzewa klasyfikacyjne, lasy losowe.
Metody analizy skupień, w tym metoda k-średnich.
Metoda głównych składowych, metoda wektorów nośnych.
Drzewa regresyjne.

Power BI

Power BI to aplikacja firmy Microsoft typu desktop przeznaczona do pracy w systemie Windows. Zdobywa coraz większą popularność z powodu swojej kompleksowości (umożliwia tzw. analizę typu self-service) oraz współpracy z chmurą. Aplikacja umożliwia łączenie się całym spektrum różnych źródeł danych, pobieranie ich i modelowanie. Posiada wbudowanych coraz więcej elementów hurtowni danych, również tych, związanych z technikami Data Mining. Pozwala na projektowanie i udostępnianie raportów i wyników analiz.

Wstęp do architektury Power BI.
Pozyskiwanie i transformowanie danych.
Tworzenie modeli danych.
Analiza danych.
Tworzenie elementów wizualnych i raportów.

Python

Przedmiot ten obejmuje wszystkie najważniejsze zagadnienia związane z językiem programowania obiektowo-skryptowym Python. Python to obecnie jeden z najpopularniejszych języków programowania, który swoją elastycznością stał się jednym z najważniejszych rozwiązań również do procesów ETL oraz ELT. Wraz z rozwiązaniami chmurowymi stawowi on dopełnienie w rozwiązaniach business intelligence.

Wstęp do programowania w języku Python. Środowisko, instalacja oraz zarządzanie pakietami. Narzędzia do programowania (IDE), metody wersjonowania i testowania kodu.
Omówienie typów danych, funkcji , operatorów, itd.
Pętle i instrukcje warunkowe.
Konstrukcja metod, funkcji i klas.
Omówienie wykorzystania najważniejszych pakietów dostępnych w środowisku Python wraz z ich przykładowym zastosowaniem.
Wykorzystanie Pythona do wydobywania i analizy danych danych.

MS SQL Business Intelligence

Microsoft SQL Server Business Intelligence to kompletna platforma dla środowisk inteligencji biznesowej. Składa się ona z serwera baz danych, środowiska Integration Services do tworzenia rozwiązań ETL (Extract – Transorm – Load) służących do dystrybucji i transformowania danych, Analysis Services do projektowania i tworzenia wydajnych hurtowni danych opartych na architekturze wielowymiarowej lub tabelarycznej oraz Reporting Services do projektowania, tworzenia i dystrybucji raportów.

Wstęp do środowiska MS SQL Server BI.
Tworzenie pakietów do transferowania i transformowania danych.
Tworzenie elementów hurtowni danych: wymiary, kostki, obliczenia, itp.
Tworzenie hurtowni danych.
Tworzenie modeli Data Mining i analiza danych.
Projektowanie i tworzenie raportów.

Oracle Data Mining

Firma Oracle jest największym dostawcą rozwiązań bazodanowych na świecie. Oferuje nie tylko serwery bazodanowe, ale również cały szereg aplikacji, w tym do analizy danych. W tej części studiów słuchacze zapoznają się z bazami danych Oracle i podstawami języka PL/SQL. Główną częścią przedmiotu będzie przygotowanie danych i ich analiza przy pomocy technik Data Mining oraz Machine Learning (uczenie maszynowe).

Wstęp do baz danych Oracle i PL/SQL.
Integracja Oracle z pakietami Python i R.
Techniki Data Mining i Machine Learning.
Analiza wspólnego koszyka.
Wykrywanie anomalii.
Wdrażanie rozwiązań Data Mining i Machine Learning.

Rozwiązania chmurowe

Rozwiązania chmurowe omawiane są na przykładzie technologii Apache Hadoop. Jest to zestaw bibliotek i narzędzi służących do przechowywania, przetwarzania oraz analizowania dużych zbiorów danych. Jest on ściśle powiązany z takimi pojęciami jak Cloud Computing, Big Data, Machine Learning, czy Artificial Intelligence. Apache Hadoop pozwala przechowywać i przetwarzać duże ilości danych przy pomocy wielu zadań wsadowych. Do przetwarzania danych na Hadoop można jeszcze użyć Apache Spark, czyli platformy opartej na klastrach. Spark dostarczą nowe możliwości programiście, których sam Hadoop nie posiada. Oba te rozwiązania mogą używać programu Hive, który tworzy interfejs dostępu do danych HiveQL, który bazuje na języku SQL. HBase jest przykładem aplikacji uruchomionej na systemie plików HDFS, który jest częścią Hadoopa. Baza HBase jest modelowana w oparciu o Google Bigtable czyli nie-relacyjnej bazie danych.

Wprowadzenie do tematyki Big Data.
Komponenty środowiska Hadoop. HDFS – rozproszone przechowywanie danych.
Nierelacyjne bazy danych. Hive – omówienie działania MapReduce i ćwiczenia w operowaniu językiem HQL.
Apache Spark – komponenty i charakterystyka przetwarzania danych.
Wprowadzenie i ćwiczenia w użyciu biblioteki PySpark.
Tworzenie, wdrażanie i optymalizacja aplikacji sparkowych.

raki bu

Nowoczesna Analiza Danych

Studia Podyplomowe

Program