Program studiów, czyli czego uczymy
Absolwenci studiów będą posiadać umiejętności pozwalające na precyzyjną analizę danych z punktu widzenia zasad statystyki, fachowe szacowanie błędów oraz istotności uzyskanych wyników. Nabędą wiedzę i umiejętności pozwalające na posługiwanie się współczesnymi narzędziami analizy danych, pozwalającymi na tworzenie dedykowanych modeli danych oraz ich efektywną analizę. Część zdobytych kompetencji dotyczyć będzie planowania rozwiązań informatycznych, umiejętności przekazywania w sposób zrozumiały złożonej wiedzy oraz pracy zespołowej. Szeroki wachlarz poznanych technologii pozwoli absolwentom na możliwość poszukiwania korzystnego miejsca pracy.
Program nauczania jest tak skonstruowany aby w studiach mogły uczestniczyć zarówno osoby początkujące, jak również osoby już znające nauczane systemy, lecz chcące uporządkować i rozszerzyć posiadaną wiedzę.
Wszystkie przedmioty wykładane są od podstaw. Prowadzący, na życzenie prowadzą indywidualne konsultacje pomiędzy zjazdami.
Temat | Liczba godzin | Wykłady | Laboratoria | ects |
---|---|---|---|---|
Wykład wprowadzający | 2 | 2 | 0 | 0 |
Podstawy statystycznej analizy danych | 32 | 16 | 16 | 5 |
Wstęp do analizy wielowymiarowej | 6 | 6 | 0 | 0 |
SQL Server | 24 | 8 | 16 | 4 |
Pakiet R | 18 | 6 | 12 | 3 |
Power BI | 24 | 8 | 16 | 4 |
Python | 24 | 8 | 16 | 4 |
Business Intelligence | 30 | 10 | 20 | 5 |
Oracle Data Mining | 24 | 8 | 16 | 4 |
Rozwiązania Chmurowe | 24 | 8 | 16 | 4 |
SUMA (oba semestry) | 208 | 90 | 118 | 33 |
Opis przedmiotów
Studia rozpoczynają się od wykładu wprowadzającego w ich tematykę. Następnie krok po kroku wprowadzane są podstawy statystycznej analizy danych oraz statystyki matematycznej. Poparte są one ciekawymi przykładami opartymi na rzeczywistych danych. Te i analogiczne dane są również analizowane w środowisku R, a w drugim semestrze w środowisku Python. Niezależnie, uczestnicy studiów uczą się pracy z relacyjnymi bazami danych, w szczególności tworzenia rozbudowanych raportów w oparciu o język SQL. Drugi semestr studiów poświęcony jest przede wszystkim dwóm podstawowym obecnie technologiom: chmurom obliczeniowym oraz zaawansowanym metodom analizy danych. Te ostatnie obejmują metody modelowania oraz analizy danych, jak również prezentacji i wymiany wyników.
Podstawy statystycznej analizy danych
W analizie danych niezbędna jest znajomość podstawowych zagadnień statystyki opisowej i matematycznej. Ilościowy opis analizowanych danych i ich prezentację graficzną umożliwia znajomość statystyki opisowej. Do wnioskowania statystycznego na podstawie badanych danych niezbędna jest podstawowa wiedza z zakresu analizy błędów, która z kolei stanowi podstawę statystyki matematycznej.
- Ilościowy opis danych statystycznych, miary średnie, wariancja, odchylenie standardowe, kwantyle.
- Graficzna prezentacja danych, wykres pudełkowy, histogram.
- Skośność i kurtoza rozkładu empirycznego.
- Błąd statystyczny, błąd wartości średniej.
- Rozkład Gaussa i rozkłady z próby.
- Estymatory, testy statystyczne, przedziały ufności.
- Analiza dwóch zmiennych, regresja liniowa.
- Regresja liniowa wielu zmiennych.
Wstęp do analizy wielowymiarowej
- Istota danych wielowymiarowych i podstawowe problemy związane z ich analizą.
- Transformacja danych oraz redukcja wymiaru.
- Podstawowe metody analizy danych wielowymiarowych, techniki Data Mining i Machine Learning.
MS SQL Server
Microsoft SQL Server to jeden z najpopularniejszych serwerów bazodanowych na świecie. Na jego przykładzie słuchacze studiów poznają podstawy relacyjnych baz danych oraz język SQL.
- Wstęp do relacyjnych baz danych i języka SQL.
- Wydobywanie danych z bazy danych i formatowanie wyników.
- Filtrowanie rekordów.
- Grupowanie danych.
- Wydobywanie danych z wielu tabel.
Pakiet R
R jest językiem programowania dystrybuowanym na licencji open-source. Służy do analiz statystycznych i wizualizacji danych. Zdobył dużą popularność w środowiskach naukowych i akademickich, ale jest też wykorzystywany w wielu firmach i instytucjach: Facebook, Google, Merck, Altera, Pfizer, LinkedIn, Shell, Novartis, Ford, Mozilla, czy Twitter. Jest wciąż rozbudowywany, pojawiają się nowe specjalistyczne pakiety.
- Wstęp do środowiska R: omówienie środowiska RStudio i podstawowa nawigacja w tym środowisku.
- Praca z pakietami: wczytywanie danych z plików txt, csv i csv2, tworzenie nowych zmiennych, przekształcanie zmiennych, filtracja.
- Elementy programowania: pisanie własnych funkcji, prostych skryptów obliczeniowych wykorzystujących standardowe oraz dodatkowe biblioteki.
- Prezentowanie danych i wyników: podstawowe struktury danych w R, przekształcanie danych, wykresy słupkowe, kołowe, histogram, boxplot, wraz z interpretacją.
- Metody statystyczne:
– podstawowe charakterystyki próby, kwantyle, wykresy kwantylowe;
– regresja liniowa jednej i wielu zmiennych, regresja logistyczna, wybór zmiennych do modelu metodą selekcji krokowej, istotność zmiennych, kryteria informacyjne;
– testy parametryczne oraz testy niezależności i zgodności. - Wybrane techniki Data Mining: elementy analizy skupień, drzewa regresyjne, drzewa klasyfikacyjne.
Power BI
Power BI to aplikacja firmy Microsoft typu desktop przeznaczona do pracy w systemie Windows. Zdobywa coraz większą popularność z powodu swojej kompleksowości (umożliwia tzw. analizę typu self-service) oraz współpracy z chmurą. Aplikacja umożliwia łączenie się całym spektrum różnych źródeł danych, pobieranie ich i modelowanie. Posiada wbudowanych coraz więcej elementów hurtowni danych, również tych, związanych z technikami Data Mining. Pozwala na projektowanie i udostępnianie raportów i wyników analiz.
- Wstęp do architektury Power BI.
- Pozyskiwanie i transformowanie danych.
- Tworzenie modeli danych.
- Analiza danych.
- Tworzenie elementów wizualnych i raportów.
Python
Przedmiot ten obejmuje wszystkie najważniejsze zagadnienia związane z językiem programowania obiektowo-skryptowym Python. Python to obecnie jeden z najpopularniejszych języków programowania, który swoją elastycznością stał się jednym z najważniejszych rozwiązań również do procesów ETL oraz ELT. Wraz z rozwiązaniami chmurowymi stawowi on dopełnienie w rozwiązaniach business intelligence.
- Wstęp do programowania w języku Python. Środowisko, instalacja oraz zarządzanie pakietami. Narzędzia do programowania (IDE), metody wersjonowania i testowania kodu.
- Omówienie typów danych, funkcji , operatorów, itd.
- Pętle i instrukcje warunkowe.
- Konstrukcja metod, funkcji i klas.
- Omówienie wykorzystania najważniejszych pakietów dostępnych w środowisku Python wraz z ich przykładowym zastosowaniem.
- Wykorzystanie Pythona do wydobywania i analizy danych danych.
MS SQL BI
Microsoft SQL Server Business Intelligence to kompletna platforma dla środowisk inteligencji biznesowej. Składa się ona z serwera baz danych, środowiska Integration Services do tworzenia rozwiązań ETL (Extract – Transorm – Load) służących do dystrybucji i transformowania danych, Analysis Services do projektowania i tworzenia wydajnych hurtowni danych opartych na architekturze wielowymiarowej lub tabelarycznej oraz Reporting Services do projektowania, tworzenia i dystrybucji raportów.
- Wstęp do środowiska MS SQL Server BI.
- Tworzenie pakietów do transferowania i transformowania danych.
- Tworzenie elementów hurtowni danych: wymiary, kostki, obliczenia, itp.
- Tworzenie hurtowni danych.
- Tworzenie modeli Data Mining i analiza danych.
- Projektowanie i tworzenie raportów.
Oracle DM
Firma Oracle jest największym dostawcą rozwiązań bazodanowych na świecie. Oferuje nie tylko serwery bazodanowe, ale również cały szereg aplikacji, w tym do analizy danych. W tej części studiów słuchacze zapoznają się z bazami danych Oracle i podstawami języka PL/SQL. Główną częścią przedmiotu będzie przygotowanie danych i ich analiza przy pomocy technik Data Mining oraz Machine Learning (uczenie maszynowe).
- Wstęp do baz danych Oracle i PL/SQL.
- Integracja Oracle z pakietami Python i R.
- Techniki Data Mining i Machine Learning.
- Analiza wspólnego koszyka.
- Wykrywanie anomalii.
- Wdrażanie rozwiązań Data Mining i Machine Learning.
Rozwiązania chmurowe
Rozwiązania chmurowe omawiane są na przykładzie technologii Apache Hadoop. Jest to zestaw bibliotek i narzędzi służących do przechowywania, przetwarzania oraz analizowania dużych zbiorów danych. Jest on ściśle powiązany z takimi pojęciami jak Cloud Computing, Big Data, Machine Learning, czy Artificial Intelligence. Apache Hadoop pozwala przechowywać i przetwarzać duże ilości danych przy pomocy wielu zadań wsadowych. Do przetwarzania danych na Hadoop można jeszcze użyć Apache Spark, czyli platformy opartej na klastrach. Spark dostarczą nowe możliwości programiście, których sam Hadoop nie posiada. Oba te rozwiązania mogą używać programu Hive, który tworzy interfejs dostępu do danych HiveQL, który bazuje na języku SQL. HBase jest przykładem aplikacji uruchomionej na systemie plików HDFS, który jest częścią Hadoopa. Baza HBase jest modelowana w oparciu o Google Bigtable czyli nie-relacyjnej bazie danych.
- Wprowadzenie do tematyki Big Data.
- Komponenty środowiska Hadoop. HDFS – rozproszone przechowywanie danych.
- Nierelacyjne bazy danych. Hive – omówienie działania MapReduce i ćwiczenia w operowaniu językiem HQL.
- Apache Spark – komponenty i charakterystyka przetwarzania danych.
- Wprowadzenie i ćwiczenia w użyciu biblioteki PySpark.
- Tworzenie, wdrażanie i optymalizacja aplikacji sparkowych.
raki bu