Program

Program studiów, czyli czego uczymy

 

Absolwenci studiów będą posiadać umiejętności pozwalające na precyzyjną analizę danych z punktu widzenia zasad statystyki, fachowe szacowanie błędów oraz istotności uzyskanych wyników. Nabędą oni wiedzę i umiejętności pozwalające na posługiwanie się współczesnymi narzędziami analizy danych, pozwalającymi na tworzenie dedykowanych modeli danych oraz ich efektywną analizę. Część zdobytych kompetencji dotyczyć będzie planowania rozwiązań informatycznych, umiejętności przekazywania w sposób zrozumiały złożonej wiedzy oraz pracy zespołowej. Szeroki wachlarz poznanych technologii pozwoli absolwentom na możliwość znalezienia korzystnego miejsca pracy.

Program nauczania jest tak skonstruowany aby w studiach mogły uczestniczyć zarówno osoby początkujące, jak również osoby już znające nauczane systemy, lecz chcące uporządkować i rozszerzyć posiadaną wiedzę.

Temat Liczba godzin Wykłady Laboratoria ects
Wykład wprowadzający 2 2 0 0
Podstawy statystycznej analizy danych 30 15 15 5
Pakiet R 18 6 12 3
SQL Server 24 10 14 4
Python 24 10 14 4
Power BI 24 10 14 4
Business Intelligence 30 10 20 5
Oracle Data Mining 24 10 14 4
Rozwiązania Chmurowe 24 10 14 4
SUMA (oba semestry) 200 83 117 33

Opis przedmiotów

Studia rozpoczynają się od wykładu wprowadzającego w ich tematykę. Następnie krok po kroku wprowadzane są podstawy statystycznej analizy danych oraz statystyki matematycznej. Poparte są one ciekawymi przykładami opartymi na rzeczywistych danych. Te i analogiczne dane są równolegle analizowane w środowiskach R i Python. Niezależnie, uczestnicy studiów uczą się pracy z relacyjnymi bazami danych, w szczególności tworzenia rozbudowanych raportów w oparciu o język SQL. Drugi semestr studiów poświęcony jest przede wszystkim dwóm podstawowym obecnie technologiom: chmurom obliczeniowym oraz zaawansowanym metodom analizy danych. Te ostatnie obejmują metody modelowania oraz analizy danych, jak również  prezentacji i wymiany wyników.

Podstawy statystycznej analizy danych

W analizie danych niezbędna jest znajomość podstawowych zagadnień statystyki opisowej i matematycznej. Ilościowy opis analizowanych danych i ich prezentację graficzną  umożliwia znajomość statystyki opisowej. Do wnioskowania statystycznego na podstawie badanych danych niezbędna jest podstawowa wiedza z zakresu analizy błędów, która z kolei stanowi podstawę statystyki matematycznej.

  1. Graficzna prezentacja danych, histogram
  2. Ilościowy opis danych, wariancja i odchylenie standardowe
  3. Błąd statystyczny, błąd wartości średniej
  4. Rozkład Gaussa i rozkłady z próby
  5. Estymatory, testy statystyczne, przedziały ufności
  6. Analiza dwóch zmiennych, regresja liniowa
  7. Regresja liniowa wielu zmiennych

Pakiet R

R jest językiem programowania dystrybuowanym na licencji open-source. Służy do analiz statystycznych i wizualizacji danych. Zdobył dużą popularność w środowiskach naukowych i akademickich, ale jest też wykorzystywany w wielu firmach i instytucjach: Facebook, Google, Merck, Altera, Pfizer, LinkedIn, Shell, Novartis, Ford, Mozilla, Twitter. Jest wciąż rozbudowywany, pojawiają się nowe specjalistyczne pakiety.

  1. Wstęp do środowiska R, narzędzia
  2. Praca z pakietami
  3. Elementy programowania
  4. Wykresy oraz prezentowanie danych i wyników
  5. Metody statystyczne, regresja, analiza szeregów czasowych oraz wybrane metody zaawansowane
  6. Wybrane techniki Data Mining
  7. Integracja R z innymi aplikacjami

Python

Przedmiot ten obejmuje wszystkie najważniejsze zagadnienia związane z językiem programowania obiektowo-skryptowym Python. Python to obecnie jeden z najpopularniejszych języków programowania, który swoją elastycznością stał się jednym z najważniejszych rozwiązań również do procesów ETL oraz ELT. Wraz z rozwiązaniami chmurowymi stawowi on dopełnienie w rozwiązaniach business intelligence.

  1. Wstęp do programowania w języku Python. Środowisko, instalacja oraz zarządzanie pakietami. Narzędzia do programowania (IDE), metody wersjonowania i testowania kodu.
  2. Omówienie typów danych, funkcji , operatorów itd.
  3. Pętle i instrukcje warunkowe.
  4. Konstrukcja metod, funkcji i klas.
  5. Omówienie i wykorzystania najważniejszych pakietów dostępnych w języku Python wraz z ich przykładowym użyciem.
  6. Python oraz procesy ETL i ELT.
  7. Łączenie i integracja ze źródłami danych, np. SQL Server
  8. Wykorzystanie Pythona do wydobywania danych (request, web scraping python – beautiful soup, pandas).
  9. Integracja Python w SQL Server

Power BI

Jest to aplikacja firmy Microsoft typu desktop przeznaczona do pracy w systemie Windows. Zdobywa coraz większą popularność z powodu swojej kompleksowości (umożliwia tzw. analizę typu self-service) oraz współpracy z chmurą. Aplikacja umożliwia łączenie się całym spektrum różnych źródeł danych, pobieranie ich i modelowanie. Posiada wbudowanych coraz więcej elementów hurtowni danych, również tych, związanych z technikami Data Mining. Pozwala na projektowanie i udostępnianie raportów i wyników analiz.

  1. Wstęp do architektury Power BI
  2. Pozyskiwanie i transformowanie danych
  3. Tworzenie modeli danych
  4. Analiza danych
  5. Tworzenie elementów wizualnych i raportów

MS SQL Server

Microsoft SQL Server to jeden z najpopularniejszych serwerów bazodanowych na świecie. Na jego przykładzie słuchacze studiów poznają podstawy relacyjnych baz danych oraz język SQL. W dalszej części przedmiotu zapoznają się ze sposobami integracji kodu R oraz Python bezpośrednio w bazie danych.

  1. Wstęp do relacyjnych baz danych i języka SQL
  2. Wydobywanie danych z bazy danych i formatowanie wyników
  3. Filtrowanie rekordów
  4. Grupowanie danych
  5. Wydobywanie danych z wielu tabel
  6. Tworzenie procedur składowanych i funkcji
  7. Integracja kodu R oraz Python w bazie danych

MS SQL BI

Microsoft SQL Server Business Intelligence to kompletna platforma dla środowisk inteligencji biznesowej. Składa się ona z serwera baz danych; środowiska Integration Services do tworzenia rozwiązań ETL (Extract – Transorm – Load), służących do dystrybucji i transformowania danych; Analysis Services do projektowania i tworzenia wydajnych hurtowni danych opartych na architekturze wielowymiarowej lub tabelarycznej oraz Reporting Services do projektowania, tworzenia i dystrybucji raportów.

  1. Wstęp do środowiska MS SQL Server BI
  2. Tworzenie pakietów do transferowania i transformowania danych
  3. Tworzenie elementów hurtowni danych: wymiary, kostki, obliczenia itp.
  4. Tworzenie hurtowni danych
  5. Tworzenie modeli Data Mining i analiza danych
  6. Projektowanie i tworzenie raportów

Oracle DM

Firma Oracle jest największym dostawcą rozwiązań bazodanowych na świecie. Oferuje nie tylko serwery bazodanowe, ale również cały szereg aplikacji w tym do analizy danych. W tej części studiów słuchacze zapoznają się z bazami danych Oracle, podstawami języka PL/SQL. Główną częścią tego przedmiotu będzie przygotowanie danych i ich analiza przy pomocy technik Data Mining oraz Machine Learning (uczenie maszynowe).

  1. Wstęp do baz danych Oracle i PL/SQL
  2. Integracja Oracle z pakietami Python i R
  3. Techniki Data Mining i Machine Learning
  4. Analiza wspólnego koszyka
  5. Wykrywanie anomalii
  6. Wdrażanie rozwiązań Data Mining i Machine Learning

Rozwiązania chmurowe

Rozwiązania chmurowe omawiane są na przykładzie technologii Apache Hadoop. Jest to zestaw bibliotek i narzędzi służących do przechowywania, przetwarzania oraz analizowania dużych zbiorów danych. Jest on ściśle powiązany z takimi pojęciami jak Cloud Computing, Big Data, Machine Learning, czy Artificial Intelligence. Apache Hadoop pozwala przechowywać i przetwarzać duże ilości danych przy pomocy wielu zadań wsadowych. Do przetwarzania danych na Hadoop można jeszcze użyć Apache Spark, czyli platformy opartej na klastrach. Spark dostarczą nowe możliwości programiście, których sam Hadoop nie posiada. Oba te rozwiązania mogą używać programu Hive, który tworzy interfejs dostępu do danych HiveQL, który bazuje na języku SQL. HBase jest przykładem aplikacji uruchomionej na systemie plików HDFS, który jest częścią Hadoopa. Baza HBase jest modelowana w oparciu o Google Bigtable czyli nie-relacyjnej bazie danych.

raki bu