Principalele obiective ale laboratorului constau în:
stocarea datelor (pentru stocarea datelor structurate, semi-structurate şi nestructurate oferind în acelaşi timp funcţionalităţi enterprise de securitate a datelor, backup, replicare, căutare şi interogare);
procesarea datelor (datele vor putea rula în mii de fluxuri concurente, folosind o arhitectura distribuită, rezilienţă şi performantă);
inteligenţa artificială ...
Principalele obiective ale laboratorului constau în:
stocarea datelor (pentru stocarea datelor structurate, semi-structurate şi nestructurate oferind în acelaşi timp funcţionalităţi enterprise de securitate a datelor, backup, replicare, căutare şi interogare);
procesarea datelor (datele vor putea rula în mii de fluxuri concurente, folosind o arhitectura distribuită, rezilienţă şi performantă);
inteligenţa artificială şi calcul de înaltă performanţă (pentru procesarea textului si a imaginilor, cu capabilităţi diverse: detecţie limba, recunoaştere de entităţi, sumarizare, analiza sentimentală, similaritate, clasificare, modelare de topic, detecţie de obiecte în imagini, OCR, detecţie şi recunoaştere facială, descrierea unei imagini...). Modulul va juca un rol important în activităţile de data-engineering prin completul de analiza paralela a datelor din memorie;
explorare (modul ce va ajuta la înţelegerea datelor şi pentru descoperirea conexiunilor ascunse din cadrul lor). Va fi un instrument colaborativ, în care toate operaţiile se vor desfăşura în cadrul unui spaţiu de lucru de tip dashbord, va oferi capabilităţi de încărcare şi explorare a datelor, dar si instrumente de analiză;
interogare (modul ce va fi instrumentul ideal de tip business intelligence destinat analizei cantităţilor mari de date la sursă, fără a replica datele într-un depozit de date intermediar şi pentru a obţine răspunsuri despre datele introduse în sistem);
administrare a întregii soluţii, (modul ce va fi o platforma cloud-native de gestiune a aplicaţiilor şi va rula în mediu virtualizat, construit pentru a eficientiza resursele hardware ale platformei şi pentru a asigura flexibilitate maximă în organizarea şi gestiunea infrastructurii IT);
alte module necesare interconectării laboratoarelor direct sau indirect şi analizei datelor inclusiv pentru laboratoarele mobile;
Obiectivul Soluţiei Informatice Integrate este de a implementa o platformă completă de Inteligenţă Artificială ce beneficiază de ultimele tehnologii de lucrul cu datele de tip Big Data şi High Performance Computing care oferă şi posibilităţi de pregătire a studenţilor. Soluţia Informatică Integrată trebuie să aibă la bază o infrastructura hardware optimizată pentru accelerarea algoritmilor de procesare, stocare şi antrenarea modelelor de Inteligenţă Artificială proiectată pentru comunicaţii rapide între noduri şi stocare inteligentă. Arhitectura trebuie să permită distribuţia modulelor de High Performance Computing (HPC), Inteligenţă artificială (AI) şi Big Data într-un mod eficient, pe un mediu hardware care să asigure un nivel de performanţă ridicat şi care să poată scala atât pe orizontală, cât şi pe verticală, în funcţie de nivelul de performanţă sau de capacitate necesar. Platforma software trebuie sa fie un sistem agnostic de procesare şi stocare a informaţiilor, în care datele care trec prin sistem să fie transformate, filtrate, îmbogăţite şi stocate într-un sistem de fişiere optimizat pentru procesarea distribuită a datelor de mari dimensiuni, atât pentru date nestructurate, semi-structurate cât şi pentru date structurate. Cu ajutorul arhitecturii de procesare distribuită de tip Big Data şi High Performance Computing sedoreşte antrenarea şi evaluarea modelelor de Inteligenţă Artificială într-un timp cât mai scurt, pentru a permite realizarea de activităţi de cercetare şi instruire într-un mod accelerat. În vederea asigurării suportului necesar pentru cerinţele actuale şi cele viitoare, soluţia trebuie să asigurescalabilitate şi flexibilitate maximă în instalarea, administrarea şi utilizarea componentelor sale.
Platforma va fi structurată pe servicii/module să permită o bună şi usoară administrare a sistemului - alocarea de resurse şi asigurarea unei disponibilitati ridicate serviciilor furnizate, precum şi optimizarea necesarului de resurse hardware. Recomandarea este ca fiecare serviciu/modul să ruleze în mod distribuit pe un sistem cluster de minim două noduri pentru a asigura nivelul de performanta si disponibilitate necesar.
Serviciul de date - serviciul principal furnizat de platformă este cel de stocare şi procesare a datelor. Pentru a asigura nivelul de performanta, scalabilitate şi nu în ultimul rând versatilitate, baza de date va fi capabilă sa să stocheze date structurate, semi-structurate şi nestructurate, oferind în acelaşi timp funcţionalităţiEnterprise de securitate a datelor, backup, replicare, căutare şi interogare. Modelul de date va fi optimizat pentru acces distribuit şi paralel, oferind performanţe pentru volume mari de date.Interogarea datelor se face utilizând un motor de căutare ce are ca scop indexarea datelor şi acăutărilor.
Procesarea şi operaţiile asupra datelor se vorrealizează în mod distribuit pe nodurile de procesare, astfel,utilizându-se la maxim resursele de calcul disponibile şi în acelaşi timp distribuind uniform încărcarea pe toate nodurile.
Printre funcţionalităţile serviciului de date putem menţionaurmătoarele:
beneficiază de un mecanism de stocare distribuită a datelor, pe mai multe noduri
include mecanisme de caching la nivelul sistemului de fişiere pentru accelerarea livrării datelor stocate
include mecanisme de stocare a obiectelor de dimensiuni mari (ex: imagini, audio, video), cu accelerarea livrării de conţinut pentru algoritmii de Inteligenţă Artificială
include baze de date specializate pentru stocarea datelor structurate, semi-structurate şi nestructurate
beneficiază de un mecanism de indexare şi căutare a datelor stocate, atât căutări de tip full-text, cât şi căutări bazate pe atribute definite de utilizator
include mecanisme de interogare (tip SQL sau echivalent) a datelor stocate, indiferent de modul de stocare a acestora care rulează în memorie, distribuit pe mai multe noduri de procesare.
permite gestionarea fluxurilor de date în timp real (ex: streaming de date)
permite realizarea de operaţii de back-up si restaurare a datelor
Serviciul de stocareva fi dimensionat corespunzător soluţiei software astfel în cât să asigure performanţă, capacitate, redundantă si scalabilitate.Acesta va integra tehnologii precum: interfeţe infiniband şi/sau ethernet minim 25 Gbps Ethernet, configuraţie cluster storage sau echivalent, suportul integrat multiprotocol (IPv4, IPv6, NFS, NFS over RDMA, SMB, S3, HTTP, FTP şi HDFS). Clusterul de stocare va fi conectat in mod redundant cu toate nodurile aferente serviciilor furnizate prin intermediul a unor switch-uri de înaltă performanţă pe o viteza de minim 25 Gb.
Serviciul de procesare asigură următoarele funcţionalităţi:
procesare distribuită a datelor stocate
construirea în mod vizual a fluxurilor de procesare a datelor
Să permită lucrul cu o gama variata de surse si destinaţii de date (baze de date, servicii web, sisteme de fişiere, cozi de mesaje, cloud-uri publice etc.)
Servicii de inteligenta artificiala si calcul de înaltă performanta
Posibilitatea distribuirii puterii de calcul
Platforma va beneficia de capacitatea de antrenare distribuită a modelelor de Machine Learning cu capabilităţi de AutoML şi Deep Learning. Utilizatorii vor interacţiona utilizând o interfaţa web, în cadrul căreia pot executa diverse comenzi pentru a încărca date, a aplica transformări asupra datelor, a antrena modele şi pentru a vizualiza rezultatele antrenărilor.
Utilizatorii pot aplica direct capabilitatea de AutoML pe un set de date pentru a obţine cel mai bun rezultat, în backendrulând-se cei mai potriviţi algoritmi cu un set iniţial de parametri impliciţi.
Vor fi incluse suite de modele de inteligentă artificială pentru procesarea textului şi a imaginilor, cu următoarelecapabilităţi:
Analiza Text:
Detecţie limbă
Named Entity Recognition
Sumarizare
Analiza sentiment
Similaritate
Clasificare
Topic Modeling
Analiza Imagini:
Detectie obiecte
OCR
Detectie si recunoastere faciala
Descriere imagine
Servicii de explorare şi interogare a datelor - modulul de explorare ajută la înţelegerea datelor şi pentru a descoperi conexiunile dintre ele. Este un instrument colaborativ, în care toate operaţiile se desfăşoară în cadrul unui spaţiu de lucru de tip dahsbord ce oferăcapabilităţi de încărcareşi explorare a datelor, dar şi instrumente de analiză. Serviciul trebuie să ofere capabilităţi avansate de căutare a informaţiilor stocate in cadrul bazelor de date . Căutările pot fi salvate pentru utilizare ulterioara, iar rezultatul unei căutări poate fi exportat in formate JSON, XLS, PDF, DOCX, XML etc.
Modulul de interogare va permite utilizarea facilă de către utilizatori non tehnici şi sa poată accesa surse informaţii(baze de date şi formate specializate:json, xml,xls etc… ). Ulterior interogării, datele sa poată fi examinate atât în forma tabelară(text) sau interpretate grafic.
Servicii de administrarevor include o interfaţa grafică rapidă şi intuitivă, care să permită administratorilor de sistem să reducă la minim complexitatea activităţilor operaţionale - să beneficieze de administrare şi monitorizare centralizată, să gestioneze sistemele IT din cadrul organizaţiei în mod uniform şi eficient, să permită administratorilor să gestioneze resursele hardware & software, să permită integrarea cu severe LDAP pentru autentificarea utilizatorilor, precum şi implementarea unuimecanism de roluri pentru configurarea în mod granular a accesului utilizatorilor la diverse secţiuni.
Soluţie de securitate constituită minim dintr-un echipament tip firewall:
Min 8 porturi 1/10 Gigabit Ethernet (SFP+)
Firewall throughput 10 Gbps;
Numar de conexiuni firewall concurente: min 50.000
funcţii de NAT, object-based NAT şi twice-nat;
Interfata de administrare Web
NextGeneration IPS/IDS (NGIPS/IDS) .
URL Filtering
Advanced Malware Protection (AMP)
DDOS protectie, incluzand: SYN flood attacks, IP Floods, ICMP floods , TCP Floods, UDP floods, IGMP floods,HTTP floods si DNS query floods
O solutie de VPN cu minim 50 de sesiuni concurente