Օբյեկտ

Վերնագիր: Using Apache Spark for Biological Data Processing

Հեղինակ:

Shahinyan Tigran

Տեսակ:

Conference

Համահեղինակ(ներ):

Berberyan Levon

Ամփոփում:

Apache Spark is an open source distributed general-purpose cluster-computing framework. It’s one of the most efficient technologies for processing massive amounts of distributed data. Spark provides DataSet and GraphX API-s which allow high level functions for manipulations of data distributed among the nodes of a cluster. It provides powerful optimization which considers the distributed nature of data. Currently there are sources of huge amounts of biological data which are publicly available for usage. One of such sources is UniProt providing a comprehensive, high-quality and freely accessible resource of protein sequence and functional information. Uniprot provides its semantic data in RDF format with a SPARQL interface for querying among it. In current work we store UniProt’s datasets into our cluster’s distributed storage deployed in the cloud. We provide some basic functionality implemented in Spark using DataSet and GraphX API-s for Scala language to provide queries on the UniProt’s data.

Նույնականացուցիչ:

oai:noad.sci.am:136224

Լեզու:

English

URL:

սեղմել այստեղ՝ կապին հետևելու համար

Կազմակերպության անվանում:

Institute for Informatics and Automation Problems of NAS RA

Երկիր:

Armenia

Տարի:

2019

Ժամանակահատված:

September 23-27

Գիտաժողովի անվանում:

CSIT Conference 2019

Վայր:

Yerevan, Armenia

Օբյեկտի հավաքածուներ:

Վերջին անգամ ձևափոխված:

May 3, 2021

Մեր գրադարանում է սկսած:

May 3, 2021

Օբյեկտի բովանդակության հարվածների քանակ:

25

Օբյեկտի բոլոր հասանելի տարբերակները:

https://noad.sci.am/publication/149789

Ցույց տալ նկարագրությունը RDF ձևաչափով:

RDF

Ցույց տալ նկարագրությունը OAI-PMH ձևաչափով։

OAI-PMH

Հրատարակության անուն Ամսաթիվ
Shahinyan Tigran, Using Apache Spark for Biological Data Processing May 3, 2021

Այս էջը օգտագործում է 'cookie-ներ'։ Ավելի տեղեկատվություն