Modeling the Performance of MapReduce Applications for the Cloud
Palabras clave:
MapReduce, cloud, hadoop, FLOPs, MRBS, rendimientoResumen
En los últimos años, Cloud Computing se ha convertido en una tecnología clave que ha hecho posible ejecutar aplicaciones sin la necesidad de utilizar una infraestructura física. El desafío de implementar aplicaciones distribuidas en ambientes de Cloud Computing es que la infraestructura de máquinas virtuales debe considerar aspectos relacionados con el costo y el tiempo de utilización. Este trabajo es el resumen de uno anterior, presentado por los autores como tesis de maestría, con el objetivo de demostrar que el tiempo de ejecución de una aplicación distribuida MapReduce, ejecutándose en un ambiente de Cloud Computing, puede ser predicho utilizando un modelo matemático basado en especificaciones teóricas. Esta predicción se realiza para ayudar a los usuarios de un ambiente de Cloud Computing a planificar sus implementaciones, es decir, cuantificar el número de máquinas virtuales y sus características.
Después de medir el tiempo de ejecución de las aplicaciones y variando los parámetros establecidos por el modelo matemático, y seguidamente usando una técnica de regresión lineal, el objetivo se alcanza al encontrar un modelo del tiempo de ejecución que fue posteriormente aplicado para aplicaciones MapReduce. Los experimentos fueron realizados en diferentes configuraciones y mostraron una clara relación con el modelo teórico, mostrando así que el modelo es capaz de predecir el tiempo de ejecución de aplicaciones MapReduce. El modelo desarrollado es genérico, es decir que usa abstracciones teóricas para la capacidad de cómputo del ambiente y el costo computacional de la aplicacin MapReduce.
Descargas
Referencias
P. Mell and T. Grance, “The nist definition of cloud computing (draft),”NIST special publication, vol. 800, p. 145, 2011.
K. Yelick, S. Coghlan, B. Draney, R. S. Canonet al., “The magellanreport on cloud computing for science,”US Department of Energy Officeof Science, Office of Advanced Scientific Computing Research (ASCR)December, 2011.
J. Dean and S. Ghemawat, “Mapreduce: simplified data processing onlarge clusters,”Communications of the ACM, vol. 51, no. 1, pp. 107–113,2008.
S. Babu, “Towards automatic optimization of mapreduce programs,” inProceedings of the 1st ACM symposium on Cloud computing.ACM,2010, pp. 137–142.
H. Herodotou, F. Dong, and S. Babu, “No one (cluster) size fits all:automatic cluster sizing for data-intensive analytics,” inProceedings ofthe 2nd ACM Symposium on Cloud Computing. ACM, 2011, p. 18.
R. Boutaba, L. Cheng, and Q. Zhang, “On cloud computational modelsand the heterogeneity challenge,”Journal of Internet Services andApplications, vol. 3, no. 1, pp. 77–86, 2012.
I. Carrera Izurieta and C. Geyer, “Performance modeling ofmapreduce applications for the cloud,” Master’s thesis, UniversidadeFederaldoRioGrandedoSul,2014.[Online].Available:”http://hdl.handle.net/10183/99055”
I. Carrera and C. Geyer, “Impressionism in cloud computing. a positionpaper on capacity planning in cloud computing environments,” inPro-ceedings of the 15th International Conference on Enterprise InformationSystems (ICEIS). INSTICC, 2013, pp. 333–338.
H. Herodotou, “Hadoop performance models. technical reportcs-2011-05,”Duke Computer Science, 2011. [Online]. Available:”http://www.cs.duke.edu/starfish/files/hadoop-models.pdf”
F. Tian and K. Chen, “Towards optimal resource provisioning for runningmapreduce programs in public clouds,” inCloud Computing (CLOUD),2011 IEEE International Conference on. IEEE, 2011, pp. 155–162.
H. Karloff, S. Suri, and S. Vassilvitskii, “A model of computation formapreduce,” inProceedings of the Twenty-First Annual ACM-SIAMSymposium on Discrete Algorithms. Society for Industrial and AppliedMathematics, 2010, pp. 938–948.
D. Jiang, B. C. Ooi, L. Shi, and S. Wu, “The performance of mapreduce:An in-depth study,”Proceedings of the VLDB Endowment, vol. 3, no.1-2, pp. 472–483, 2010.
Hadoop, 2013, apache Hadoop https://www.grid5000.fr/ accessed on12/28/2013.
T. White,Hadoop: the definitive guide. O’Reilly, 2012.
K. Shvachko, H. Kuang, S. Radia, and R. Chansler, “The hadoopdistributed file system,” inMass Storage Systems and Technologies(MSST), 2010 IEEE 26th Symposium on. IEEE, 2010, pp. 1–10.
EMR, 2013, amazon Web Services - EMR Elastic MapReducehttp://aws.amazon.com/elasticmapreduce accessed on 07/23/2013.
EC2, 2013, amazon Web Services - EC2 Elastic Compute Cloudhttp://aws.amazon.com/ec2 accessed on 07/23/2013.
A. Iosup, S. Ostermann, M. N. Yigitbasi, R. Prodan, T. Fahringer,and D. H. Epema, “Performance analysis of cloud computing servicesfor many-tasks scientific computing,”Parallel and Distributed Systems,IEEE Transactions on, vol. 22, no. 6, pp. 931–945, 2011.
HDInsight, 2013, windowsAzureHDInsighthttp://azure.microsoft.com/en-us/documentation/services/hdinsight/accessed on 12/02/2014.
A. Sangroya, D. Serrano, and S. Bouchenak, “Benchmarking depend-ability of mapreduce systems,” inReliable Distributed Systems (SRDS),2012 IEEE 31st Symposium on. IEEE, 2012, pp. 21–30.
O. OMalley, “Terabyte sort on apache hadoop,”Yahoo, available onlineat: http://sortbenchmark. org/Yahoo-Hadoop. pdf, pp. 1–3, 2008.
I. Carrera, F. Scariot, P. Turin, and C. Geyer, “An example for perfor-mance prediction for map reduce applications in cloud environments,”inEscola Regional de Redes de Computadores ERRC - RS Rio Grandedo Sul, 2013.
R. Jain,The art of computer systems performance analysis. John Wiley& Sons Chichester, 1991, vol. 182.
R,R: A Language and Environment for Statistical Computing, RFoundation for Statistical Computing, Vienna, Austria, 2011, ISBN 3-900051-07-0 http://www.R-project.org/.
Descargas
Publicado
Número
Sección
Licencia
Aviso de derechos de autor/a
Los autores/as que publiquen en esta revista aceptan las siguientes condiciones:
- Los autores conservan los derechos de autor y ceden a la revista el derecho de la primera publicación, con el trabajo registrado con la Creative Commons Attribution-Non-Commercial-Share-Alike 4.0 International, que permite a terceros utilizar lo publicado siempre que mencionen la autoría del trabajo y a la primera publicación en esta revista.
- Los autores pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
- Se permite y recomienda a los autores a compartir su trabajo en línea (por ejemplo: en repositorios institucionales o páginas web personales) antes y durante el proceso de envío del manuscrito, ya que puede conducir a intercambios productivos, a una mayor y más rápida citación del trabajo publicado.
Descargo de Responsabilidad
LAJC en ningún caso será responsable de cualquier reclamo directo, indirecto, incidental, punitivo o consecuente de infracción de derechos de autor relacionado con artículos que han sido presentados para evaluación o publicados en cualquier número de esta revista. Más Información en nuestro Aviso de Descargo de Responsabilidad.