多核多线程技术OpenMP-实验报告2.docx

资源描述

《多核多线程技术OpenMP-实验报告2.docx》由会员分享，可在线阅读，更多相关《多核多线程技术OpenMP-实验报告2.docx（6页珍藏版）》请在优知文库上搜索。

1、实验二:QRenMP多线程编程模块一：根底练习3编译执行，执行结果：简答与思考:1写出关键的并行代码(1)四个线程各自执行6次迭代。#indudestdafx.h#includeint.tmain(intargcf_TCHAR*argv)Printf(HelloWorldn);#pragmaompparallelfor(inti=0;i6;i+)printf(nIter%dThread%dnlomp_get_thread_numO)；Printf(GoodByeWorldn);returnO;(2)四个线程协同完成6次迭代。#indudestdafx.h#includeint.tmain(in

2、targcf_TCHAR*argv)Printf(HelloWorldn);#pragmaompparallel#pragmaompforfor(inti=0;i6;i+)printf(Iter:%dThread%dn,i,omp_get一thread_numO);Printf(GoodByeWorldn);returnO;2附加练习：(1)编译执行下面的代码，写出两种可能的执行结果。iti=OJ二0;#Pragmaompparallelforfor(i=2;i7;i+)for(j-3;j5;j+)Printfri=%d,j=%dn,i,j);可能的结果：1种2种i=2,j=3i=2,j=3i

3、=2,厘i=2,ji=3sj=3i=3,j=3i=3sRi=3,Ii=6sj=3i=5,j=3i=6,厘i=5,ji=4,j=3i=5,j=3i=4,Ri=5?Ii=5sj=3i=6,j=3i=5,厘i=6,j(2)编译执行下面的代码，写出两种可能的执行结果。inti=0,j=0;for(i=2;i7;i+)#pragmaompparallelforfor(j=3;jv5;j+)Printfri=%d,j=%dn,i,j);可能的结果：1种2种i=2,j=3i=3j=3i=2,j=4i=2,曰i=3,j=3i=3,曰i=3,jEi=3,尸3i=4,j=3i=4,j=3i=4,j=4i=4,j=

4、4i=5,j=3i=5,j=4i=5,j=4i=5,j=3i=6,j=3i=6,j=3MjEi=6,j=4(3)分析上述两段代码的不同并行效果。1).代码，#pragmaompparallelfor*为并行区域只对外层循环起作用，因此外层循环/值出现的比拟随机。而#PragmaOmPparaIIelfor*对内层的循环不起作用，执行方式仍然是串行方式，于是内层循环的出现还是固定的先3后4。2).代码#Pragmaompparallelfor*只对内层循环起作用，对外层循环不起作用，因此外层循环是串行方式执行的，内层循环是多个线程共同并发执行的。因此/值的出现是随机的，J值的出现是有序的.3实验

5、总结。对于嵌套循环的，并行的结果只与并行化作用的循环有关，在每一个并行执行线程的内部，程序是继续按照顺序执行的。模块二：数值积分计算Pi值3编译执行，计算执行时间为：11.2000OOS6编译执行，计算执行时间为：5.1920OoS7加速比(写出计算公式)：11.200/5.1922.1578并行效率(写出计算公式)：2.157/4*(100%)/54%简答与思考：1如何进行并行化的？为什么？for循环被多个线程协同执行，因此变量X为多个线程的共享变，需要被私有化；s也是多个线程的共享变,也需要被私有话，但是SMS由于功能和效率的需要，最终结果需要相加，因此用reduction(+:Sum),

6、reduction会为每个线程创立一个私有的st装的副本，最终结果相加并且返回到孔m关键代码：(黄色局部已标记)/OpenMPPi.cpp:定义控制台应用程序的入口点。#include*stdafx.h*ttincludeincludeIonglongnumsteps=I000000000;doublestep;intmain()clock_tstart,stop;doublex,pi,sum=0.0;inti;step=I./(doub1e)num_steps;start=clock();pragmaompparalIelforreduction(+:sum),private(x)for(i

7、=0;Knumsteps;i+)x=(i+.5)*step;sum+=4.0/(1.+x*x);pi=sum*step;stop=clockO;printf(*ThevalueofPIis%15.12fn*,pi);printf(*ThetimetocalculatePlwas%fSeCondSn,(double)(stop-start)/1000.0);return0;2是否可以对该并行化方案进行进一步的优化？如何优化？效果如何？还可以在SUE+=4.0/（1.+x*x）;前面加上事件机制OPenMP临界区的编译指导语句#PragmaompCritiCal,但这样优化和采用规约的执行效果是一

8、样的。3是否有其他并行化方案？如何并行？效果如何？暂时没想到其他进一步优化方案。4实验总结当开发OPenMP程序时，针对出现在并行段的变,尤其是共享变,程序开发人员有必要告诉编译器那些变可以保持它的共享性，哪些变必须要转化为私有的。模块三：MonteCarlo计算Pi值2编译执行，Pi的值为：Pi=3.141821200计算执行时间为：SeCondS=4.5230000005编译执行，Pi的值为：Pi=3,141525100计算执行时间为：SeCondS=2.1880000006加速比（写出计算公式）：4,523/2.1882.0677并行效率（写出计算公式）：2.067/4*（100%）兰5

9、1.680%简答与思考：1如何进行并行化的？为什么？for循环被多个线程协同执行，因此变*,“fce期为多个线程的共享变,需要被私有化；dUnderCurve也是多个线程的共享变,也需要被私有话，但是（JUnderCurve值由于功能和效率的需要，最终结果需要相加，因此用reduction（+EUnderCurve）,reduction会为每个线程创立一个私有的（JUnderCurve变的副本，最终结果相加并且返回到dUnderCurve。同时要注意的是i和j也是每个线程各自的私有变,在一个线程对其操作是不允许其他线程的干扰，所以把其包含在#PragmaOmPfor指导语句中关键代码：（已用黄

10、色局部标记）#inc1ude*stdafX.h#include0include/VSLVariables#include*mkl_vsl.hdefineBRNGVSL_BRNG_MCG31defineMETHOD0MefineBLOCK_SIZE500int_tmain(intargc,_TCHAR*argv)Unsignedintiter=200000000;doublex;doubley;doub1edl)nderCurve=0.0;doublePi=O+0;douhleend-time1.start_time;starttime=clock();/youneedaprivatecopyo

11、fwholearrayforeachthreadVSLStFeamStatePtrstream;/Youneedonestreamforeachthreadpragmaompparallelprivate(xfy,stream)reduction(+:dUnderCurve)doub1erBLOCK_SIZE*2;/Carefu1111vs1NewStream(&strearn,BRNGt(int)clock();pragmaompforfor(intj=0;jstream,BL0CK_SIZE*2,r0.0,L0)：/Createrandomnumbersintoarrayrfor(inti

12、=O;iBLOK_SIZE:i+)x=ri;/XCoordinatey=ri+BLOCK_SIZE;/YCoordinateif(x*x+y*y=L0)dUnderCurve+：/isdistancefromOriginunderCurveVslDeleteStream(stream);pi二dUnderCurve/(double)iter*4：end_time=c1ockO;printf(*pi二10*9frpi)：printf(*Secods=%10.9fn*5(double)(end_time-start_time)/1000.0);return0;2是否可以对该并行化方案进行进一步的优化？如何优化？效果如何？逐可以在dUnderCurve+;前面加上事件机制OPenMP临界区的编译指导语句#PragmaOmPCriti81,但这样优化和采用规约的执行效果是一样的。3是否有其他并行化方案？如何并行？效果如何？暂时没想到其他进一步优化方案。4实验总结通过本次试验我的收获还是很多的比方掌握了OPenMP的根本功能、构成方式、句法及OPenMP体系结构、特点与组成以及采用OPenMP进行多线程编程的根本使用和调试方法。

展开阅读全文