狠狠撸

狠狠撸Share a Scribd company logo
課題番号(Project ID): hp180078
有机ソフトクリスタルの弾性?光応答机构の解明
Elucidation of elastic and photo response
mechanisms of organic soft crystals
第6回「京」を中核とするHPCIシステム 利用研究課題 成果報告会
The Sixth Project Report Meeting of the HPCI System Including K computer
(一財)高度情報科学技術研究機構
河東田 道夫
Research Organization for Information Science and Technology (RIST)
Michio Katouda
課題概要 (abstract)
? 本課題ではソフトクリスタルの一種である有機エラスティック結晶を対象に、
外力を印加した際の弾性的な曲げ応答に起因する構造?発光色変化機構お
よび結晶間相互作用変化機構を「京」を用いた大規模第一原理DFT計算より
検討した。さらに、 「京」 で大規模ソフトクリスタル構造モデルを対象とした高
精度分子間相互作用計算を実現するために、RI-MP2エネルギー計算コード
の分散メモリ並列化の実装改良を行い、大規模分子モデルを対象に「京」で
ベンチマーク計算を行い性能評価を行った。
? In this project, we have investigated structure changes, photo luminescent
properties, and inter-molecular interactions of elastic bending of organic
elastic crystals, which is an example of soft crystals, by the large-scale first
principle density functional theory (DFT) calculations on K-computer. We have
developed a distributed memory version of RI-MP2 energy code for accurate
calculation of inter-molecular interactions of huge soft crystal models. We
have performed benchmark calculations of very large macro-molecular models
on K-computer and evaluate the performance of newly developed code.
2019.11.1 第6回HPCIシステム利用成果報告会 2
背景: ソフトクリスタルとは?
2019.11.1 第6回HPCIシステム利用成果報告会 3
弱い外部刺激
? 結晶性を保ちつつ、弱い外部刺激により構造と物性が変化する
? 物性変化が発光現象や光学特性の目に見える形で発現する
構造変化の活性化自由エネルギー?G
液体
生体?
ゲル
構造秩序
ソフトクリスタル
液晶
結晶
?G
A B
ソフトクリスタル
?Gが小さい
結晶
?Gが大きい
?G
A B
本課題で研究対象とした有機ソフトクリスタル
2019.11.1 第6回HPCIシステム利用成果報告会 4
	 > a
J
m
Angew. Chem. Int. Ed. 2016, 55, 2701.; Highlighted in atras of Science,
, from TBS, ; Mater. Stage 2017, 16, 66.; Sci. Rep. 2017, 7, 9453.;
π π A J
ip-stacked molecular wire Fibril Lamella
3C 4 4 “
m ” D ( E
λ = 500 nm,
D
mella
”
5 cm
4
2016年に林(防衛大)らにより、稠密性?異方性?柔軟性に優れる
有機ソフトクリスタルの一種であるエラスティック結晶の開発成果が報告
Hayashi et al. Angew. Chem. Int. Ed. 2016, 55, 2701, Hayashi et al. Sci. Rep. 2017, 7, 9453.
機械的刺激で形が柔軟に変化し発光色も変化
一方で、結晶間相互作用変化と構造?発光色変化の物理的機構は未解明
?「京」を用いた大規模密度汎関数理論(DFT)計算により物理的機構を解明
エラスティック結晶構造変化過程の大規模DFTシミュレーション
第6回HPCIシステム利用成果報告会2019.11.1 5
「京」を用いて大規模DFT計算を実施し、外力を印加した際の結晶構造変化を解析
? 分子間に働く非共有結合相互作用を考慮するためvDW-DF2汎関数を使用
? 計算コード: Quantum Espresso 5.4 (高度化支援(hp150186, hp160168)対応完了版)
? ハロゲン原子(フッ素F, 臭素Br)の導入により、ハロゲン-ハロゲン間, ハロゲン-H間,ハロゲン- π間相互
作用を巧妙に利用して結晶構造変化時の安定化が促進
? 構造変化した際に分子間のπ –π軌道の重なりが小さくなり発光色が変化
-130
-120
-110
-100
-90
-80
5 10 15
ポテンシャルエネルギー
[kcal/mol]
a軸長 [?]
a軸=18? (a軸方向伸長構造)
0
5
10
15
20
25
30
5 10 15
格子軸[?]
a軸長 [?]
a
b
c
a軸=10.93? (最安定構造)
格子軸長変化a軸方向伸長時のエネルギー変化
.com/scientificreports/
molecular wires in the single crystal is a key morphological characteristic for the elastic crystals (it is like a fibrous
organic single crystal). To advance the field of the intentional production of “elastic” and “fluorescent” organic
single crystals, design of molecules based on a tetrafluorophenylene core and thienyl unit17, 18
is promising.
Herein, we report the morphologies, optical properties and mechanical characteristics (flexibilities) of organic
single crystals based on tetrafluorobenzene–thiophene derivatives.
Results and Discussion
Thiophene–tetrafluorobenzene-thiophene derivatives (1, 2 and 3: Fig.?1) were synthesized by a Pd-catalyzed Stille
cross-coupling reaction of 1,4-dibromo-2,3,5,6-tetrafluorobenzene with 2-(tri-n-butyltin)thiophene or direct
Figure 1. Thiophene-tetrafluorobenzene derivatives 1, 2, and 3.
Figure 2. Synthesis of 1,4-bis(thien-2-yl)-2,4,5,6-tetrafluorobenzene, 1, 1,4-bis(5-methylthien-2-yl)-2,4,5,6-
tetrafluorobenzene, 2, and 1,4-bis(4-methylthien-2-yl)-2,4,5,6-tetrafluorobenzene, 3. (A) Stille cross-coupling:
3.0 equivalent of 2-(tri-n-butyltin)thiophenes, Pd(PPh3)4, toluene, 100°C, 24h. (B) Direct Arylation: 10
equivalent of thiophenes, PdCl2, 1AdCOOH, K2CO3, DMAc, 120°C, 2h.
有機ソフトクリスタル中の分子間相互作用計算
? vdW-DFTを用いることで、有機分子間相互作用エネルギーと
結晶構造を半定量的な精度で計算可能
? 対象となる結晶によっては、 vdW-DFT法を超えた精度での
計算が必要となるケースも存在
– 活性化エネルギーと相転移前後のエネルギー差が小さいため
– ダブルハイブリッドDFT、M?ller-Plesset 2次摂動法(MP2) 、Coupled Cluster法
などに基づく計算が有効
– 一方で計算コスト(O(N5)以上)と記憶領域使用量(O(N3)以上)が高いのが課題
– 特に局所的な構造の乱れを取り扱うために大規模結晶構造モデルの計算を
行う際に問題が深刻化
2019.11.1 第6回HPCIシステム利用成果報告会 6
「京」などのHPCIシステムを用いて、有機ソフトクリスタルの大規模モデルを用いた
高精度計算を行うことを目指して、ダブルハイブリッドDFTとMP2の超並列計算
アルゴリズムとコードの開発を実施
Resolution-of-identity MP2 (RI-MP2)法
? ダブルハイブリッドDFT法とMP2法の計算コストと記憶領域使用
量を減らすために、計算方法としてRI-MP2法を採用
? MP2法の計算で必要な4中心の分子積分をあらわに解かずに
Resolution-of-identity (RI) 近似積分を用いて計算
ia jb( )= Cσ b
Cνa
Cλ j
?ν λσ( )C?i
?
∑
λ
∑
ν
∑
σ
∑ ia jb( )= Bn
ia
Bn
jb
n
∑ , Bn
ia
= l n( )
?1/2
Cνa
C?i
?ν l( )?
∑
ν
∑
l
∑
従来法における厳密な分子積分計算
? 計算コスト O(N5) と記憶領域使用
量O(N3) が問題、大規模分子の計
算が困難
RI近似された分子積分計算
? 計算コストを大幅に削減可能
? 演算カーネルが大規模密行列の
行列-行列積となるため最適化
BLAS, LAPACKライブラリを用いて
高速計算が可能
第6回HPCIシステム利用成果報告会2019.11.1 7
E(2)
=
ia jb( ) 2 ia jb( )? ib ja( )"
#
$
%
εi +εj ?εa ?εbijab
∑MP2電子相関エネルギー (ダブルハイブリッド
DFTの電子相関エネルギーも類似式で計算)
「京」「Tsubame」全システム規模での計算に適した
RI-MP2超並列アルゴリズム?コード開発
MPIプロセス数が仮想軌道の数で制限
されるため、「京」「Tsubame」全ノード規模
を用いた並列計算が不可能
従来法よりもより多くのMPIプロセスを
用い、「京」「Tsubame」全ノード規模で
の並列計算を実現
0/0
1/0
2/0
3/0
4/0
N-1/0
:
0/1
1/1
2/1
3/1
4/1
N-1/1
:
0/2
1/2
2/2
3/2
4/2
N-1/2
:
0/3
1/3
2/3
3/3
4/3
N-1/3
:
ランク0
1
2
3
4
N-1
:
MPI並列:
仮想軌道
MPI並列
(第1次元):
仮想軌道
一次元MPI並列スキーム (従来法)
MK et al. J. Chem. Theory Comput., 2013, 9, 5373.
二次元MPI並列スキーム (本課題開始時)
MK et al. J. Comput. Chem., 2016, 37, 2623.
MPI並列(第2次元):行列演算
第6回HPCIシステム利用成果報告会2019.11.1 8
超並列RI-MP2コードの「京」での実行性能
2019.11.1 第6回HPCIシステム利用成果報告会 9
ノード CPUコア
実行時間
[秒] 高速化率
実行性能
[PFLOPs]
実行効率
[%]
8911 71288 2692 8911 0.7 62
17822 142576 1627 14742 1.2 54
35644 285152 1095 21906 2.0 44
44555 356440 955 25112 2.4 42
53466 427728 881 27209 2.6 37
71288 570304 783 30656 2.9 32
80199 641592 759 31612 3.1 30
ナノグラフェン2量体 (C150H30)2 RI-MP2/cc-pVTZ (9840 原子軌道, 930 占有軌道, 8910 仮想軌道)
「京」全ノード規模まで良好な並列性能を達成
「京」80,199ノードを用いて実効性能3.1 PFLOPs (実行効率30%)を達成
0
17822
35644
53466
71288
0 17822 35644 53466 71288
高速化倍率
ノード数
RI-MP2コードのGPU実装とCPU-GPU間通信の最適化
Loop bProc (MPI parallel)
Sending
jb
nB to Myrank- bProc + 1 process
Sending
jb
nB from CPU to GPU
Receiving
jb
nB from Myrank+ bProc + 1 process
Sending
jb
nB from CPU to GPU
Loop a Myrank (MPI parallel)
Receiving 4c-2e integral (ia | jb)P from GPU to CPU
Allreduce 4c-2e integral
(ia | jb) = (ia | jb)P
P
∑
Evaluation of MP2 correlation energy E(2)
(OpenMP parallel)
End Loop a
End Loop bProc
? GPU実装はCUDAを用いて実装
? 三中心積分および四中心積分計算の
際の行列-行列積計算を、CuBLASを
用いGPUにオフロードして処理を実行
Evaluation of 4c-2e integral
(ia | jb)P
= Bn
ia
Bn
jb
n∈Myrank
∑
(CuBLASDGEMM)
ホスト: CPU
デバイス: GPU
? pinned memory を用いてCPU-GPUデータ通信を
高速に実行
CUDA streamを用いて次のループ
回転で使うデータを先送り
第6回HPCIシステム利用成果報告会2019.11.1 10
GPU対応RI-MP2コードの「TSUBAME2.5」での実行性能
2019.11.1 第6回HPCIシステム利用成果報告会 11
TSUBAME2.5 1349 ノード, CPU: Intel Xeon 5670 (6 コア) x 2, GPU: NVIDIA Tesla K20X (3GPU/ノード) CPU: 1349 MPI プロセス& 12 スレッド,
GPU: 4047 MPI プロセス (3 MPI プロセス/ノード) & 4 スレッド (C96H24)2 RI-MP2/cc-pVTZ (6432 原子軌道, 600 占有軌道, 5832 仮想軌道,
16992 補助基底関数)
0
500
1000
1500
2000
2500
3000
CPU CPU/GPU
実行時間[秒]
Others
EMP2 corr.
4c Ints comm.
4c Ints
3/3k 2cints comm
3/3 tran3c2 tran
2/3 tran3c2 comm
RIInt2_Inv2c
RIInt2c comm
RIInt2c calc
2/3 tran3c1 comm
2/3 tran3c1
1/3 tran3c1
3c-RIInt comm
3c-RIInt
x4.9 高速化4c ints
2047 秒
87.5 TFLOPs
419 秒
514.7 TFLOPs
CPU-GPUハイブリッドシステムを用いた大規模超並列計算を実現
本課題実施前のRI-MP2コードの問題点
? 補助基底の行列をレプリカで保持するため、巨大系の計算の際に
メモリが不足
? 演算量?実行時間の見積では700原子、20,000原子軌道を含む分
子の計算を「京」全ノードを使用すれば実行することが可能
– 「京」全ノード(82,944ノード)使用で約18時間
– 一方で、メモリはノードあたり約32GB必要
? 本研究では、従来コードのメモリボトルネックを克服するために、
行列演算の分散メモリ並列実装を実施
第6回HPCIシステム利用成果報告会2019.11.1 12
「京」で計算可能と見積もられた最大規模の分子の例:
ナノグラフェン4量体 (C150H30)4 (720原子, 19680原子軌道*)
*cc-pVTZ基底関数を使用
分散メモリ並列化によるRI-MP2コードの改良
ランク 0
ランク 0 1 2 3
これまでの行列演算実装
(コレスキー分解、逆行列計算)
本課題で実施した
分散メモリ並列化
? メモリ使用量を削減し従来は不可能な
問題を実現可能
? 演算の並列化による実行性能向上
? 計算に必要なノードあたりのメモリ量:
8.1 GB
? 「京」のノードあたりのメモリ量の制約(16GB)の
ため20000原子軌道の計算を実施不可能
? 計算に必要なノードあたりのメモリ量: 31.9 GB
代表ランクで行列データを保持し
スレッド並列化
行列データをブロック分割し各ノード
毎にデータを分割し演算をMPI並列化
A00 A01 A02 A03
A11 A12 A13
A22 A23
A33
!
"
#
#
#
#
#
$
%
&
&
&
&
&
A00 A01 A02 A03
A11 A12 A13
A22 A23
A33
!
"
#
#
#
#
#
$
%
&
&
&
&
&
第6回HPCIシステム利用成果報告会2019.11.1 13
ブロックコレスキー分解の分散メモリ並列実装
A00 A01 A02 A03
A11 A12 A13
A22 A23
A33
!
"
#
#
#
#
#
$
%
&
&
&
&
&
ランク 0 1 2 3 ランク 0 1 2 3
U00 A01 A02 A03
A11 A12 A13
A22 A23
A33
!
"
#
#
#
#
#
$
%
&
&
&
&
&
ピボット位置: Irank = 0
A00 = U00
T
U00
ランク 0 1 2 3
U00 A01 A02 A03
A11 A12 A13
A22 A23
A33
!
"
#
#
#
#
#
$
%
&
&
&
&
&
ランク 0 1 2 3
U00 U01 U02 U03
A11 A12 A13
A22 A23
A33
!
"
#
#
#
#
#
$
%
&
&
&
&
&
ピボット位置: Irank = 1に
移動、以下繰り返し
U01 = U00
?1
( )
T
A01
MPI_Bcast U00
?1
ランク 0 1 2 3
U00 U01 U02 U03
!A11 !A12 !A13
!A22 !A23
!A33
"
#
$
$
$
$
$
%
&
'
'
'
'
'
U02 = U00
?1
( )
T
A02
ランク 0 1 2 3
U00 U01 U02 U03
!A11 !A12 !A13
!A22 !A23
!A33
"
#
$
$
$
$
$
%
&
'
'
'
'
'
!A11 ← A11 ? U01
T
U01 !A12 ← A12 ? U01
T
U02
第6回HPCIシステム利用成果報告会2019.11.1 14
上三角行列を列方向にブロック分割し、各ブロックをサブコミュニケータに割付
上三角行列の逆行列計算の分散メモリ並列実装
第6回HPCIシステム利用成果報告会2019.11.1 15
上三角行列を列方向にブロック分割し、各ブロックをサブコミュニケータに割付
ピボット位置: Irank = 0
ランク 0 1 2 3 ランク 0 1 2 3
V00 = U00
?1
ランク 0 1 2 3 ランク 0 1 2 3
ピボット位置を
Irank = 1に移動
!U01 = ?V00U01
MPI_Bcast V00
ランク 0 1 2 3
V00 !U01 !U02 !U03
U11 U12 U13
U22 U23
U33
"
#
$
$
$
$
$
%
&
'
'
'
'
'
!U02 = ?V00U02
V01 = !U01V11
ピボット位置: Irank = 1
ピボット位置をIrank = 2
に移動し、Irank = 1と
同じ操作を繰り返し
!U12 = ?V11U12MPI_Bcast V11
!!U02 = !U02 + !U01U12
V00 !U01 !U02 !U03
U11 U12 U13
U22 U23
U33
"
#
$
$
$
$
$
%
&
'
'
'
'
'
V00 U01 U02 U03
U11 U12 U13
U22 U23
U33
!
"
#
#
#
#
#
$
%
&
&
&
&
&
U00 U01 U02 U03
0 U11 U12 U13
0 0 U22 U23
0 0 0 U33
!
"
#
#
#
#
#
$
%
&
&
&
&
&
V00 U01 U02 U03
U11 U12 U13
U22 U23
U33
!
"
#
#
#
#
#
$
%
&
&
&
&
&
V00 V01 !U02 !U03
V11 U12 U13
U22 U23
U33
"
#
$
$
$
$
$
%
&
'
'
'
'
'
ランク 0 1 2 3 ランク 0 1 2 3 ランク 0 1 2 3 ランク 0 1 2 3 ランク 0 1 2 3
V00 V01 !!U02 !!U03
V11 U12 U13
U22 U23
U33
"
#
$
$
$
$
$
%
&
'
'
'
'
'
V00 V01 !!U02 !!U03
V11 !U12 !U13
U22 U23
U33
"
#
$
$
$
$
$
%
&
'
'
'
'
'
V00 V01 !!U02 !!U03
V11 !U12 !U13
U22 U23
U33
"
#
$
$
$
$
$
%
&
'
'
'
'
'
V00 V01 !U02 !U03
0 V11 U12 U13
0 0 U22 U23
0 0 0 U33
"
#
$
$
$
$
$
%
&
'
'
'
'
'
RI-MP2コード改良版の「京」での実行性能
2019.11.1 第6回HPCIシステム利用成果報告会 16
ノード CPUコア 実行時間
[秒]
高速化率 実行性能
[PFLOPs]
実行効率
[%]
24576 196608 8513 24576 NA NA
49152 393216 6035 34671 2.3 37
61440 491520 5514 37945 2.5 32
82944 663552 4141 50527 3.4 31
ナノグラフェン3量体 (C150H30)3 RI-MP2/cc-pVTZ
(14760原子軌道, 1395 占有軌道, 13365 仮想軌道, 39150 補助基底関数)
?以前の「京」での最高記録の1.5倍の問題規模の計算を実施
従来コードでは実行不可能な問題規模(分子サイズ)の計算を「京」で実現
「京」全ノード規模まで良好な並列性能を達成
「京」82,944ノードを用いて実効性能3.4 PFLOPs (実行効率31%)を達成
0
24576
49152
73728
0 24576 49152 73728
高速化倍率
ノード数
「京」全ノードを用いた最大規模のRI-MP2計算
2019.11.1 第6回HPCIシステム利用成果報告会 17
演算区間 ジョブ実行時間[分] メモリ使用量 [GB]
分割前 分割後
三中心積分計算1 11.3 31.9 4.6
三中心積分計算2 9.0 23.3 8.1
四中心積分?MP2エネルギー計算 38.6 0.8 0.8
16分割したサブジョブあたりの実行時間と「京」1ノードあたりのメモリ使用量
「京」82,944ノードを用いて以前の2倍のサイズの分子の計算に成功
ナノグラフェン4量体 (C150H30)4 (720原子, 19680原子軌道)*
16分割したサブジョブあたりの計算時間: 約1時間
?「京」全ノードを用いれば 1[時間/サブジョブ]×16[サブジョブ]=16[時間]で計算可能
まとめ
? 「京」を用いてエラスティック結晶の大規模DFT計算を実施し、外力を印加した際
の結晶間相互作用変化と構造?発光色変化の物理的機構を解析
– ハロゲン原子(フッ素I, 臭素Br)の導入により、ハロゲン-ハロゲン間, ハロゲン-H間,ハ
ロゲン- π間相互作用を巧妙に利用して結晶構造変化時の安定化を促進
– 構造変化した際に分子間のπ –π軌道の重なりが小さくなり発光色が変化
? ソフトクリスタル大規模計算モデルの分子間相互作用計算を「京」で実現するた
め、RI-MP2超並列計算コードの改良を実施
– 大サイズ行列の行列演算(コレスキー分解、逆行列計算)の分散メモリ並列化を実施
– 従来コードでは実行不可能な問題規模(2倍の分子サイズ)の計算を「京」で実現
– 「京」全ノード(82,944ノード)を用いて良好な並列性能?実行性能を達成 (実効性能
3.4 PFLOPs (実行効率31%)を達成)
2019.11.1 第6回HPCIシステム利用成果報告会 18

More Related Content

有机ソフトクリスタルの弾性?光応答机构の解明

  • 1. 課題番号(Project ID): hp180078 有机ソフトクリスタルの弾性?光応答机构の解明 Elucidation of elastic and photo response mechanisms of organic soft crystals 第6回「京」を中核とするHPCIシステム 利用研究課題 成果報告会 The Sixth Project Report Meeting of the HPCI System Including K computer (一財)高度情報科学技術研究機構 河東田 道夫 Research Organization for Information Science and Technology (RIST) Michio Katouda
  • 2. 課題概要 (abstract) ? 本課題ではソフトクリスタルの一種である有機エラスティック結晶を対象に、 外力を印加した際の弾性的な曲げ応答に起因する構造?発光色変化機構お よび結晶間相互作用変化機構を「京」を用いた大規模第一原理DFT計算より 検討した。さらに、 「京」 で大規模ソフトクリスタル構造モデルを対象とした高 精度分子間相互作用計算を実現するために、RI-MP2エネルギー計算コード の分散メモリ並列化の実装改良を行い、大規模分子モデルを対象に「京」で ベンチマーク計算を行い性能評価を行った。 ? In this project, we have investigated structure changes, photo luminescent properties, and inter-molecular interactions of elastic bending of organic elastic crystals, which is an example of soft crystals, by the large-scale first principle density functional theory (DFT) calculations on K-computer. We have developed a distributed memory version of RI-MP2 energy code for accurate calculation of inter-molecular interactions of huge soft crystal models. We have performed benchmark calculations of very large macro-molecular models on K-computer and evaluate the performance of newly developed code. 2019.11.1 第6回HPCIシステム利用成果報告会 2
  • 3. 背景: ソフトクリスタルとは? 2019.11.1 第6回HPCIシステム利用成果報告会 3 弱い外部刺激 ? 結晶性を保ちつつ、弱い外部刺激により構造と物性が変化する ? 物性変化が発光現象や光学特性の目に見える形で発現する 構造変化の活性化自由エネルギー?G 液体 生体? ゲル 構造秩序 ソフトクリスタル 液晶 結晶 ?G A B ソフトクリスタル ?Gが小さい 結晶 ?Gが大きい ?G A B
  • 4. 本課題で研究対象とした有機ソフトクリスタル 2019.11.1 第6回HPCIシステム利用成果報告会 4 > a J m Angew. Chem. Int. Ed. 2016, 55, 2701.; Highlighted in atras of Science, , from TBS, ; Mater. Stage 2017, 16, 66.; Sci. Rep. 2017, 7, 9453.; π π A J ip-stacked molecular wire Fibril Lamella 3C 4 4 “ m ” D ( E λ = 500 nm, D mella ” 5 cm 4 2016年に林(防衛大)らにより、稠密性?異方性?柔軟性に優れる 有機ソフトクリスタルの一種であるエラスティック結晶の開発成果が報告 Hayashi et al. Angew. Chem. Int. Ed. 2016, 55, 2701, Hayashi et al. Sci. Rep. 2017, 7, 9453. 機械的刺激で形が柔軟に変化し発光色も変化 一方で、結晶間相互作用変化と構造?発光色変化の物理的機構は未解明 ?「京」を用いた大規模密度汎関数理論(DFT)計算により物理的機構を解明
  • 5. エラスティック結晶構造変化過程の大規模DFTシミュレーション 第6回HPCIシステム利用成果報告会2019.11.1 5 「京」を用いて大規模DFT計算を実施し、外力を印加した際の結晶構造変化を解析 ? 分子間に働く非共有結合相互作用を考慮するためvDW-DF2汎関数を使用 ? 計算コード: Quantum Espresso 5.4 (高度化支援(hp150186, hp160168)対応完了版) ? ハロゲン原子(フッ素F, 臭素Br)の導入により、ハロゲン-ハロゲン間, ハロゲン-H間,ハロゲン- π間相互 作用を巧妙に利用して結晶構造変化時の安定化が促進 ? 構造変化した際に分子間のπ –π軌道の重なりが小さくなり発光色が変化 -130 -120 -110 -100 -90 -80 5 10 15 ポテンシャルエネルギー [kcal/mol] a軸長 [?] a軸=18? (a軸方向伸長構造) 0 5 10 15 20 25 30 5 10 15 格子軸[?] a軸長 [?] a b c a軸=10.93? (最安定構造) 格子軸長変化a軸方向伸長時のエネルギー変化 .com/scientificreports/ molecular wires in the single crystal is a key morphological characteristic for the elastic crystals (it is like a fibrous organic single crystal). To advance the field of the intentional production of “elastic” and “fluorescent” organic single crystals, design of molecules based on a tetrafluorophenylene core and thienyl unit17, 18 is promising. Herein, we report the morphologies, optical properties and mechanical characteristics (flexibilities) of organic single crystals based on tetrafluorobenzene–thiophene derivatives. Results and Discussion Thiophene–tetrafluorobenzene-thiophene derivatives (1, 2 and 3: Fig.?1) were synthesized by a Pd-catalyzed Stille cross-coupling reaction of 1,4-dibromo-2,3,5,6-tetrafluorobenzene with 2-(tri-n-butyltin)thiophene or direct Figure 1. Thiophene-tetrafluorobenzene derivatives 1, 2, and 3. Figure 2. Synthesis of 1,4-bis(thien-2-yl)-2,4,5,6-tetrafluorobenzene, 1, 1,4-bis(5-methylthien-2-yl)-2,4,5,6- tetrafluorobenzene, 2, and 1,4-bis(4-methylthien-2-yl)-2,4,5,6-tetrafluorobenzene, 3. (A) Stille cross-coupling: 3.0 equivalent of 2-(tri-n-butyltin)thiophenes, Pd(PPh3)4, toluene, 100°C, 24h. (B) Direct Arylation: 10 equivalent of thiophenes, PdCl2, 1AdCOOH, K2CO3, DMAc, 120°C, 2h.
  • 6. 有機ソフトクリスタル中の分子間相互作用計算 ? vdW-DFTを用いることで、有機分子間相互作用エネルギーと 結晶構造を半定量的な精度で計算可能 ? 対象となる結晶によっては、 vdW-DFT法を超えた精度での 計算が必要となるケースも存在 – 活性化エネルギーと相転移前後のエネルギー差が小さいため – ダブルハイブリッドDFT、M?ller-Plesset 2次摂動法(MP2) 、Coupled Cluster法 などに基づく計算が有効 – 一方で計算コスト(O(N5)以上)と記憶領域使用量(O(N3)以上)が高いのが課題 – 特に局所的な構造の乱れを取り扱うために大規模結晶構造モデルの計算を 行う際に問題が深刻化 2019.11.1 第6回HPCIシステム利用成果報告会 6 「京」などのHPCIシステムを用いて、有機ソフトクリスタルの大規模モデルを用いた 高精度計算を行うことを目指して、ダブルハイブリッドDFTとMP2の超並列計算 アルゴリズムとコードの開発を実施
  • 7. Resolution-of-identity MP2 (RI-MP2)法 ? ダブルハイブリッドDFT法とMP2法の計算コストと記憶領域使用 量を減らすために、計算方法としてRI-MP2法を採用 ? MP2法の計算で必要な4中心の分子積分をあらわに解かずに Resolution-of-identity (RI) 近似積分を用いて計算 ia jb( )= Cσ b Cνa Cλ j ?ν λσ( )C?i ? ∑ λ ∑ ν ∑ σ ∑ ia jb( )= Bn ia Bn jb n ∑ , Bn ia = l n( ) ?1/2 Cνa C?i ?ν l( )? ∑ ν ∑ l ∑ 従来法における厳密な分子積分計算 ? 計算コスト O(N5) と記憶領域使用 量O(N3) が問題、大規模分子の計 算が困難 RI近似された分子積分計算 ? 計算コストを大幅に削減可能 ? 演算カーネルが大規模密行列の 行列-行列積となるため最適化 BLAS, LAPACKライブラリを用いて 高速計算が可能 第6回HPCIシステム利用成果報告会2019.11.1 7 E(2) = ia jb( ) 2 ia jb( )? ib ja( )" # $ % εi +εj ?εa ?εbijab ∑MP2電子相関エネルギー (ダブルハイブリッド DFTの電子相関エネルギーも類似式で計算)
  • 8. 「京」「Tsubame」全システム規模での計算に適した RI-MP2超並列アルゴリズム?コード開発 MPIプロセス数が仮想軌道の数で制限 されるため、「京」「Tsubame」全ノード規模 を用いた並列計算が不可能 従来法よりもより多くのMPIプロセスを 用い、「京」「Tsubame」全ノード規模で の並列計算を実現 0/0 1/0 2/0 3/0 4/0 N-1/0 : 0/1 1/1 2/1 3/1 4/1 N-1/1 : 0/2 1/2 2/2 3/2 4/2 N-1/2 : 0/3 1/3 2/3 3/3 4/3 N-1/3 : ランク0 1 2 3 4 N-1 : MPI並列: 仮想軌道 MPI並列 (第1次元): 仮想軌道 一次元MPI並列スキーム (従来法) MK et al. J. Chem. Theory Comput., 2013, 9, 5373. 二次元MPI並列スキーム (本課題開始時) MK et al. J. Comput. Chem., 2016, 37, 2623. MPI並列(第2次元):行列演算 第6回HPCIシステム利用成果報告会2019.11.1 8
  • 9. 超並列RI-MP2コードの「京」での実行性能 2019.11.1 第6回HPCIシステム利用成果報告会 9 ノード CPUコア 実行時間 [秒] 高速化率 実行性能 [PFLOPs] 実行効率 [%] 8911 71288 2692 8911 0.7 62 17822 142576 1627 14742 1.2 54 35644 285152 1095 21906 2.0 44 44555 356440 955 25112 2.4 42 53466 427728 881 27209 2.6 37 71288 570304 783 30656 2.9 32 80199 641592 759 31612 3.1 30 ナノグラフェン2量体 (C150H30)2 RI-MP2/cc-pVTZ (9840 原子軌道, 930 占有軌道, 8910 仮想軌道) 「京」全ノード規模まで良好な並列性能を達成 「京」80,199ノードを用いて実効性能3.1 PFLOPs (実行効率30%)を達成 0 17822 35644 53466 71288 0 17822 35644 53466 71288 高速化倍率 ノード数
  • 10. RI-MP2コードのGPU実装とCPU-GPU間通信の最適化 Loop bProc (MPI parallel) Sending jb nB to Myrank- bProc + 1 process Sending jb nB from CPU to GPU Receiving jb nB from Myrank+ bProc + 1 process Sending jb nB from CPU to GPU Loop a Myrank (MPI parallel) Receiving 4c-2e integral (ia | jb)P from GPU to CPU Allreduce 4c-2e integral (ia | jb) = (ia | jb)P P ∑ Evaluation of MP2 correlation energy E(2) (OpenMP parallel) End Loop a End Loop bProc ? GPU実装はCUDAを用いて実装 ? 三中心積分および四中心積分計算の 際の行列-行列積計算を、CuBLASを 用いGPUにオフロードして処理を実行 Evaluation of 4c-2e integral (ia | jb)P = Bn ia Bn jb n∈Myrank ∑ (CuBLASDGEMM) ホスト: CPU デバイス: GPU ? pinned memory を用いてCPU-GPUデータ通信を 高速に実行 CUDA streamを用いて次のループ 回転で使うデータを先送り 第6回HPCIシステム利用成果報告会2019.11.1 10
  • 11. GPU対応RI-MP2コードの「TSUBAME2.5」での実行性能 2019.11.1 第6回HPCIシステム利用成果報告会 11 TSUBAME2.5 1349 ノード, CPU: Intel Xeon 5670 (6 コア) x 2, GPU: NVIDIA Tesla K20X (3GPU/ノード) CPU: 1349 MPI プロセス& 12 スレッド, GPU: 4047 MPI プロセス (3 MPI プロセス/ノード) & 4 スレッド (C96H24)2 RI-MP2/cc-pVTZ (6432 原子軌道, 600 占有軌道, 5832 仮想軌道, 16992 補助基底関数) 0 500 1000 1500 2000 2500 3000 CPU CPU/GPU 実行時間[秒] Others EMP2 corr. 4c Ints comm. 4c Ints 3/3k 2cints comm 3/3 tran3c2 tran 2/3 tran3c2 comm RIInt2_Inv2c RIInt2c comm RIInt2c calc 2/3 tran3c1 comm 2/3 tran3c1 1/3 tran3c1 3c-RIInt comm 3c-RIInt x4.9 高速化4c ints 2047 秒 87.5 TFLOPs 419 秒 514.7 TFLOPs CPU-GPUハイブリッドシステムを用いた大規模超並列計算を実現
  • 12. 本課題実施前のRI-MP2コードの問題点 ? 補助基底の行列をレプリカで保持するため、巨大系の計算の際に メモリが不足 ? 演算量?実行時間の見積では700原子、20,000原子軌道を含む分 子の計算を「京」全ノードを使用すれば実行することが可能 – 「京」全ノード(82,944ノード)使用で約18時間 – 一方で、メモリはノードあたり約32GB必要 ? 本研究では、従来コードのメモリボトルネックを克服するために、 行列演算の分散メモリ並列実装を実施 第6回HPCIシステム利用成果報告会2019.11.1 12 「京」で計算可能と見積もられた最大規模の分子の例: ナノグラフェン4量体 (C150H30)4 (720原子, 19680原子軌道*) *cc-pVTZ基底関数を使用
  • 13. 分散メモリ並列化によるRI-MP2コードの改良 ランク 0 ランク 0 1 2 3 これまでの行列演算実装 (コレスキー分解、逆行列計算) 本課題で実施した 分散メモリ並列化 ? メモリ使用量を削減し従来は不可能な 問題を実現可能 ? 演算の並列化による実行性能向上 ? 計算に必要なノードあたりのメモリ量: 8.1 GB ? 「京」のノードあたりのメモリ量の制約(16GB)の ため20000原子軌道の計算を実施不可能 ? 計算に必要なノードあたりのメモリ量: 31.9 GB 代表ランクで行列データを保持し スレッド並列化 行列データをブロック分割し各ノード 毎にデータを分割し演算をMPI並列化 A00 A01 A02 A03 A11 A12 A13 A22 A23 A33 ! " # # # # # $ % & & & & & A00 A01 A02 A03 A11 A12 A13 A22 A23 A33 ! " # # # # # $ % & & & & & 第6回HPCIシステム利用成果報告会2019.11.1 13
  • 14. ブロックコレスキー分解の分散メモリ並列実装 A00 A01 A02 A03 A11 A12 A13 A22 A23 A33 ! " # # # # # $ % & & & & & ランク 0 1 2 3 ランク 0 1 2 3 U00 A01 A02 A03 A11 A12 A13 A22 A23 A33 ! " # # # # # $ % & & & & & ピボット位置: Irank = 0 A00 = U00 T U00 ランク 0 1 2 3 U00 A01 A02 A03 A11 A12 A13 A22 A23 A33 ! " # # # # # $ % & & & & & ランク 0 1 2 3 U00 U01 U02 U03 A11 A12 A13 A22 A23 A33 ! " # # # # # $ % & & & & & ピボット位置: Irank = 1に 移動、以下繰り返し U01 = U00 ?1 ( ) T A01 MPI_Bcast U00 ?1 ランク 0 1 2 3 U00 U01 U02 U03 !A11 !A12 !A13 !A22 !A23 !A33 " # $ $ $ $ $ % & ' ' ' ' ' U02 = U00 ?1 ( ) T A02 ランク 0 1 2 3 U00 U01 U02 U03 !A11 !A12 !A13 !A22 !A23 !A33 " # $ $ $ $ $ % & ' ' ' ' ' !A11 ← A11 ? U01 T U01 !A12 ← A12 ? U01 T U02 第6回HPCIシステム利用成果報告会2019.11.1 14 上三角行列を列方向にブロック分割し、各ブロックをサブコミュニケータに割付
  • 15. 上三角行列の逆行列計算の分散メモリ並列実装 第6回HPCIシステム利用成果報告会2019.11.1 15 上三角行列を列方向にブロック分割し、各ブロックをサブコミュニケータに割付 ピボット位置: Irank = 0 ランク 0 1 2 3 ランク 0 1 2 3 V00 = U00 ?1 ランク 0 1 2 3 ランク 0 1 2 3 ピボット位置を Irank = 1に移動 !U01 = ?V00U01 MPI_Bcast V00 ランク 0 1 2 3 V00 !U01 !U02 !U03 U11 U12 U13 U22 U23 U33 " # $ $ $ $ $ % & ' ' ' ' ' !U02 = ?V00U02 V01 = !U01V11 ピボット位置: Irank = 1 ピボット位置をIrank = 2 に移動し、Irank = 1と 同じ操作を繰り返し !U12 = ?V11U12MPI_Bcast V11 !!U02 = !U02 + !U01U12 V00 !U01 !U02 !U03 U11 U12 U13 U22 U23 U33 " # $ $ $ $ $ % & ' ' ' ' ' V00 U01 U02 U03 U11 U12 U13 U22 U23 U33 ! " # # # # # $ % & & & & & U00 U01 U02 U03 0 U11 U12 U13 0 0 U22 U23 0 0 0 U33 ! " # # # # # $ % & & & & & V00 U01 U02 U03 U11 U12 U13 U22 U23 U33 ! " # # # # # $ % & & & & & V00 V01 !U02 !U03 V11 U12 U13 U22 U23 U33 " # $ $ $ $ $ % & ' ' ' ' ' ランク 0 1 2 3 ランク 0 1 2 3 ランク 0 1 2 3 ランク 0 1 2 3 ランク 0 1 2 3 V00 V01 !!U02 !!U03 V11 U12 U13 U22 U23 U33 " # $ $ $ $ $ % & ' ' ' ' ' V00 V01 !!U02 !!U03 V11 !U12 !U13 U22 U23 U33 " # $ $ $ $ $ % & ' ' ' ' ' V00 V01 !!U02 !!U03 V11 !U12 !U13 U22 U23 U33 " # $ $ $ $ $ % & ' ' ' ' ' V00 V01 !U02 !U03 0 V11 U12 U13 0 0 U22 U23 0 0 0 U33 " # $ $ $ $ $ % & ' ' ' ' '
  • 16. RI-MP2コード改良版の「京」での実行性能 2019.11.1 第6回HPCIシステム利用成果報告会 16 ノード CPUコア 実行時間 [秒] 高速化率 実行性能 [PFLOPs] 実行効率 [%] 24576 196608 8513 24576 NA NA 49152 393216 6035 34671 2.3 37 61440 491520 5514 37945 2.5 32 82944 663552 4141 50527 3.4 31 ナノグラフェン3量体 (C150H30)3 RI-MP2/cc-pVTZ (14760原子軌道, 1395 占有軌道, 13365 仮想軌道, 39150 補助基底関数) ?以前の「京」での最高記録の1.5倍の問題規模の計算を実施 従来コードでは実行不可能な問題規模(分子サイズ)の計算を「京」で実現 「京」全ノード規模まで良好な並列性能を達成 「京」82,944ノードを用いて実効性能3.4 PFLOPs (実行効率31%)を達成 0 24576 49152 73728 0 24576 49152 73728 高速化倍率 ノード数
  • 17. 「京」全ノードを用いた最大規模のRI-MP2計算 2019.11.1 第6回HPCIシステム利用成果報告会 17 演算区間 ジョブ実行時間[分] メモリ使用量 [GB] 分割前 分割後 三中心積分計算1 11.3 31.9 4.6 三中心積分計算2 9.0 23.3 8.1 四中心積分?MP2エネルギー計算 38.6 0.8 0.8 16分割したサブジョブあたりの実行時間と「京」1ノードあたりのメモリ使用量 「京」82,944ノードを用いて以前の2倍のサイズの分子の計算に成功 ナノグラフェン4量体 (C150H30)4 (720原子, 19680原子軌道)* 16分割したサブジョブあたりの計算時間: 約1時間 ?「京」全ノードを用いれば 1[時間/サブジョブ]×16[サブジョブ]=16[時間]で計算可能
  • 18. まとめ ? 「京」を用いてエラスティック結晶の大規模DFT計算を実施し、外力を印加した際 の結晶間相互作用変化と構造?発光色変化の物理的機構を解析 – ハロゲン原子(フッ素I, 臭素Br)の導入により、ハロゲン-ハロゲン間, ハロゲン-H間,ハ ロゲン- π間相互作用を巧妙に利用して結晶構造変化時の安定化を促進 – 構造変化した際に分子間のπ –π軌道の重なりが小さくなり発光色が変化 ? ソフトクリスタル大規模計算モデルの分子間相互作用計算を「京」で実現するた め、RI-MP2超並列計算コードの改良を実施 – 大サイズ行列の行列演算(コレスキー分解、逆行列計算)の分散メモリ並列化を実施 – 従来コードでは実行不可能な問題規模(2倍の分子サイズ)の計算を「京」で実現 – 「京」全ノード(82,944ノード)を用いて良好な並列性能?実行性能を達成 (実効性能 3.4 PFLOPs (実行効率31%)を達成) 2019.11.1 第6回HPCIシステム利用成果報告会 18