수식을 요약하자면 여러번의 에피소드를 해당 정책에 따라 수행했을 때 발생하는 누적 보상 기대 값이다. 하지만 위 수식은 현실적으로 불가능하다. 이유는 해당 정책에 대한 모든 궤적을 실제로 구할 수 없기 때문이다.
현실적으로 타협한 방법
따라서 에이전트가 직접 환경과 상호작용하여 샘플링한 데이터를 수집하는 방법으로 가능하다.
목적 함수 최대화하기
목적 함수를 최대화하기 위해 사용한 방법은 'Policy Gradient Theorm' 이다. 직관적으로 말하자면 목적 함수의 Gradient 를 구해서 Gradent ascent를 하는 방법으로 목적 함수를 최대화 한다는 것이다.
목적 함수의 미분
하지만 문제가 있다. 미분을 해야하는데 수식에 기대값 항이 있다. 우리의 목표는 모든 궤적에 대한 누적 보상값을 최대화 하는 것이라서 기대값은 빠질수 없다. 그래서 이를 해결하기위해 강화학습을 연구하는 사람들이 아래 수식으로 유도했다.
수식 유도에 필요한 지식은 'log 성질, 미분 간단한 지식, Likelihood Ratio Trick' 이다.
이렇게 유도하여 기대값은 그대로 두고 미분항을 log 항으로 옮겼다.
가장 아래에서 세번째 수식에서 두번째 수식으로 갈때에는 Casuality를 고려하여 t' < t 에서의 보상값에 영향을 끼치지 못한다는 점을 고려하여 수식을 재구성할 수 있다.
아래는 위 수식에 대한 python 코드이다.
for episode in range(1000):
log_probs, rewards = sample_episode(env, policy_net)
returns = compute_returns(rewards)
###
# Policy Gradient Loss: -∑(G_t * log_prob)
# loss += -log_prob * G :
# 1. loss 값에 모두 더하는 이유는 기대 값 때문
# 2. log_prob에 -를 취하는 이유는 Gradient ascent를 하기위함 (pytorch의 backward 함수 설명 참고)
# 3. log_prob에 미분항은 어디에?? loss.backward 수행시 자동으로 계산해줌 (pytorch backward 함수 설명 참고)
###
loss = 0
for log_prob, G in zip(log_probs, returns):
loss += -log_prob * G
optimizer.zero_grad()
loss.backward()
optimizer.step()
코드상에서는 log 항에 대한 미분이 안보이지만 이는 pytorch 내부적으로 자동으로 backward 수행시 자동적으로 미분 계산 해준다. 코드는
1. 반어법 : 어떤 문제에 대한 답을 알면서도 무지를 가장한 채 질문을 던지며 상대방과 함께 해답을 찾아가는 과정, 상대방이 정확한 정의를 내리지 못하는 '난론' 상태에 빠질 때까지 집요하게 논박하는 것이다. 이를 통해 상대방은 결국 자신이 아무것도 알지 못한다는 사실, 즉 '무지의 지'를 깨달았다.
2. 산파술 : 상대방이 스스로 진리나 지혜를 깨달을 때까지 질문을 던지는 것
풀리지 않는 문제의 해답을 찾는 가장 쉬운 시작은 가만히 관찰하는 것이다. 성급하게 결론을 내리기 전에 현상을 있는 그대로 바라보는 것이다.
[250504] 무지를 깨닳는 자만이 스스로를 돌본다
아무것도 모르는 무지한 사람이 되어라
'너 자신을 알라'
그는 당시 가장 명망 높은 사람들과 젊은이들에게 자기가 알지 못하는 것을 안다고 생각하는 '무지'야말로 비난받아 마땅하다고 목소리를 높였다.
이미 잘 안다고 믿으면 호기심이 생기지 않는다.
깊은 통찰을 얻을 기회를 날리는 셈이다.
내가 모른다는 사실을 안다는 건 알지 못하는 것을 적극적으로 배우려는 자세다.
[250505] 영원히 변하지 않는 절대 가치는 있다
타인의 생각은 어떠한지 상관하지 않고 나의 절대적인 기준을 내세우는 태도는 경계해야 한다.
그러나 도덕의 영역에서 옳고 그름에 대한 기준은 절대적으로 지켜야 할 것이다.
[250506] 이상주의자가 될 것인가, 현실주의자가 될 것인가
아테네 학당 가운대 하늘을 가르키는 남자는 플라톤, 그 오른쪽은 아리스토텔레스(출처 : 나무위키)
플라톤
이상주의자
이데아론 주장
플라톤의 이데아는 '~자체'라고 표현하면서 '존재하는 모든 개체의 본성'이라 말한다.
아리스토텔레스
현실주의자
먼 미래나 가능성보다는 지금 눈앞의 놓인 물질적 가치를 중요시함
플라톤과 아리스토텔레스가 손으로 가리켰던 곳은 달랐지만, 두 철학자가 사물의 본질을 이데아, 즉 형상에서 찾고있다는 점에서는 차이가 없다.
이상과 현실 사이에서 방황할 때 가장 필요한 것은 온전한 자기 자신의 모습을 발견하는 것뿐이다.
[250508] 우리는 그림자를 진짜라고 믿고 있지 않을까
스스로 깨달은 참된 지혜는 누구도 훔쳐 갈 수 없다.
지성과 용기, 미덕과 지혜 등 눈에 보이지 않는 가치들을 깨닫기 위해 노력할 때 우리는 그림자와 쇠사슬에서 해방될 수 있다.
[250509] 욕망과 투쟁하고 타협하라
인간의 영혼은 이성, 기개, 욕망의 세 부분으로 이루어져있다.
이성은 혼 전체를 보살피고 지배하는 것, '지혜'와 가까움
기개는 인간을 분노하게 하는 것, '용기'와 가까움, 기개가 쾌락과 고통에 휩싸여도 두려워하지 않고 이성의 지시를 끝까지 보전하는 것
욕망은 사랑과 배고픔과 갈증을 느끼는 것. '만족'과 '쾌락'과 가까움, '절제'라는 덕을 필요로 한다.
시와 예술을 통해 감수성을 배워야 한다.
"이성으로 혼 전체를 보살피고 지배하라." - 플라톤 -
어떻게 더 인간다운 삶을 살 것인가
[250512] 인간다운 사람만이 행복해질 수 있다 -미덕-
"미덕이 곧 지식이다."
"기회는 준비된 사람의 몫"
탕진하는 삶보다 가치를 생산하는 삶이 나를 더욱 행복하게 만들어줄 것이다.
하루아침에 벼락부자가 될 것처럼 요행을 바라거나 타인의 지위를 이용해 더 나은 삶을 꿈꾼다면 예상하지 못한 상황이 들이닥칠때 쉽게 무너져 버리고 말 것이다.
[250516] 몸은 영혼의 감옥이다 -영혼과 육체-
영혼은 육체에 숨 쉴 능력과 새로운 활력을 불어넣는다.
영혼은 육체 전체의 본성을 유지하고 지탱한다.
육체는 영혼의 '무덤'이다.
육체는 영혼의 '표지'이다.
육체는 영혼의 '감옥'이다.
'혼의 최선의 상태'에 관심을 기울이는 것이란 바로 자신이라는 감옥 안에 갇힌 어두운 영혼에 빛을 비추어주는 일이다.
혼의 최선의 상태에 관심을 기울여라.
중요한 건 허한 자신의 마음을 알아주는 것이다.
[250517] 삶의 고통을 회피할수록 무기력해진다 -교육-
자신을 다스릴 미덕을 키운다.
올바른 교육은 우리가 미덕과 악덕을 분명하게 구별하고 자신의 욕망을 스스로 이길 수 있는 능력을 키우게 하는 것이다.
인의 실천은 다른 사람이 아니라 자기 자신에게 달렸다.
쾌락과 고통의 감정을 훈련한다.
교육이란 쾌락과 고통의 감정을 제대로 배우는 과정입니다. -법률-
[250518] 죽음이란 영혼의 해방이다 -죽음-
사람들을 심란하게 하는 것은 죽음 자체가 아니라 죽음이 두렵다는 생각이다.
우리의 인생을 죽음이 아니라 삶으로 파고들 때 그 진가를 발휘한다.
[250520] 의심하는 사람만이 진실에 가까워진다 -선분의 비유-
완전한 앎으로 향하는 지식의 네 가지 단계
1. 상상 : 가장 낮은 수준의 인식능력으로 상상, 추측이다. 오직 동굴 벽에 비친 그림자를 실물이라 믿었던 죄수와 비슷하다.
2. 신념 : 세계의 실제 대상을 봄으로써 생기는 정신의 상태다. 타인의 해석을 통해 인식하는 상상 단계보다 명확성이 더 높다.
3. 추론적 사고 : 기하학처럼 가설로부터 결론을 이끌어 내는 수학적 대상에 관한 지식이다.
4. 지성 : 가장 높은 인식능력의 단계를 의미한다. 감각적 대상으로부터 완전히 벗어나 직접적으로 실재하는 이데아들, 즉 형상들을 인식한다.
모호하고 불확실한 상황에서는 차라리 아무런 말도, 아무런 생각도, 아무런 행동도 하지 않는 편이 더 나을지도 모른다.
[250521] 눈에 보이지 않는 세계를 바라보는 힘 -지성-
눈에 보이는 세계안에 살고 있는 우리는 이세계가 전부인 것처럼 착각한다.
고통스러운 현실 그 이상을 보는 눈은 처음부터 주어지지 않는다.
진정한 앎데 도달하기 위한 순서
첫째 눈앞에 보이는 현상에 머물지 마라
둘째 지성의 노예가 되어라
셋째 대체 그것이 무엇을 의미하는지 질문하라
넷째 마음의 눈을 정화하라
어떻게 더 행복한 삶을 살 것인가
[250525] 진짜 행복은 누구도 빼앗지 못한다 -태양의 비유-
참된 행복은 운명적으로 나타났다가 사라지는 것이 아니라 자신의 마음 상태에 있다. 진정한 행복은 영혼의 안정과 만족에 있다.
[250305] 위험하게 살아라 -신의 죽음- 익숙함과 결별하고 내가 원하는 나로 살아라 내가 원하는 나로 산다는 것은 창조자로서의 삶을 산다는 것이다 위험하게 살아라! 도시를 화산 위에 세우고, 미지의 바다로 항해를 떠나는 위험한 삶을 선택하라
[250306] 오히려 우리는 권태가 필요하다 -니힐리즘- 권태는 위기가 아니라 전환기이다. 자기 삶의 진정한 목표를 향해 나아갈 동력을 얻는 때이다. 반복되는 삶이 주는 허무주의는 결국 의식의 변화를 일으킨다. 이 순간이 질문할 때이다. ‘내 인생의 의미는 무엇인가?’
[250307] 사람은 극복되어야 할 그 무엇이다 -초인- 자기 자신을 사랑한다. “그대들의 이웃을 언제나 자신처럼 사랑하라. 하지만 우선 자기 자신을 사랑하는 자가 되도록 하라” 자기 자신을 하나의 프레임에 가두지 말고 다양한 모습의 나를 인정하는 것이 진정으로 나다워지는 길이다.
[250308] 의욕할 수 있는 자가 되어라 -힘에의 의지- 하루하루를 자신의 재능을 드러내기 위한 배움의 시간으로 보내야 한다.
[250309] 너의 오두막에 불을 질러라 -모든 가치의 전도- 세상에 절대적인 것은 없다. 삶은 어쩌면 니체의 말처럼 오류투성이일지도 모른다. 하지만 삶의 오류들 때문에 불편함을 느낄 때 우리는 성장할 수 있다.
[250310] 네 운명을 사랑하라 -아모르파티- 피할 수 없는 운명이라면 너그럽게 사랑하라 그리고 더 깊이 감사하라
[250311] 영원을 넘어, 지치지 않고 처음부터 다시 한번 -영원 회귀 초인은 과거나 미래로부터 자유로운 인간이다. 초인에게 가장 소중한 것은 이 순간이다.
니체의 운명 관리론
[250312] 성스러운 긍정이 필요하다 -정신의 세 단계 변화- 낙타 정신 : 무거운 짐을 지고 버텨 내는 삶의 태도(강인한 정신, 인내심) 사자 정신 : 무거운 짐을 부정하고 파괴한다. “너는 마땅히 해야 한다”라는 명령에 맞서 “나는 하길 원한다”라는 자유 의지의 주인이 된다. (자유) 아이 정신 : 어린아이가 놀이에 흠뻑 빠져 몰두하듯 자기의 삶을 긍정적으로 살아가는 것을 의미한다. (순진 무구함, 망각, 새로운 출발, 놀이, 스스로 도는 수레바퀴, 최초의 움직임, 성스러운 긍정)
[250313] 너 스스로가 되어라 -신체- 이번 삶의 여행을 위해 영혼이 선택한 몸을 더욱 사랑하라.
[250314] 3. 사다리 하나만으로 먼 곳까지 휘둘러볼 수 없다. - 시도와 질문- 명사형의 세계에 익숙한 나머지 동사형의 세계로 이행을 두려워하며 저항한다. 하지만 변화무쌍한 동사형의 세계에서 경험을 통해 쌓은 지혜는 누구도 빼앗아 갈 수 없다. 명사형이 아닌 동사형의 삶을 추구할 때 비로소 "우리는 진정 누구인가?"라는 질문에 답할 수 있는 것이다. 마흔, 자기 삶에 던져야 할 질문을 구체적이고 현실적으로 적어 내려가야 할 때이다.
[250317] 제대로 잘된 인간이 되어라 -인간 말종- 제대로 잘된 인간은 자신의 욕구나 욕망을 통해 진정한 자신을 재발견한다. 다시 말해 진정으로 행복한 삶을 살려면 자신이 원하는 것, 소유하고 싶은 것, 삶에서 체험하고자 하는 것이 무엇인지를 알아야 한다. 몸과 마음이 불타 버리는 시기라도 자신을 사랑하는 방법을 잊지 마라.
[250320] 역풍을 만나 보아야 어떤 바람에도 항해할 수 있다. -몰락- 힘의 느낌, 힘에의 의지, 용기, 긍지 같은 것들은 추한 것과 더불어 하강하며, 아름다운 것과 더불어 상승한다. 상승에서 하강으로, 하강에서 상승으로 전환될 때 우리가 취해야 할 행동은 판단을 보류하는 것이다. 경멸과 몰락, 인생의 하강과 막다른 길은 변화의 성장통이다. 고대 그리스의 회의론자들은 ‘판단 중지’라는 의미로 에포케(epoche)라는 용어를 사용했다.
[250321] 이미 정해진 것은 없다 -우연과 필연- 긍정은 우연을 필연으로 만드는 강력한 에너지이다.
니체의 자극제
[250322] 너는 네 삶의 주인이 되어야 한다 -자유정신- 너는 너의 주인이며 동시에 네 자신의 미덕의 주인이 되어야만 했다. 과거에는 미덕이 주인이었지만, 이제 미덕은 오로지 도구로 써만 의미가 있다.
[250323] 고결한 귀족이 되어라 -거리의 파토스- 고귀한 인간은 자기 자신에 외경심을 가지고 있다. 고귀한 인간은 허영심을 싫어한다. 고귀한 인간은 타인의 인정을 받으려는 생각을 하기보다 자기 자신을 먼저 인정한다.
니체의 마지막 질문
[250330] 고통에 대한 처방은 고통이다 -고통- 고통을 정면으로 응시하라 고통을 열망으로 바꾸어라 불행하고 고통스러운 삶이 우리를 단련한다
[250402] 고통을 감당할 힘을 보여주어라 -고독- 자신과 자연 속에서 가장 깊이 반성하는 15분을 가져라 너는 너 자신의 불길로 너 자신을 태워 버릴 각오를 해야 하리라. 먼저 재가 되지 않고서 어떻게 새롭게 되길 바랄 수 있겠는가!
[250403] 무엇이 선이고 무엇이 악인지 모른다 -르상티망- 주인 도덕 : ‘좋음’이 무엇인지를 지배자가 스스로 결정한다. 그들이 바로 ‘고귀한 인간’이다. 고귀한 인간은 자신에게 긍지와 자부심을 느낀다. 노예 도덕 : 주인 도덕을 호의적인 시선으로 보지 않고 증오한다. 이 감정이 바로 르상티망이다. 강자를 부정하다가 ‘악한 인간’으로 규정하고 이와 대조적인 ‘선한 인간’을 생각해 낸다. 노예 도덕은 약자는 무조건 ‘선’이고, 자기보다 강한 지배자는 모두 ‘악’으로 규정한다.
[250404] 나만의 작은 행복 정원을 꾸며라 -니체의 행복론- 행복한 시대는 없지만 언제든 지금 이 순간 행복할 수 있다.
[250405] 죽음을 맞이하는 법을 배워라 -죽음-
결코 제때에 살지 못하는 자가 어떻게 제때에 죽을 수가 있겠는가?
제때에 살아 본 사람만이 제때에 죽을 수 있다는 것이다.
제때에 죽기 위해서 매 순간 '메멘토 모리' 해야 한다. (메멘토 모리 : 죽음을 기억하라)
제때에 살고 제때에 죽어라.
[250406]이 세계를 있는 그대로 인정하라 -디오니소스적 긍정-
우리가 경험한 모든 것이 우리를 고귀한 인간으로 만든다.
후기
일하다보면 능동적인 사람, 수동적인 사람을 볼 수 있다. 꼭 2 부류로 떨어지지는 않는다.
나는 능동적인 사람이다. 일을 하면서 계획을 짜고 개인적으로 WBS로 만들고, 동기 또는 후배에게 일을 나눠준다.
여기서 계획을 짜고 WBS를 만드는 과정에서 나는 여러 생각을 하게 된다.
'이게 맞는 방향일까?', '계획이 부족한 건 없나?', '내가 너무 일을 던지나?', '다른 사람은 어떻게 생각하지?' 등..
생각을 보면 일을 잘하려고 하는 노력도 있지만 남의 시선도 신경 쓰는 경향이 있다.
니체는 자기 자신의 주관을 가지고 옳고 그름을 스스로 판단하라 했다.
맞는 말이다. 하지만 너무 극단적으로 스스로 판단하는 거는 문제일 것 같다.
이에 따라 스스로 판단해도 괜찮을 일, 다른 사람에게도 평가받은 후에 판단해도 괜찮을 일인지 구분할 필요가 있어 보인다.