Wordle의 수학은 PlatoBlockchain 데이터 인텔리전스를 추측합니다. 수직 검색. 일체 포함.

Wordle 추측 뒤의 수학

개요

Wordle의 간단한 게임에서 플레이어는 이전 추측에서 드러난 문자의 존재와 위치에 대한 단서를 기반으로 XNUMX회 이하의 턴 동안 비밀 XNUMX글자 단어를 추측해야 합니다. 과거에도 다소 유사한 게임이 등장했지만 특정 날짜에 Wordle을 플레이하는 모든 사람은 동일한 비밀 단어를 발견해야 하므로 쉽게 시도를 공유하고 친구들과 게임에 대해 토론할 수 있습니다. 게임의 독특한 구조와 표현은 최신 질문에 영감을 주었습니다. 통찰력 퍼즐. 답변은 아래에서 설명합니다.

좋은 Wordle 게임을 하기 위한 한 가지 핵심은 강력한 시작 단어를 선택하는 것입니다. 컴퓨터 분석 구현 정보 이론 기술 "slate" 및 "crane"과 같은 시작 단어를 사용하면 평균적으로 최소한의 턴으로 Wordles를 해결할 수 있습니다. 그러나 많은 인간 해결사들은 "adieu", "audio" 또는 "raise"와 같이 모음이 많은 단어를 선택하는 것을 더 편하게 느낍니다. 이 느낌은 직관적이고 합리적인 근거를 모두 가지고 있습니다. 첫째, 배치된 모음을 사용하면 검색해야 하는 자음의 수를 제한할 수 있는 모음 "뼈대"를 찾을 수 있습니다. 예를 들어, "raise"를 연주한 후 단어가 _AI_E처럼 보인다는 것을 알고 있다면 "naïve", "waive" 및 "maize"와 같은 몇 가지 가능한 단어만 남아 있습니다. 둘째, 모음은 "커버리지"라고 부를 수 있는 양을 최대화합니다. 단 2,309개의 모음과 Y 사이에서 20개의 답변 중 하나에서 적어도 하나의 긍정 문자를 얻을 수 있습니다. 자음으로 이런 종류의 완벽한 커버리지를 얻으려면 XNUMX개를 모두 시도해야 하며 최소 XNUMX턴이 필요합니다.

우리의 첫 번째 퍼즐은 독자들에게 모음이 풍부한 이 세 단어 중 첫 번째 추측이 가장 좋은 단어를 알아내도록 했습니다.

퍼즐 1 

다음 표는 단어 "adieu", "audio" 및 "raise"의 2,309개 문자가 XNUMX 단어의 전체 Wordle 응답 목록에서 각 위치에 나타나는 빈도를 제공합니다. 이 표를 기반으로 세 가지 모음이 풍부한 시작 단어인 "adieu", "audio" 및 "raise" 각각에 대해 전체 Wordle 답변 목록에서 얼마나 많은 녹색과 노란색을 얻을 것으로 예상할 수 있는지 결정하십시오. (Wordle에서는 문자가 올바른 위치에 있는 경우 녹색 배경으로 표시되고 단어에 있지만 잘못된 위치에 있는 경우 노란색 배경으로 표시됩니다.) 이것은 시작 단어로 예상되는 성능에 대해 무엇을 알려줍니까? ?

리더 롭 콜렛 이 표에서 예상되는 초록색과 노란색의 수를 계산하는 방법을 보여주었습니다. "adieu"의 경우 A는 140단어의 올바른 첫 번째 문자이고 D는 20단어의 올바른 두 번째 문자 등입니다. 가능한 모든 Wordle 답변에 대한 총 녹색 수는 이들의 합계입니다. 따라서 "adieu"는 총 140 + 20 + 266 + 318 + 1 = 745개의 그린을 얻습니다. 노란색의 경우 단어에서 문자가 한 번 이상 나타나는 횟수("adieu"의 A는 906)에서 시작하여 녹색(140)을 빼서 노란색의 수(766)를 구해야 합니다. . 노란색의 총 수를 얻으려면 단어의 각 문자에 대한 숫자를 더하십시오. 이 숫자를 총 답변 수(2,309)로 나누어 한 차례에 녹색과 노란색의 기대치를 얻을 수 있지만 이 단계는 모든 시작 단어에 공통적이므로 세 개를 비교하기 위해 총계로 작업할 수 있습니다. 그들의. 우리는 특별히 모음 백본을 찾기 위해 이 단어들을 선택했기 때문에 모음에서 나오는 녹색의 수를 계산할 수도 있습니다. 결과는 다음과 같습니다.

보시다시피 비교할 수 없습니다! "Raise"는 모든 소절에서 "adieu"보다 우월합니다. 더 많은 녹색과 노란색을 제공하고 올바른 위치에 더 많은 모음을 생성합니다. 가장 일반적인 자음 중 두 가지를 포착하거나 배제한다는 사실은 말할 것도 없습니다. "오디오"는 이 모든 척도에서 XNUMX분의 XNUMX에 해당합니다. 노란색이나 녹색을 얻지 못하더라도 어떤 문자가 없는지에 대한 정보를 얻을 수 있지만 독자로서 맥스 데이비스 지적했듯이 하나 이상의 노란색과 녹색을 얻을 때 확실히 더 많은 정보를 얻을 수 있습니다. 그래서, "안녕" 사용자 여러분, 아마도 작별 인사를 할 시간입니다.

질문 1

이것은 우리가 노란색에 비해 녹색을 얼마나 평가해야 하는지에 대한 질문이었습니다. 하나의 녹색과 같은 노란색은 몇 개입니까? 위 결과의 명확한 특성으로 인해 위의 비교를 위해 이에 답할 필요가 없지만 흥미로운 질문입니다. 이 평가에는 두 가지 측면이 있습니다. 첫 번째는 인간적인 측면입니다. 노란색 글자가 배치될 수 있는 모든 다양한 방법을 파악하는 데 필요한 정신적 노력에 얼마나 많은 비중을 두나요? 그린을 많이 치는 것이 삶을 더 쉽게 만들고 우리에게 더 많은 도파민 부스트를 제공한다는 것을 부인할 수 없습니다. 정보 이론의 관점에서 볼 때 모든 답변 단어의 모든 시작 단어를 살펴보고 모든 경우에 동일한 문자가 녹색일 때와 노란색일 때 퍼즐을 푸는 데 걸리는 회전 수를 비교해야 합니다.

이것은 엄청난 작업이지만 가능한 최상의 컴퓨터 시작 단어(모호한 단어 "타르스"는 수컷 매를 의미하며 전체 최적 솔루션 트리가 온라인에 게시 수학자 알렉스 셀비). 대답은 놀랍습니다. 첫 번째 회전에서 녹색만 생성된 답변 단어를 사용하는 컴퓨터 솔루션에 필요한 평균 회전 수는 3.34회인 반면, 노란색 글자만 있을 때 필요한 회전 수는 3.51회로 5% 증가에 불과했습니다! 명백히 컴퓨터 알고리즘에서는 우리 인간에게 너무 위협적으로 보이는 노란색 문자를 배치하는 것이 큰 페널티 없이 달성될 수 있습니다. 인간 솔버의 경우 필요한 턴 수뿐만 아니라 해결하는 데 필요한 정신적 노력과 시간의 차이가 더 클 것이라고 생각합니다.

퍼즐 2

A) 첫 번째 턴에서 XNUMX개의 노란색을 모두 얻는다면 베스트 플레이를 가정할 때 답을 찾는 데 걸리는 최대 턴 수는 얼마입니까?

As 롭 콜렛샘 로즈 올바르게 말하면 이론적 답은 XNUMX개입니다. ABCDE와 같은 완전한 노란색 문자 조합은 답이 EABCD라는 것을 발견하기 전에 BCDEA, CDEAB 및 DEABC를 순환해야 할 수 있으므로 네 차례 더 발견에 저항할 수 있습니다. 그러나 실제 단어는 임의로 늘릴 수 없는 모음과 자음 패턴을 정의했기 때문에 실제로 이러한 순환 "단어"는 정확하게 가능하지 않습니다. 롭 콜렛(Rob Corlett)이 "구문 분석(parse)"으로 시연했듯이 애너그램이 많은 단어도 세 번 이상 시도하면 풀 수 있습니다.

B) 특정 위치에 있는 글자가 노란색으로 바뀌는 것이 녹색으로 바뀌는 것을 보는 것보다 더 가치 있는 경우가 있습니까? 그렇다면 예를 들어 설명하고 이것이 왜 그래야 하는지 설명해 주시겠습니까?

예, 드물게 노란색으로 표시되는 문자가 다른 위치에 거의 나타나지 않는 문자인 경우 녹색으로 표시되는 동일한 문자보다 더 가치가 있을 수 있습니다. 이것은 종종 Y가 단어의 끝에서 압도적으로 발견되는 경우에 발생합니다. "배"로 시작하고 B와 Y가 모두 녹색으로 나온다고 가정합니다. "baggy", "bitty", "bobby", "booty", "bushy" 등 많은 가능성이 남아 있습니다. 그러나 B와 Y가 모두 노란색으로 표시되면 "심연"이라는 가능성이 하나뿐입니다.

질문 2

잘 알려지지 않은 Scrabble 단어의 어휘를 가진 사람이 Wordle을 플레이할 때 장점이 있습니까, 아니면 단점이 있습니까?

난해한 단어를 암기하는 데 꽤 많은 시간을 보냈던 전직 스크래블 선수로서 나는 그것이 장점이자 단점이라고 생각합니다. 내가 처음 Wordle을 시작했을 때, 나는 나중에 내가 정확할 가능성이 거의 없다는 것을 깨달은 흔하지 않은 단어의 가능성을 자주 보고 배제하려고 노력하는 내 자신을 발견했습니다. (저의 Wordle 그룹에서 자주 사용하는 골프 용어에서는 이것을 가상의 위험에 의해 방해받는 것으로 지칭합니다.) 퍼즐 칼럼에서 설명한 것처럼 Wordle 답변은 간단한 단어 목록에서 도출되며 대부분은 알려져 있습니다. 모든 미국 영어 원어민에게. 다소 흔하지 않지만 모호하지 않은 단어도 Wordle 답변 목록에 없습니다. 예를 들어, 나는 최근에 가능한 Wordle 답변이 아닌 것으로 밝혀진 상당히 일반적인 단어인 "라텍스"를 플레이하면서 차례를 낭비했습니다. 그래서 모든 Wordle 플레이어와 마찬가지로 저는 Wordle 답변이 될 수 있는 종류의 단어에 대한 정신적 모델을 구축하고 Scrabble에서 더 많은 점수를 얻기 위해 행복하게 사용할 수 있는 희귀하고 모호한 단어 종류를 특별히 무시해야 했습니다. 다른 한편으로, 이 희귀한 단어에 대한 지식은 비슷한 단어를 하나씩 추측하는 데 많은 턴을 소비하지 않기 위해 때때로 해야 하는 "초성 자음"에 유용합니다. 예를 들어, _RA_E가 있고 "brake", "drake", "drape", "grade" 및 "grape"와 같이 D, G 및 K를 포함하는 가능한 단어 묶음을 보고 있는 경우 "케지(kedge)"라는 단어를 사용하면 XNUMX번 더 돌아서 해결책을 찾을 수 있습니다(케지(kedge)는 닻을 멀리 떨어뜨린 다음 튼튼한 밧줄로 배를 잡아당겨 배를 움직이는 것을 의미합니다).

매일 다른 사람들과 같은 Wordle 퍼즐을 얻는 것은 소셜 플레이를 장려합니다. 하지만 인터넷에는 스포일러가 넘쳐나고, 어떤 사람들은 속임수를 쓴다 그들의 점수를 보고할 때. 다음 퍼즐은 개인 점수의 개연성이 낮다는 사실만으로 Wordle 그룹에서 부정 행위가 의심되는 경우에 대한 질문을 다룹니다. 다시 말하지만, 이 퍼즐은 골프 채점 용어로 구성되어 있습니다. Wordle의 XNUMX턴 솔루션을 버디라고 하고, XNUMX턴에 맞추는 것은 독수리이며, 첫 번째 턴에서 단어를 얻는 것은 물론 홀인원입니다. .)

퍼즐 3

추가 조사를 위한 전통적인 과학적 기준은 결과가 우연히 발생할 확률( 알파 값) 연구자의 목표에 따라 5% 미만 또는 1% 미만입니다. 그 결과는 5% 또는 1% 수준에서 통계적으로 유의한 것으로 간주됩니다. 부정행위를 하지 않은 사람을 의심하는 것은 좋지 않기 때문에 이번 조사에서는 좀 더 보수적인 1% 수준을 선택하자.

당신이 10일 동안 매일 서로 결과를 공유해온 200명의 플레이어로 구성된 Wordle 그룹에 속해 있다고 가정합니다. 아주 훌륭한 인간 ​​플레이어가 2.5 게임마다 버디를, 40 게임마다 독수리를, 2,000 게임마다 홀인원을 얻을 것으로 기대할 수 있다고 가정합니다(이는 합리적인 실제 추정치).

A) 이 기간 동안 그룹의 1% 수준에서 의미 있는 연속 버디는 몇 개입니까?

B) 독수리가 연속으로 몇 개입니까?

C) 연속으로 홀인원은 몇 개입니까?

여기서 핵심은 인구 규모가 2,000인 게임임을 깨닫는 것입니다. 따라서 이 유의 수준에 도달하려면 200,000명의 개인 게임에서 한 번 미만으로 발생하는 이벤트를 우연히 확인해야 합니다.

A) 버디 이상 연속 기록: 단일 게임에서 버디 이상을 기록할 확률은 2/5 + 1/40 + 1/2,000 = 0.4255로, 약 1게임당 2.35입니다. 이것을 부르자 B. 의 가장 낮은 전력 B 200,000을 초과하는 것은 B15, 이는 368,000(B14 약 157,000). 따라서 그룹의 모든 사람이 15개 이상의 연속 버디 이상 연속 기록을 달성하면 이 엄격한 기준을 충족할 수 있지만 14개 중 하나는 충족되지 않습니다. 개별 플레이어를 의심하는 경우 20,000경기에서 한 번 미만으로 발생하는 이벤트를 확인해야 하며, 이는 버디 또는 더 나은 연속 12개로 발생합니다. 이 길이는 약간 작습니다. 실제로 그룹의 경우 1,850게임이고 개별 플레이어의 경우 188게임이지만 이 경우에는 차이가 없습니다.

이것은 전문 플레이어를 위한 빈도이며 대부분의 그룹 및 개인에 대한 의심스러운 행진은 더 작을 것입니다. 실제로 이 기준을 적용하려면 보고 있는 해당 버디, 이글 및 홀인원 빈도를 결정하고 그룹에서 플레이한 게임 수를 고려해야 합니다.

B) 독수리 이상 줄무늬: 독수리 이상일 확률은 1/40 + 1/2,000 = 0.0255 또는 약 1/39.2입니다. 우리의 유의 수준을 초과하는 줄무늬 길이는 그룹의 경우 4이고 의심되는 개인의 경우 3입니다.

C) 홀인원 줄무늬: 우리의 유의 수준을 초과하는 줄무늬 길이는 그룹과 의심되는 개인 모두에 대해 2입니다.

마지막 두 답변에 대한 주의 사항이 있습니다. 이는 드문 이벤트이며 샘플 크기가 매우 작으므로 주의해야 합니다. 대부분의 통계학자는 유의성 테스트를 편안하게 적용하기 전에 일반적으로 적어도 XNUMX회 이상의 독수리 또는 홀인원 인스턴스를 볼 때까지 기다렸습니다.

질문 3

당신의 그룹에서 좋은 결과의 빈도는 부정 행위 없이 우연히 예측된 빈도보다 훨씬 더 높을 가능성이 있습니다. 이것을 어떻게 설명하시겠습니까?

이에 대한 한 가지 가능한 이유는 다음과 같습니다. 롭 콜렛 "선수들이 모든 결과를 열심히 기록하고 있다"고 설명합니다. 퍼즐 4의 전주곡에서 설명했듯이 Wordle 답변은 현재 설정에서 XNUMX년 정도 반복되지 않을 예정입니다. 따라서 답 목록에 있는 모든 단어를 속이거나 아는 사람이 없더라도 이 정보는 여전히 개인이나 그룹이 점차 더 나은 성과를 내는 데 도움이 될 수 있습니다.

그러나 또 다른 이유가 있습니다. 목록이 제대로 무작위화되지 않을 수 있습니다. 지난 몇 달 동안 Wordle을 플레이하면서 두 개 이상의 단어 중에서 선택해야 할 때마다 간단한 단어가 덜 일반적인 단어보다 정확할 가능성이 더 높다는 것을 알았습니다. 예를 들어, A, N, E가 있고 남은 선택지가 "sneak", "hyena", "enema"와 같은 단어라면 주저 없이 가장 간단한 단어(이 예에서는 "sneak")를 연주할 수 있습니다. 순전히 우연히 예상하는 것보다 훨씬 더 자주 수정하십시오. 저는 실제로 영어 산문 빈도 목록을 사용하여 두 달 동안 접한 답변이 Wordle 답변 목록의 평균 단어와 비교하여 얼마나 일반적인지 확인했습니다. 내가 접한 답변은 Wordle 답변 목록의 평균 단어보다 약 25% 더 일반적이었고 더 중요한 것은 목록에서 가장 희귀한 단어(하위 10%)의 경우 예상한 답변의 1분의 20만 나타났습니다. 에게. Eagles는 순전히 우연에 기반한 1/40이 아니라 XNUMX/XNUMX에 가까운 빈도로 발생했습니다. 따라서 Wordle 응답 순서는 잘 무작위화되지 않은 것으로 보이며 더 간단한 단어로 전면 로드되거나 더 간단한 단어로 구성된 목록의 일부를 통과하게 됩니다.

최근의 중요한 변화는 뉴욕 타임즈 Wordle 편집자 임명 7월 XNUMX일부터 오늘의 단어를 프로그래밍하기 위해. 그 이후로, "ombre", "vomit" 및 " 엉덩이." 필요성을 이해하면서도 공연 시간 수백만 명의 사람들이 플레이하는 분노를 방지하기 위해 Wordle 단어를 살균하고 단순화하기 위해 게임을 덜 무작위적이고 훨씬 더 예측 가능하게 만듭니다. 더 나쁜 것은 지난 몇 주 동안 추수 감사절에 "잔치", 재향 군인의 날에 "메달"과 같이 그날에 맞는 단어를 선택하는 불행한 편집 경향입니다. 이것은 게임이 시작되기 전에도 단어에 대한 추가 단서를 제공하여 퍼즐을 더 쉽게 만들고 풍부한 정보 이론 연결을 손상시킵니다. 무작위성이 이 게임의 필수 요소이기 때문에 이것이 일시적인 일탈이기를 바랍니다. 대부분의 사람들은 피드백을 주었다뉴욕 타임즈 이러한 편집 선택에 대해 같은 방식으로 느꼈습니다.

네 번째 퍼즐은 현재 아키텍처에서 Wordle 솔루션이 XNUMX년 정도 후에 목록이 소진될 때까지 반복되지 않는다는 사실에 기반했습니다.

퍼즐 4

과거 솔루션에 대한 완벽한 기억을 가진 사람을 생각해 보십시오. 그런 사람에게 대답은 Wordle의 2,309단어 목록의 마지막 날에 자명할 것입니다. 이 사람이 실제 계산을 하지 않고 전체 목록의 기간 동안 얼마나 많은 홀인원을 달성할 것으로 예상하는지 빠르게 예측할 수 있습니까? 그런 다음 가능하면 실제 계산을 시도하고 수행하십시오.

롭 콜렛 이에 대해 완벽하게 답했고 논리적으로 답을 8.25로 추정한 다음 답을 8.32로 계산했습니다. Corlett의 주요 계산은 아래에 인용되어 있습니다. 뛰어난 추정기법에 대한 댓글을 확인하실 수 있습니다.

당신이 있으면 m 단어를 추측하고 맞힐 확률은 1/입니다.m. 1개의 단어가 있으면 기회는 1/1, 2개의 단어는 1/2, 3개의 단어는 1/3 등입니다. 이들을 모두 더하면 예상되는 홀인원 수를 얻을 수 있습니다! …

[이]는 2309에서 1까지의 모든 숫자의 역수 합계를 계산해야 합니다. 스프레드시트에서 계산한 결과 합계가 8.32로 만족스럽게 내 추정치에 근접했습니다!

우리의 마지막 질문은 "클라이언트 측" 디자인을 유지하면서 Wordle의 단어 무작위화를 개선하는 방법을 물었습니다. Wordle 편집자가 임명되기 전에는 단어의 일일 무작위화가 없었습니다. 단어는 위에서 언급한 것처럼 잘 무작위화되지 않은 다운로드된 미리 배열된 목록에서 나왔습니다. 그런 다음 현재 날짜에 따라 단어 목록에서 클라이언트(사용자)의 장치에 Wordle의 솔루션 단어가 생성되고 전체 퍼즐도 사용자 장치에서 판정되었습니다. 이 모든 작업을 수행하는 코드는 사용자가 매일 웹 사이트에 처음 연결할 때 다운로드됩니다. 그 이후에는 사용자가 온라인 상태일 필요가 없습니다.

질문 4

클라이언트 쪽 디자인을 유지하여 모든 사람이 주어진 날에 동일한 솔루션 단어를 얻도록 Wordle을 어떻게 디자인하시겠습니까?

무작위화 질문에 대한 몇 가지 좋은 답변이 있었습니다. 두 명의 독자가 사전 정의된 시드가 있는 유사 난수를 사용하여 Wordle 답변 목록에 색인을 만들 것을 제안했습니다. 무민트롤렛 32개의 Wordle 답변 목록(XNUMX년 동안 지속됨)을 무작위로 섞는 프로그램을 작성하여 XNUMX년 이내에 단어가 반복되지 않도록 합니다. 나에게 가장 매력적인 절차는 블라인드 테미스, 임의화 절차에 사용되는 임의 시드는 일정 시간까지 게임을 한 사람 수의 마지막 XNUMX자리여야 한다고 제안했습니다. (Wordle은 전 세계 어디에서나 플레이할 수 있기 때문에 국제 날짜 변경선에서 시작하여 동태평양 시간대에 플레이해야 합니다!) 이것의 좋은 점은 아무도, 심지어 뉴욕 타임스 Wordle 편집기는 단어가 사용되기 전날이 무엇인지 알 것입니다.

이러한 메커니즘 중 어느 것도 클라이언트 측에서 완전히 수행할 수 없습니다. 팀 로스 지적했다. 다음 단어는 서버에 의해 생성되어야 하며 이 단어 또는 색인 번호는 나머지 코드와 함께 암호화된 형태로 다운로드되어야 합니다. Ross가 지적한 것처럼 현재 2,309개의 답변 단어가 소스 코드에서 날짜 순서로 명확하게 표시되며 모든 브라우저에서 공개할 수 있습니다. 한 가지 접근 방식은 답변 단어 목록을 암호화하고 날짜 순서가 아닌 알파벳 순서로 저장하는 것입니다.

제안된 무작위화 개선이 도움이 되지만 암호화는 전혀 차이가 없습니다. 인터넷에는 여전히 여러 가지 스포일러가 있고 속임수를 쓰는 여러 가지 방법이 있기 때문입니다.

이 흥미로운 토론에 도움을 주신 모든 분들께 감사드립니다. 이 퍼즐에 대한 통찰 상금은 Rob Corlett에게 돌아갑니다. 축하합니다! 다음 퍼즐은 XNUMX월에 나타납니다. 그때까지 행복한 수수께끼와 행복한 휴일!

타임 스탬프 :

더보기 콴타마진