代码之家  ›  专栏  ›  技术社区  ›  stats_noob

R: 验证硬币翻转的结果

r
  •  0
  • stats_noob  · 技术社区  · 1 年前

    我正在使用R编程语言。

    假设我有以下问题:

    • 有一种硬币,如果正面着地,那么下一次翻转为正面的概率为0.6(如果反面着地,则下一次翻页为反面的概率也为0.6)
    • 一个班有100个学生
    • 每个学生把这枚硬币随便翻几次
    • student_n的最后一次翻转不影响student_n+1的第一次翻转(即,当下一个学生翻转硬币时,第一次翻转有0.5个正面或反面的概率,但该学生的下一次翻转取决于前一次翻转)

    我正在尝试编写R代码来表示这个问题。

    首先,我定义了变量:

    library(dplyr)
    library(stringr)
    
    # generate data
    set.seed(123)
    ids <- 1:100
    student_id <- sample(ids, 100000, replace = TRUE)
    coin_result <- character(1000)
    coin_result[1] <- sample(c("H", "T"), 1)
    

    接下来,我尝试编写翻转过程:

    for (i in 2:length(coin_result)) {
      if (student_id[i] != student_id[i-1]) {
        coin_result[i] <- sample(c("H", "T"), 1)
      } else if (coin_result[i-1] == "H") {
        coin_result[i] <- sample(c("H", "T"), 1, prob = c(0.6, 0.4))
      } else {
        coin_result[i] <- sample(c("H", "T"), 1, prob = c(0.4, 0.6))
      }
    }
    
    #tidy up
    my_data <- data.frame(student_id, coin_result)
    my_data <- my_data[order(my_data$student_id),]
    

    最后,我试图验证结果:

    my_data %>%
      group_by(student_id) %>%
      summarize(Sequence = str_c(coin_result, lead(coin_result)), .groups = 'drop') %>%
      filter(!is.na(Sequence)) %>%
      count(Sequence)
    

    即使代码运行了,我也不认为我的代码是正确的——当我看到结果时:

    # A tibble: 4 x 2
      Sequence     n
      <chr>    <int>
    1 HH       23810
    2 HT       25043
    3 TH       25042
    4 TT       26005
    

    我认为如果我是正确的,HH应该显著大于HT,TT应该显著大于TH。

    有人能告诉我我做得是否正确以及如何纠正吗?

    谢谢

    1 回复  |  直到 1 年前
        1
  •  1
  •   benson23    1 年前

    我认为你需要 sort 这个 student_id 循环之前的矢量,这样您的比较 student_id[i] != student_id[i-1] 将是有效的。否则,它就不会捕捉到同一个学生的连续翻转。

    结果似乎有道理,其中 HH TT 合计占总翻转次数的60.4%。

    library(tidyverse)
    
    set.seed(123)
    ids <- 1:100
    # only the following line was changed, all other lines are same as your code
    student_id <- sort(sample(ids, 100000, replace = TRUE))
    coin_result <- character(1000)
    coin_result[1] <- sample(c("H", "T"), 1)
    
    for (i in 2:length(coin_result)) {
      if (student_id[i] != student_id[i-1]) {
        coin_result[i] <- sample(c("H", "T"), 1)
      } else if (coin_result[i-1] == "H") {
        coin_result[i] <- sample(c("H", "T"), 1, prob = c(0.6, 0.4))
      } else {
        coin_result[i] <- sample(c("H", "T"), 1, prob = c(0.4, 0.6))
      }
    }
    
    #tidy up
    my_data <- data.frame(student_id, coin_result)
    my_data <- my_data[order(my_data$student_id),]
    
    my_data %>%
      group_by(student_id) %>%
      summarize(Sequence = str_c(coin_result, lead(coin_result)), .groups = 'drop') %>%
      filter(!is.na(Sequence)) %>%
      count(Sequence)
    
    # A tibble: 4 × 2
      Sequence     n
      <chr>    <int>
    1 HH       29763
    2 HT       19782
    3 TH       19775
    4 TT       30580