-
Notifications
You must be signed in to change notification settings - Fork 3
/
Copy pathmetrics_hse_exams.tex
executable file
·6448 lines (4910 loc) · 326 KB
/
metrics_hse_exams.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
% arara: xelatex: {shell: yes}
% arara: biber
% arara: xelatex: {shell: yes}
% arara: xelatex: {shell: yes}
\documentclass[12pt, a4paper]{article}
\input{title_bor_utf8} % use local copy
\usepackage{minted}
\unitlength=0.6mm
\title{Подборка экзаменов по эконометрике, НИУ-ВШЭ}
\date{\today}
\author{Коллектив кафедры \\
математической экономики и эконометрики,\\
фольклор, очень умные студенты}
%%%%%%%%%%%%%%%%%% вставки
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% Списки без уродских отступов
\newenvironment{enumerate*}{
\begin{enumerate}
\setlength{\itemsep}{0pt}
\setlength{\parskip}{0pt}
\setlength{\parsep}{0pt}
}{\end{enumerate}}
\newenvironment{itemize*}{
\begin{itemize}
\setlength{\itemsep}{0pt}
\setlength{\parskip}{0pt}
\setlength{\parsep}{0pt}
}{\end{itemize}}
\abovedisplayskip=0mm
\abovedisplayshortskip=0mm
\belowdisplayskip=0mm
\belowdisplayshortskip=0mm
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\newenvironment{centered}{%
\begin{list}{}{%
\topsep0pt
}
\centering
\item[]
}
{\end{list}}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\usepackage[sorting=none, backend=biber]{biblatex}
\addbibresource{metrics_hse_exams.bib}
\AddEnumerateCounter{\asbuk}{\russian@alph}{щ} % для списков с русскими буквами
\setlist[enumerate, 2]{label=\asbuk*),ref=\asbuk*} % списки уровня 2 будут буквами а) б) ...
%%%%%%%%%%%
% блок для тестов
%%%%%%%%%%%
% [1][3] 1 = one argument, 3 = value if missing
% эта магия создаёт окружение answerlist
% именно в окружении answerlist записаны варианты ответов в подключаемых exerciseXX
% просто \begin{answerlist} сделает ответы в три столбца
% если ответы длинные, то надо в них руками сделать
% \begin{answerlist}[1] чтобы они шли в один столбец
\newenvironment{answerlist}[1][3]{
\begin{multicols}{#1}
\begin{enumerate}[label=\fbox{\emph{\Alph*}},ref=\emph{\alph*}]
}
{
\end{enumerate}
\end{multicols}
}
\excludecomment{solution} % without solutions
\theoremstyle{definition}
% опция [subsection] для сброса счётчика вопросов после каждой subsection
% \newtheorem{question}{Вопрос}[subsection]
% убрать коммент после удаления старого AMC!
% чтобы номер вопроса был без номера секции:
% \renewcommand{\thequestion}{\arabic{question}}
% убрать коммент после удаления старого AMC!
% конец блока для тестов
%%%%%%%%%%%%
\begin{document}
\maketitle
\tableofcontents{}
\parindent=0 pt % no indent
\section{Описание}
Свежая версия на \url{https://github.com/bdemeshev/em301/tree/master/metrics_exams}.
Часть задач и многие решения придуманы студентами.
Огромное спасибо всем тем, кто в мучениях, своей кровью дописывал этот документ :)
\section{Вечное}
\subsection{Гимн-памятка для эконометриста}
Эмилю Борисовичу Ершову посвящается
\begin{verse}
Ничего на свете лучше нету, \\
Чем оценивать параметр «бета»! \\
Лучшее оружие демократа — \\
Метод наименьшего квадрата!
\end{verse}
\begin{verse}
Если вдруг подавит вас депрессия, \\
Виновата, значит, здесь дисперсия. \\
Убери гетероскедастичность, \\
Это придаёт оптимистичность.
\end{verse}
\begin{verse}
Если в данных автокорреляция, \\
Всё, что посчитал ты, — профанация. \\
Применяй, не глядя исподлобия, \\
Максимальное правдоподобие.
\end{verse}
\begin{verse}
Если ощутил ты свою бренность, \\
Не иначе это эндогенность. \\
Соглашайся выдать алименты \\
Тем, кто знает, где взять инструменты.
\end{verse}
\begin{verse}
Где б ты ни был, в саклях и ярангах \\
Применяй везде условья ранга. \\
Помни также: лучшая зарядка — \\
Выполнить условие порядка.
\end{verse}
\begin{verse}
Мы своё призванье не забудем! \\
BLUE-оценки мы предъявим людям! \\
Нам законов априорных своды \\
Не понизят степеней свободы!
\end{verse}
\subsection{Прошение о повышение оценки}
\vspace{10pt}
От ...............................
\vspace{10pt}
Группа ......
\vspace{10pt}
Я считаю, что моя итоговая оценка по курсу ...................... должна быть исправлена с .... на ... по следующим причинам (обведите нужные).
\begin{enumerate}
\item Это единственная плохая оценка в моей зачетке.
\item Тот, кто полностью списал мою работу, получил более высокую оценку.
\item Тот, у кого я полностью списал работу, получил более высокую оценку.
\item Из-за низкого рейтинга меня могут не взять в
\begin{enumerate}
\item РЭШ
\item СМЕРШ
\item МГУ
\item На Луну
\item ..............
\end{enumerate}
\item Мне нужно получить 10, чтобы компенсировать 4 по ......................
\item Меня лишат стипендии.
\item Я не успел договориться с тётечками из копировального отдела и раздобыть варианты контрольной, потому что ..............................................
\item Я не посещал лекции, а тот, чьими конспектами я пользовался, не записал материал, необходимый для сдачи контрольных и домашек.
%\item Я изучил основные идеи, а на контрольных требовалось знание мельчайших деталей
%\item Я изучил мельчайшие детали, а на контрольных требовались общие идеи
\item Я отлично понимаю теорию, просто не умею решать задачи.
\item Я умею решать все задачи, а на контрольной требовалось знание теории.
\item У лектора/семинариста были предрассудки против негров/евреев/лесбиянок/..................
\item Все вопросы на экзамене допускали двойную трактовку.
Я считаю, что не должен нести наказание за то, что мое мнение — особенное.
\item Если я получу плохую оценку, отец отберет у меня ключи от машины.
\item Я не мог/могла заниматься из-за необходимости разгружать вагоны по ночам.
\item Нам сказали использовать творческий подход, но не объяснили, что это означает.
\item Я использовал в домашках творческий подход, но мне было сказано, что я несу всякую чушь.
\item Все остальные преподаватели согласны повысить мою оценку.
\item Семинары и лекции начинались:
\begin{enumerate}
\item слишком рано, я еще спал.
\item слишком поздно, я уже спал.
\item в обеденное время, я был голодный.
\end{enumerate}
\item Причина по которой я получил низкую оценку проста — я очень честный.
Не хочу ничего говорить о моих одногруппниках.
\item У меня нет особой причины, я просто хочу оценку повыше.
\end{enumerate}
\vspace{10pt}
Дата ................
\vspace{10pt}
Подпись ...............
\subsection{Цитаты}
\blockquote[?]{В выборке из ста муравьёв и одного кита средняя масса муравья может превышать тонну.}
\blockquote[Leamer, 1983]{Methodology, like sex, is better demonstrated than discussed, though often better anticipated than experienced.}
%\blockquote[Ершов, ?]{Выбирать модель по $R^2_{adj}$ — это всё равно, что выбирать жену по объёму груди.}
\blockquote[со стены Ивана Высоцкого вконтакте]{
— Иван, ты знаешь, у нас в Чили есть нестандартные обозначения.
Мы используем десятичную запятую вместо точки, умножение пишем точкой, а не крестиком, деление — двумя точками, а при измерении температуры пользуемся градусами Цельсия.
Я уверен, что ты сможешь поправить все по-своему, как привыкли дети в России. \\
— Разумеется, Раймундо, сделаем. Это не составит труда.}
\blockquote[Шведов]{Если на лекции всё понятно, это хорошо, если на докладе всё понятно, то уважать не будут!}
\section{Немного теории}
\subsection{Конвенция об обозначениях}
\begin{itemize}
\item $y$ — вектор-столбец зависимых переменных размера $(n \times 1)$, наблюдаемый случайный
\item $\beta$ — вектор-столбец неизвестных коэффициентов размера $(k \times 1)$, ненаблюдаемый, неслучайный
\item $\hy$ — вектор столбец прогнозов для $y$, полученных по некоторой модели, размера $(n \times 1)$, наблюдаемый, случайный
\item $\hb$ — вектор-столбец оценок $\beta$ размера $(k \times 1)$, наблюдаемый, случайный
\item $X$ — матрица всех объясняющих переменных, размера $(n \times k)$. Известная, стохастическая или детерминированная в зависимости от парадигмы.
\item $\e$ — вектор-столбец случайных ошибок размера $(n \times 1)$, ненаблюдаемый случайный
\item $\he$ — вектор-столбец остатков модели размера $(n \times 1)$, наблюдаемый случайный
\item $c$ — вектор из единиц
\end{itemize}
В некоторых учебниках используется обозначение $Y$ для исходного вектора зависимых переменных, а $y$ — для центрированного, т.е. $y=Y-\bar{Y}$. В этом документе $y$ обозначает исходный вектор $y$.
\subsection{Свойства ковариационных матриц}
Здесь $y$ — вектор-столбец $n\times 1$, $z$ — вектор-столбец $k\times 1$, $A$ — матрица констант подходящего размера, $b$ — вектор констант подходящего размера.
\begin{enumerate}
\item $\E(Ay+b)=A\E(y)+b$, $\E(yA+b)=\E(y)A+b$
\item $\Cov(y, z) = \E(yz') - \E(y)\E(z')$
\item $\Var(y) = \E(yy') - \E(y)\E(y')$
\item $\Cov(Ay + b, z) = A\Cov(y, z)$, $\Cov(y, Az + b) = \Cov(y, z) A'$
\item $\Var(Ay+b)=A\Var(y)A'$
\item $\Cov(y,z)=\Cov(z,y)'$
\end{enumerate}
\subsection{Картинка}
Утверждение. $\sCorr^2(y,\hy)=R^2$
Доказательство. По определению, $\sCorr(y,\hy)=\frac{(y-\bar{y})'(\hy-\bar{\hy})}{|y-\bar{y}||\hy-\bar{\hy}|}$. Поскольку в регрессии присутствует свободный член, $\bar{\hy}=\bar{y}$. Значит,
\begin{equation}
\sCorr(y,\hy)=\frac{(y-\bar{y})(\hy-\bar{y})}{|y-\bar{y}||\hy-\bar{y}|}=\cos(y-\bar{y},\hy-\bar{y})
\end{equation}
По определению, $R^2=\frac{|\hy-\bar{y}|^2}{|y-\bar{y}|^2}=\cos^2(y-\bar{y},\hy-\bar{y})$
\subsection{ТГМ. Детерминированные регрессоры}
\subsection{ТГМ. Стохастические регрессоры}
Если:
\begin{enumerate}
\item Истинная зависимость имеет вид $y_i=\beta_1 + \beta_2 x_{i2} + \ldots + \beta_k x_{ik}+\e_i$
В матричном виде: $y=X\beta + \e$
\item С помощью МНК оценивается регрессия $y$ на константу, $x_{.2}$, $x_{.3}$, \ldots, $x_{.k}$
В матричном виде: $\hb=(X'X)^{-1}X'y$
\item Наблюдений больше, чем оцениваемых коэффициентов $\beta$: $n>k$
\item Строгая экзогенность: $\E(\e_i | \text{ все } x_{ij})=0$
В матричном виде: $\E(\e_i | X)=0$
\item Условная гомоскедастичность: $E(\e_i^2 | \text{ все } x_{ij})=\sigma^2$
В матричном виде: $\E(\e_i^2 | X)=\sigma^2$
\item $\Cov(\e_i,\e_j | X)=0$ при $i \neq j$
\item вектора $(x_{i.},y_i)$ — независимы и одинаково распределены
\item с вероятностью 1 среди регрессоров нет линейно зависимых
$rank(X)=k$
$det(X'X)\neq 0$
$(X'X)^{-1}$ существует
\end{enumerate}
То:
% (свойства для конечных выборок, не требующие нормальности $\e$):
\begin{enumerate}
\item (тГМ) МНК оценки $\hb$ линейны по $y$:
$\hb_j=c_1 y_1 + \ldots + c_n y_n$
\item (тГМ) МНК оценки несмещенные. А именно, $\E(\hb |X )=\beta$, и в частности $\E(\hb)=\beta$
\item (тГМ) МНК оценки эффективны среди линейных несмещённых оценок. Для любой альтернативной оценки $\hb^{alt}$ удовлетворяющей свойствам 1 и 2:
$\Var(\hb_j^{alt} | X)\geq \Var(\hb_j | X)$
$\Var(\hb_j^{alt} )\geq \Var(\hb_j )$
\item $\Var(\hb | X )=\sigma^2 (X'X)^{-1}$
\item $\Cov(\hb,\hat{\e} | X)=0$
\item $\E(\hs^2 |X ) = \sigma^2$, и $\E(\hs^2 ) = \sigma^2$ ?остается ли при условной ГК?
\end{enumerate}
Если дополнительно к предпосылкам теоремы Гаусса-Маркова известно, что $\e |X \sim \cN$, то:
\begin{enumerate}
\item МНК оценки эффективны среди всех несмещённых оценок.
\item $t|X \sim t_{n-k}$, $t\sim t_{n-k}$
\item $RSS/\sigma^2 |X \sim \chi^2_{n-k}$, $RSS/\sigma^2 \sim \chi^2_{n-k}$
\item $F$ тест $F|X \sim F_{r, n-k_{UR}}$ при выполнении $r$ ограничений
\item $R^2 \sim \mathcal{B}(\ldots, \ldots)$ при $\beta_2 = \ldots = \beta_k = 0$
\end{enumerate}
Если дополнительно к предпосылкам теоремы Гаусса-Маркова известно, что $n\to \infty$, то:
\begin{enumerate}
\item $\hb \to \beta$ по вероятности (состоятельность)
\begin{proof}
Разложим $\hb$ в виде $\hb=(X'X)^{-1}X'y=(X'X)^{-1}X'(X\beta+\e)=\beta+(X'X)^{-1}X'\e$
Заметим, что $(X'X)^{-1}X'\e=\left(\frac{1}{n}X'X\right)^{-1}\frac{1}{n}X'\e$.
$\plim \left(\frac{1}{n}X'X\right)=\Var(X_{i.})$
$\plim \frac{1}{n}X'\e=0$
\end{proof}
\item $t \to \cN(0,1)$
\item $rF \to \chi^2_r$, $r$ — число ограничений при выполнении $r$ ограничений
\item $nR^2 \to \chi^2_{k-1}$ при $\beta_2 = \ldots = \beta_k = 0$
\item $\frac{RSS}{n-k} \to \sigma^2 $
\end{enumerate}
Сравнение двух парадигм
\begin{tabular}{c|cc}
\toprule
& детерминированные $X$ & случайные $X$ \\
\midrule
$\E(y_i)$ & разные, $X_{i.}\beta$ & одинаковые \\
$\sVar(y)$ — несмещенная оценка для $Var(y_i)$ & Нет & Да \\
\bottomrule
\end{tabular}
\subsection{Ликбез по линейной алгебре}
\begin{definition}
Неформально. Если матрица $A$ квадратная, то её определителем называется площадь/объём параллелограмма/параллелепипеда образованного векторами-столбцами матрицы. Знак определителя задаётся порядком следования векторов.
\end{definition}
Свойства определителя:
\begin{enumerate}
\item $\det(AB)=\det(A)\det(B)=\det(BA)$, если $A$ и $B$ квадратные
\item $\det(A)=\prod \lambda_i$, где $\lambda_i$ — собственное число матрицы $A$, возможно комплексное.
\end{enumerate}
\begin{definition}
Ненулевой вектор $x$ называется собственным вектором матрицы $A$, если при умножении на матрицу $A$ он остается на той же прямой, т.е. $Ax=\lambda x$.
\end{definition}
\begin{definition}
Число $\lambda$ называется собственным числом матрицы $A$, если существует вектор $x$, который при умножении на матрицу $A$ изменяется в $\lambda$ раз, т.е. $Ax=\lambda x$.
\end{definition}
\begin{definition}
Если матрица $A$ квадратная, то её следом называется сумма диагональных элементов, $\trace(A)=\sum a_{ii}$.
\end{definition}
Свойства следа:
\begin{enumerate}
\item $\trace(A+B)=\trace(A)+\trace(B)$
\item $\trace(AB)=\trace(BA)$, если $AB$ и $BA$ существуют. При этом $A$ и $B$ могут не быть квадратными матрицами.
\item $\trace(A)=\sum \lambda_i$, где $\lambda_i$ — собственное число матрицы $A$, возможно комплексное.
\end{enumerate}
Смысл следа. Если умножение на матрицу $A$ — это проецирование, то есть $Ax$ — есть проекция вектора $x$ на некоторое подпространство, то $\trace(A)$ — размерность этого подпространства. Действительно, если $A$ — проектор, то $A^2=A$ и собственные числа матрицы $A$ равны нулю или единице. Поэтому $\trace(A)$ равен количеству собственных чисел равных единице. И, следовательно, $\trace(A)$ равен $\rank(A)$, то есть размерности пространства, на которое матрица $A$ проецирует вектора. У следа матрицы есть и другие смыслы \autocite{mathoverflow0trace}.
\subsection{Ожидание от RSS}
\begin{theorem}
След и математическое ожидание можно переставлять, $\E(\tr(A))=\tr(\E(A))$.
\end{theorem}
\begin{theorem}
Математическое ожидание квадратичной формы
\begin{equation}
\E(x'Ax)=\tr(A\Var(x))+\E(x')A\E(x)
\end{equation}
\end{theorem}
\begin{proof}
Мы будем пользоваться простым приёмом. Если $u$ — это скаляр, вектор размера 1 на 1, то $\tr(u)=u$.
Поехали,
\begin{equation}
\E(x'Ax)=\E(\tr(x'Ax))=\E(\tr(Axx'))=\tr(\E(Axx'))=\tr(A\E(xx'))
\end{equation}
По определению дисперсии, $\Var(x)=\E(xx')-\E(x)\E(x')$. Поэтому:
\begin{equation}
\tr(A\E(xx'))=\tr(A(\Var(x)+\E(x)\E(x')))=\tr(A\Var(x))+\tr(A\E(x)\E(x'))
\end{equation}
И готовимся снова использовать приём $\tr(u)=u$:
\begin{equation}
\tr(A\Var(x))+\tr(A\E(x)\E(x'))=\tr(A\Var(x))+\tr(\E(x')A\E(x))=
\tr(A\Var(x))+\E(x')A\E(x)
\end{equation}
\end{proof}
\subsection{Устоявшиеся слова}
Выражение «гипотеза о значимости отдельного коэффициента» на самом деле означает «гипотеза о незначимости отдельного коэффициента», т.к. де-факто проверяется гипотеза $H_0$: $\beta_j=0$.
Выражение «гипотеза о значимости регрессии в целом» или «гипотеза об адекватности регрессии» на самом деле означает «гипотеза о незначимости регрессии в целом», т.к. проверяется $H_0$: $\beta_2=\ldots=\beta_k=0$.
В некоторых источниках гипотезу об адекватности регрессии ошибочно обозначают $H_0$: $R^2=0$. Эту ошибку не нужно повторять.
Гипотезы имеет смысл проверять о ненаблюдаемых величинах, а величина $R^2$ является наблюдаемой. И если уж на то пошло, то проверить гипотезу о том, что $R^2=0$ тривиально. Для этого не нужно знать ничего из теории вероятностей, достаточно просто сравнить посчитанное значение $R^2$ с нулём.
Более того, даже корректировка $H_0$: $\E(R^2)=0$ неверна. В модели, где в регрессоры включена только константа, величина $R^2$ тождественно равна нулю, поэтому $\E(R^2)=0$ и проверять такую гипотезу бессмысленно. В модели, где в регрессоры включено что-то помимо константы, $R^2$ является неотрицательной случайной величиной с $\P(R^2>0)>0$. Поэтому а-приори $\E(R^2)>0$ и проверка гипотезы $H_0$: $\E(R^2)=0$ снова бессмысленна.
Кстати, обозначение $H_0$ по-английски читается как «H naught», а не «H zero» или «H null». Также корректно говорить «the null hypothesis».
\subsection{Ridge/Lasso regression}
LASSO — Least Absolute Shrinkage and Selection Operator. Метод построения регрессии, предложенный Robert Tibshirani в 1995 году.
Вспомним обычный МНК:
\begin{equation}
\min_{\beta} (y-X\beta)'(y-X\beta)
\end{equation}
LASSO вместо исходной задачи решает задачу условного экстремума:
\begin{equation}
\min_{\beta} (y-X\beta)'(y-X\beta)
\end{equation}
при ограничении $\sum_{j=2}^{k}|\beta_j|\leq c$.
% \todo[inline]{Проверить! Нет ли у $\beta_1$ особого положения?}
Естественно, при больших значениях $c$ результат LASSO совпадает с МНК. Что происходит при малых $c$?
Для наглядности рассмотрим задачу с двумя коэффициентами $\beta$: $\beta_1$ и $\beta_2$. Линии уровня целевой функции — эллипсы. Допустимое множество имеет форму ромба с центром в начала координат.
\todo[inline]{на картинке три $c$: очень большое — дающиее мнк решение, меньше — ненулевые $\beta$, маленькое — одна из $\beta$ равна 0}
То есть при малых $c$ LASSO обратит ровно в ноль некоторые коэффициенты $\beta$.
Применим метод множителей Лагранжа для случая, когда ограничение $\sum_{j=1}^{k}|\beta_j|\leq c$ активно, то есть выполнено как равенство.
\begin{equation}
L(\beta,\lambda)=(y-X\beta)'(y-X\beta)+\lambda \left(\sum_{j=1}^{k}|\beta_j| - c \right)
\end{equation}
Необходимым условием первого порядка является $\partial L/\partial \beta =0$.
Это условие первого порядка не изменится, если мы зачеркнём $c$ в выражении.
Таким образом мы получили альтернативную формулировку метода LASSO:
\begin{equation}
\min_{\beta} (y-X\beta)'(y-X\beta)+\lambda \sum_{j=1}^{k}|\beta_j|
\end{equation}
LASSO пытается минимизировать взвешенную сумму $RSS=(y-X\beta)'(y-X\beta)$ и «размера» коэффициентов $\sum_{j=2}^{k}|\beta_j|$.
Мы не будем вдаваться в численные алгоритмы, которые используются при решении этой задачи.
Ridge regression отличается от LASSO ограничением $\sum \beta_j^2\leq c$.
Также как и LASSO Ridge regression допускает альтернативную формулировку:
\begin{equation}
\min_{\beta} (y-X\beta)'(y-X\beta)+\lambda \sum_{j=1}^{k} \beta_j^2
\end{equation}
Также как и LASSO Ridge regression тоже приближает значения коэффициентов $\beta_j$ к нулю.
Принципиальное отличие LASSO и RR.
В LASSO краевое решение с несколькими коэффициентами равными нулю является типичной ситуацией.
В RR коэффициент $\beta_j$ может оказаться точно равным нулю только по чистой случайности.
LASSO допускает байесовскую интерпретацию...
Предположим, что априорное распределение параметров следующее:
...
Тогда мода апостериорного распределения будут приходится в точности на оценки LASSO.
\subsection{Заповеди научного программирования}
\begin{enumerate}
\item Не помяни русские буквы или пробелы в имени файла твоего.
\item Не помяни запятую в качестве десятичного разделителя числа твоего.
\item Не используй никаких форматов хранения данных кроме csv пока не превышен будет объём диска твоего.
\item Почитай кодировку UTF-8 для русскоязычных текстов, чтобы продлились дни их на земле.
\item Проверяй целостность данных после загрузки и преобразований.
\item Комментируй свой код щедро и обильно.
\item Руководствуйся стилевым гидом при оформлении кода твоего.
\item Сохраняй seed в случайных экспериментах, дабы были они воспроизводимы.
\item Используй систему контроля версий, дабы не быть в горе и печали.
\end{enumerate}
\nocite{*}
\printbibliography
\section{2012-2013}
\subsection{Праздник 1. Пролетарий на коня!}
\begin{center}
\includegraphics[height=3in]{figures/proletarii.jpg}
\end{center}
\begin{enumerate}
\item Найдите длины векторов $a=(1,2,3)$ и $b=(1,0,-1)$ и косинус угла между ними.
\item Сформулируйте теорему о трёх перпендикулярах.
\item Сформулируйте и докажите теорему Пифагора.
\item Для матрицы
$A=\left(%
\begin{array}{ccc}
2 & 3 & 0 \\
3 & 10 & 0 \\
0 & 0 & -1 \\
\end{array}%
\right)$ \\
\begin{enumerate}
\item Найдите собственные числа и собственные векторы матрицы.
\item Найдите обратную матрицу, $A^{-1}$, ее собственные векторы и собственные числа.
\item Представьте матрицу $A$ в виде $A=CDC^{-1}$, где $D$ — диагональная матрица.
\item Представьте $A^{2012}$ в виде произведения трёх матриц.
\end{enumerate}
\item Вася и Петя независимо друг от друга решают тест по теории вероятностей. В тесте всего два вопроса. На каждый вопрос два варианта ответа. Петя знает решение каждого вопроса с вероятностью $0{,}7$. Если Петя не знает решения, то он отвечает равновероятно наугад. Вася знает решение каждого вопроса с вероятностью $0{,}5$. Если Вася не знает решения, то он отвечает равновероятно наугад.
\begin{enumerate}
\item Какова вероятность того, что Петя правильно ответил на оба вопроса?
\item Какова вероятность того, что Петя правильно ответил на оба вопроса, если его ответы совпали с Васиными?
\item Чему равно математическое ожидание числа Петиных верных ответов?
\item Чему равно математическое ожидание числа Петиных верных ответов, если его ответы совпали с Васиными?
\end{enumerate}
\item Для случайных величин $X$ и $Y$ заданы следующие значения: $\E(X)=1$, $\E(Y)=4$, $\E(XY)=8$, $\Var(X)=\Var(Y)=9$. Для случайных величин $U=X+Y$ и $V=X-Y$ вычислите:
\begin{enumerate}
\item $\E(U)$, $\Var(U)$, $\E(V)$, $\Var(V)$, $\Cov(U,V)$
\item Можно ли утверждать, что случайные величины U и V независимы?
\end{enumerate}
\item Вася ведёт блог. Обозначим $X_i$ — количество слов в $i$--ой записи. После первого года он по своим записям обнаружил, что $\bar{X}_{200}=95$ и выборочное стандартное отклонение равно 282 слова. На уровне значимости $\alpha=0.10$ проверьте гипотезу о том, что $\mu=100$ против альтернативной гипотезы $\mu\neq 100$. Найдите также точное P-значение.
\end{enumerate}
\subsection{Праздник 2. Базовая задача}
Плывут облака \\
Отдыхать после знойного дня,\\
Стремительных птиц \\
Улетела последняя стая. \\
Гляжу я на горы, \\
И горы глядят на меня, \\
И долго глядим мы,\\
Друг другу не надоедая.\\
\quote{Ли Бо, Одиноко сижу в горах Цзинтиншань}
\vspace{30pt}
\begin{enumerate}
\item Случайные величины $Z_i$ независимы и нормально распределены $\cN(0,1)$. Для их суммы $S=\sum_{i=1}^n Z_i$ найдите $\E(S)$ и $\Var(S)$.
\item Социологическим опросам доверяют 70\% жителей. Те, кто доверяют
опросам, на все вопросы отвечают искренне; те, кто не доверяют, отвечают равновероятно наугад. Социолог Петя в анкету очередного опроса включил вопрос «Доверяете ли Вы социологическим опросам?»
\begin{enumerate}
\item Какова вероятность, что случайно выбранный респондент ответит «Да»?
\item Какова вероятность того, что он действительно доверяет, если известно, что он ответил
«Да»?
\end{enumerate}
\item Регрессионная модель задана в матричном виде при помощи уравнения $y=X\beta+\e$, где $\beta=(\beta_1,\beta_2,\beta_3)'$.
Известно, что $\E(\e)=0$ и $\Var(\e)=\sigma^2\cdot I$.
Известно также, что
$y=\left(
\begin{array}{c}
1\\
2\\
3\\
4\\
5
\end{array}\right)$,
$X=\left(\begin{array}{ccc}
1 & 0 & 0 \\
1 & 0 & 0 \\
1 & 0 & 1 \\
1 & 1 & 0 \\
1 & 1 & 0
\end{array}\right)$.
Для удобства расчетов приведены матрицы
$X'X=\left(
\begin{array}{ccc}
5 & 2 & 1\\
2 & 2 & 0\\
1 & 0 & 1
\end{array}\right)$ и $(X'X)^{-1}=\frac{1}{2}\left(
\begin{array}{ccc}
1 & -1 & -1 \\
-1 & 2 & 1 \\
-1 & 1 & 3
\end{array}\right)$.
\begin{enumerate}
\item Укажите число наблюдений.
\item Укажите число регрессоров с учетом свободного члена.
\item Рассчитайте при помощи метода наименьших квадратов $\hb$, оценку для вектора неизвестных коэффициентов.
\item Рассчитайте $TSS=\sum (y_i-\bar{y})^2$, $RSS=\sum (y_i-\hat{y}_i)^2$ и $ESS=\sum (\hat{y}_i-\bar{y})^2$.
\item Чему равен $\he_4$, МНК-остаток регрессии, соответствующий 4-ому наблюдению?
\item Чему равен $R^2$ в модели?
\item Рассчитайте несмещенную оценку для неизвестного параметра $\sigma^2$ регрессионной модели.
\item Рассчитайте $\widehat{\Var}(\hb)$, оценку для ковариационной матрицы вектора МНК-коэффициентов $\hb$.
\item Найдите $\widehat{\Var}(\hb_1)$, несмещенную оценку дисперсии МНК-коэффициента $\hb_1$.
\item Найдите $\widehat{\Cov}(\hb_1,\hb_2)$, несмещенную оценку ковариации МНК-коэффициентов $\hb_1$ и $\hb_2$.
\item Найдите $\widehat{\Var}(\hb_1+\hb_2)$
\item Найдите $\hCorr(\hb_1,\hb_2)$, оценку коэффициента корреляции МНК-коэффициентов $\hb_1$ и $\hb_2$.
\item Найдите $se(\hb_1)$, стандартную ошибку МНК-коэффициента $\hb_1$.
\end{enumerate}
\item В классической линейной модели предполагается, что $\E(\e)=0$, $\Var(\e)=\sigma^2 I$. Найдите $\Cov(y,\he)$, $\Cov(\hy,\he)$.
\end{enumerate}
\subsection{Праздник 2. Базовая задача, ответы}
\begin{enumerate}
\item $\E(S) = 0$, $\Var(S) = n$.
\item
\begin{enumerate}
\item $0.85$
\item $0.7 / 0.85$
\end{enumerate}
\item
\begin{enumerate}
\item $n = 5$
\item $k = 3$
\item $\hb_1 = 1.5, \hb_2 = 3, \hb_3 = 1.5$
\item $TSS = 10, RSS = 1, ESS = 9$
\item $\he_4 = -0.5$
\item $R^2 = 0.9$
\item $\hat{\sigma}^2 = \frac{RSS}{n-k} = 0.5$
\item $\widehat{\Var}(\hb) = 0.25 (X'X)^{-1}=\frac{1}{8}\left(
\begin{array}{ccc}
1 & -1 & -1 \\
-1 & 2 & 1 \\
-1 & 1 & 3
\end{array}\right)$
\item $\widehat{\Var}(\hb_1) = 0.25$
\item $\widehat{\Cov}(\hb_1,\hb_2) = -0.25$
\item $\widehat{\Var}(\hb_1+\hb_2) = 0.5$
\item $\hCorr(\hb_1,\hb_2) = -\frac{1}{\sqrt{2}}$
\item $se(\hb_1) = 0.5$
\end{enumerate}
\item $\Cov(y,\he) = \sigma^2 (I-H)$, $\Cov(\hy,\he) = 0$
\end{enumerate}
\subsection{Праздник 3. Дню рождения буквы «ё» посвящается\ldots}
\begin{enumerate}
\item Выберите верные варианты.
\begin{enumerate}
\item Побасёнка — Побасенка
\item Вёдро — Ведро
\item Гренадёр — Гренадер
\item Новорождённый — Новорожденный
\item Бытиё — Бытие
\item Опёка — Опека
\item Сёрфинг — Серфинг
\item Пафнутий Львович Чебышёв — Пафнутий Львович Чебышев
\item Лёв Николаевич Толстой — Лев Николаевич Толстой
\end{enumerate}
\item По 47 наблюдениям оценивается зависимость доли мужчин занятых в сельском хозяйстве от уровня образованности и доли католического населения по Швейцарским кантонам в 1888 году.
\[Agriculture_i=\beta_1+\beta_2 Examination_i+\beta_3 Catholic_i+\e_i\]
\begin{minted}[mathescape,
linenos,
numbersep=5pt,
frame=lines,
framesep=2mm]{r}
library("lmtest")
library("apsrtable")
library("xtable")
h <- swiss
model1 <- glm(Agriculture ~ Examination + Catholic, data = h)
coef.t <- coeftest(model1)
dimnames(coef.t)[[2]] <- c("Оценка", "Ст. ошибка", "t-статистика", "P-значение")
coef.t <- coef.t[, -4]
coef.t[1, 1] <- NA
coef.t[2, 2] <- NA
coef.t[3, 3] <- NA
xtable(coef.t)
\end{minted}
\begin{table}[ht]
\centering
\begin{tabular}{rrrr}
\hline
& Оценка & Ст. ошибка & t-статистика \\
\hline
(Intercept) & & 8.72 & 9.44 \\
Examination & -1.94 & & -5.08 \\
Catholic & 0.01 & 0.07 & \\
\hline
\end{tabular}
\end{table}
\begin{enumerate}
\item Заполните пропуски в таблице.
\item Укажите коэффициенты, значимые на 10\% уровне значимости.
\item Постройте 95\%-ый доверительный интервал для коэффициента при переменной Catholic
\end{enumerate}
\item Оценивается зависимость уровня фертильности всё тех же швейцарских кантонов в 1888 году от ряда показателей. В таблице представлены результаты оценивания двух моделей.
Модель 1: $Fertility_i=\beta_1+\beta_2 Agriculture_i+\beta_3 Education_i+\beta_4 Examination_i+\beta_5 Catholic_i+\e_i$
Модель 2: $Fertility_i=\gamma_1+\gamma_2 (Education_i+Examination_i)+\gamma_3 Catholic_i+u_i$
\begin{minted}[mathescape,
linenos,
numbersep=5pt,
frame=lines,
framesep=2mm]{r}
m1 <- lm(Fertility ~ Agriculture + Education + Examination + Catholic, data = h)
m2 <- lm(Fertility ~ I(Education + Examination) + Catholic, data = h)
apsrtable(m1, m2)
\end{minted}
\begin{table}[!ht]
\caption{}
\label{}
\begin{tabular}{ l D{.}{.}{2}D{.}{.}{2} }
\hline
& \multicolumn{ 1 }{ c }{ Model 1 } & \multicolumn{ 1 }{ c }{ Model 2 } \\ \hline
% & Model 1 & Model 2 \\
(Intercept) & 91.06 ^* & 80.52 ^*\\
& (6.95) & (3.31) \\
Agriculture & -0.22 ^* & \\
& (0.07) & \\
Education & -0.96 ^* & \\
& (0.19) & \\
Examination & -0.26 & \\
& (0.27) & \\
Catholic & 0.12 ^* & 0.07 ^* \\
& (0.04) & (0.03) \\
I(Education + Examination) & & -0.48 ^*\\
& & (0.08) \\
$N$ & 47 & 47 \\
$R^2$ & 0.65 & 0.55 \\
adj. $R^2$ & 0.62 & 0.53 \\
Resid. sd & 7.74 & 8.56 \\ \hline
\multicolumn{3}{l}{\footnotesize{Standard errors in parentheses}}\\
\multicolumn{3}{l}{\footnotesize{$^*$ indicates significance at $p< 0.05 $}}
\end{tabular}
\end{table}
\begin{enumerate}
\item Посчитайте $RSS$ для каждой модели.
\item Какая модель является ограниченной (короткой), какая — неограниченной (длинной)?
\item Какие ограничения нужно добавить к неограниченной модели, чтобы получить ограниченную?
\item Найдите наблюдаемое значение $F$ статистики.
\item Отвергается или не отвергается гипотеза об ограничениях?
\end{enumerate}
\end{enumerate}
\subsection{Праздник 4, ML}
\WhiteRoseLine
\begin{enumerate}
\item Наблюдения $X_1,X_2,\ldots,X_n$ независимы и одинаково распределены с функцией плотности $f(x)=\frac{a(\ln(x))^{a-1}}{x}$ при $x\in [1;e]$. По 100 наблюдениям известно, что $\sum_{i=1}^{100} \ln(\ln(X_i))=-20$
\begin{enumerate}
\item Оцените параметр $a$ методом максимального правдоподобия
\item Проверьте гипотезу о том, что $a=5$ против альтернативной $a\neq 5$ с помощью теста отношения правдоподобия, теста Вальда, теста множителей Лагранжа
\item Постройте 95\%-ый доверительный интервал для параметра $a$
\end{enumerate}
\item \useR Фактическое распределение часовой и десятиминутной скорости ветра хорошо приближается распределением Вейбулла. Случайная величина имеет распределение Вейбулла, если её функция плотности при $x>0$ имеет вид
\[
f(x)=\frac{1}{\lambda^k}kx^{k-1}\exp(-x^k/\lambda^k)
\]
\begin{enumerate}
\item Оцените параметры $k$ и $\lambda$ методом максимального правдоподобия
\item Постройте 95\%-ые доверительные интервалы для $k$ и $\lambda$
\end{enumerate}
Часовые данные я не нашёл, нашёл дневные. Данные по среднедневной скорости ветра содержатся в \verb|weather_nov_2012_moskow.csv| в стобике \verb|wind|. Данные взяты с сайта \url{http://www.atlas-yakutia.ru/weather/climate_russia-I.html}.
Hint: \verb|read.csv("filename.csv")|
\end{enumerate}
\RedRoseLine
\begin{enumerate}
\item Купив пачку мэндэмс я насчитал в ней 1 жёлтую, 7 зелёных, 4 оранжевых, 3 коричневых, 2 синих и 1 красную мэндэмсину. С помощью теста отношения правдоподобия проверьте гипотезу, что мэндэмсины всех цветов встречаются равновероятно.
\item \useR Фактическое распределение часовой и десятиминутной скорости ветра хорошо приближается распределением Вейбулла. Случайная величина имеет распределение Вейбулла, если её функция плотности при $x>0$ имеет вид
\[
f(x)=\frac{1}{\lambda^k}kx^{k-1}\exp(-x^k/\lambda^k)
\]
\begin{enumerate}
\item Найдите функцию распределения $F(x)$
\item Выразите медиану распределение Вейбулла, $m$, через параметры $k$ и $\lambda$
\item Оцените параметры $k$ и $\lambda$ методом максимального правдоподобия
\item Постройте 95\%-ые доверительные интервалы для $k$ и $\lambda$
\item Выпишите функцию плотности распределения Вейбулла через $m$ и $k$
\item Проверьте гипотезу о том, что медиана равна 1 м/сек с помощью трёх тестов
\end{enumerate}
Часовые данные я не нашёл, нашёл дневные. Данные по среднедневной скорости ветра содержатся в \verb|weather_nov_2012_moskow.csv| в стобике \verb|wind|. Данные взяты с сайта \url{http://www.atlas-yakutia.ru/weather/climate_russia-I.html}.
\end{enumerate}
\subsection{Праздник 5, 01.04.2013, Гетероскедастичность}
C 1-м апреля!!!
\begin{enumerate}
\item Рождается старичком, умирает младенцем, сегодня празднует день рождения, но не Гоголь.
Кто это? Опишите внешний вид, характер, или нарисуйте его :)
\item Для борьбы с гетероскедастичностью в модели $y_i=\beta_1+\beta_2 x_i+\e_i$ исследователь перешёл к модели $\tilde{y}_i=\beta_1 \frac{1}{z_i}+\beta_2 \tilde{x}_i+\tilde{\e}_i$, где $\tilde{x}_i=x_i/z_i$, $\tilde{y}_i=y_i/z_i$, $\tilde{\e}_i=\e_i/z_i$.
Какой вид гетероскедастичности предполагался?
\item Василий Аспушкин провёл два разных теста на гетероскедастичность на одном уровне значимости. Оказалось, что в одном из них $H_0$ отвергается, а в другом — нет.
\begin{enumerate}
\item Почему это могло случиться?
\item Какой же вывод о гетероскедастичности следует сделать Василию? Что можно сказать об уровне значимости предложенного Вами способа сделать вывод?
\end{enumerate}
\item Писатель Василий Аспушкин пишет Большой Роман. Количество страниц, которое он пишет ежедневно, зависит от количества съеденных пирожков, выпитого лимонада и числа посещений Музы.
\[
Stranitsi_i = \beta_1 + \beta_2 Pirojki_i + \beta_3 Limonad_i + \beta_4 Musa_i + \e_i
\]
Когда идёт дождь, Василий Аспушкин очень волнуется: он ошибочно считает, что музы плохо летают в дождь. Поэтому в дождливые дни дисперсия $\e_i$ может быть выше.
\begin{enumerate}
\item Отсортировав имеющиеся наблюдения по количеству осадков в день, Настойчивый издатель построил регрессию по 40 самым дождливым дням и получил $RSS=\sum_i (y_i-\hat{y}_i)^2=360$. В регрессии по 40 самым сухим дням $RSS=252$. Всего имеется 100 наблюдений. Проверьте гипотезу о гомоскедастичности. Как называется соответствующий тест?
\item Василий Аспушкин оценил по 100 наблюдениям исходную модель с помощью МНК. А затем построил регрессию квадратов стьюдентизированных остатков на количество осадков и константу. Во второй регрессии $R^2=0.3$. Проверьте гипотезу о гомоскедастичности.
\item Предположим, что дисперсия ошибок линейно зависит от количества осадков.
\begin{enumerate}
\item Как будет выглядеть функция максимального правдоподобия для оценивания коэффициентов исходной модели?
\item Опишите процедуру доступного обобщенного метода наименьших квадратов (FGLS, feasible generalized least squares) применительно к данной ситуации
\end{enumerate}
\end{enumerate}
Hint: Функция плотности одномерного нормального распределения имеет вид
\[
f(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2} \right)
\]
% многомерное
%f(x)=(2\pi)^{-n/2} \det(\Omega)^{-1/2} \exp\left(-\frac{1}{2}(x-\mu)'\Omega^{-1}(x-\mu)\right)
\item В курсе теории вероятностей изучался тест о равенстве математических ожиданий по двум нормальным выборкам при предпосылке о равенстве дисперсий. Предложите состоятельный способ тестировать гипотезу о равенстве математических ожиданий без предпосылки равенства дисперсий.
\end{enumerate}
\subsection{Домашнее задание 3. Знакомство с RLMS}
\begin{enumerate}
\item Прочитайте про RLMS, \url{http://www.hse.ru/rlms/}
Посмотрите описание проекта. Пролистайте вестник RLMS, чтобы иметь представление о том, какие исследования можно строить на основе RLMS.
\item Скачайте любую волну RLMS по своему выбору. Скачайте описание переменных.
Пролистайте описание переменных. Там их больше тысячи. Попадаются довольно прикольные. Мне нравится pc9.6.5a, «У Вас есть GPRS навигатор?»
\item Загрузите данные в R.
Данные RLMS выложены на сайте в формате SPSS. SPSS это потихоньку погибающий статистический пакет для домохозяек. Для чтения формата .sav в таблицу данных R можно сделать так
\begin{minted}[mathescape,
linenos,
numbersep=5pt,
frame=lines,
framesep=2mm]{r}
library(foreign)
file.name <- "/home/boris/downloads/r20hall23c.sav"
h <- read.spss(file.name, to.data.frame = TRUE)
\end{minted}
Первая команда, \verb|library(foreign)|, подгружает библиотеку R, в которой содержатся команды для чтения вражеских форматов, spss, stata, etc
Описания переменных при этом также загружаются в таблицу данных.