Иной разум. Как «думает» искусственный интеллект? - Андрей Владимирович Курпатов
125
Wei J.et al. Emergent abilities of large language models //arXiv. 2022. DOI: 10.48550/arXiv.2206.07682.
126
Bender E. M. et al. On the dangers of stochastic parrots: can language models be too big? // Conference on Fairness, Accountability, and Transparency (FAccT'21), March 3–10, 2021. N. Y.: Association for Computing Machinery, 2021. P. 610–623.
127
Anderson P. W. More is different // Science. 1972. Vol. 177(4047). P. 393–396. DOI: 10.1126/science.177.4047.393.
128
Rumelhart D. E. et al. Parallel distributed processing: explorations in the microstructure of cognition. Volume 1. Foundations. Cambridge (Mass.): MIT Press, 1986.
129
Такова размерность векторных представлений — эмбеддингов — в GPT–3, сама же модель содержит 96 слоёв трансформера, через которые последовательно проходят эти векторы.
130
Elhage N. et al. Toy Models of Superposition // arXiv preprint. 2022. DOI: 10.48550/arXiv.2209.10652.
131
Ухтомский А. А. Доминанта. СПб: Питер, 2002. 448 с.
132
Тьюринг А. Вычислительные машины и разум / пер. с англ. К. Королёва. М.: АСТ, 2021. 128 с.
133
Лейбниц Г. В. Сочинения: в 4 т. Т. 3 / ред. и сост., авт. вступ. ст. и примеч. Г. Г. Майоров и А. Л. Субботин; пер. Я. М. Боровского и др М.: Мысль, 1984. 734 с.
134
Гоббс Т. Левиафан, или Материя, форма и власть государства церковного и гражданского / пер. с лат. и англ. Н. Федорова и А. Гутермана. М.: Мысль, 2001. 478 с.
135
MMcCarthy J. et al. A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence, August 31, 1955 // AI Magazine. 2006. Vol. 27(4). P. 12–14.
136
Newell A., Simon H. A. The logic theory machine — A complex information processing system // Institute of Radio Engineers, Transactions on information theory. 1956. Vol. IT–2(3). P. 61–79.
137
Simon H. A. The Shape of automation for men and management. N. Y.: Harper & Row, 1965. 152 p.
138
Winograd T. Understanding natural language. N. Y.: University Press, 1972. 196 p.
139
Minsky M. A Framework for Representing Knowledge. MIT-AI Laboratory Memo 306. Republished in The Psychology of computer vision / ed. by P. Winston. N. Y.: McGraw-Hill, 1975.
140
Dreyfus H. L. What computers can't do: the limits of artificial intelligence. N. Y.: Harper & Row, 1979. 374 p.
141
Minsky M., Papert S., Bottou L. Perceptrons: an introduction to computational geometry. Cambridge (Mass.): MIT Press, 1969. 258 p.
142
Rumelhart D. E., Hinton G. E., Williams R. J. Learning representations by back-propagating errors.
143
Анохин П. К. Системные механизмы высшей нервной деятельности: избранные труды. М.: Наука, 1979. 456 с.
144
Hubel D. H., Wiesel T. N. Receptive fields, binocular interaction and functional architecture in the cat's visual cortex // The Journal of physiology. 1962. Vol. 160(1). P. 106–154. DOI: 10.1113/jphysiol.1962.sp006837.
145
LeCun Y. et al. Backpropagation applied to handwritten zip code recognition // Neural computation. 1989. Vol. 1. P. 541–551. DOI: 10.1162/neco.1989.1.4.541.
146
LeCun Y. et al. Gradient-based learning applied to document recognition // Proceedings of the IEEE. 1998. Vol. 86(11). P. 2278–2324. DOI: 10.1109/5.726791.
147
Bengio Y. Learning deep architectures for AI // Foundations and trends® in Machine Learning. 2009. Vol. 2(1). P. 1–127. DOI: 10.1561/2200000006.
148
Krizhevsky A., Sutskever I., Hinton G. E. ImageNet classification with deep convolutional neural networks // Communications of the ACM. 2012. Vol. 60. P. 84–90. DOI:10.1145/3065386.
149
Термин «всплывающие способности» (emergent abilities) был введён и детально описан в знаковой работе исследователей Google Research и Стэнфордского университета. В этой статье было показано, как способности, отсутствующие у моделей меньшего размера, внезапно и непредсказуемо появляются при достижении определённого масштаба.
150
Wei J. et al. Emergent abilities of large language models.
151
Vaswani A. et al. Attention is all you need.
152
Ouyang L. et al. Training language models to follow instructions with human feedback // Advances in Neural Information Processing Systems. 2022. Vol. 35. P. 27730–27744. DOI: 10.48550/arXiv.2203.02155.
153
Wei J. et al. Chain of Thought Prompting Elicits Reasoning in Large Language Models // arXiv. 2022. DOI: 10.48550/arXiv.2201.11903.
154
Хайдеггер М. Бытие и время / пер. с нем. В. В. Бибихина. М.: Ad Marginem, 1997. 464 с.
155
Hofstadter D., Sander E. Surfaces and essences: analogy as the fuel and fire of thinking. N. Y.: Basic Books, 2013. xiv, 578 p.
156
Anderson P. W. More is different.
157
Wei J. et al. Emergent Abilities of Large Language Models // Transactions on Machine Learning Research. — 2022. URL: https://arxiv.org/abs/2206.07682.
158
Бостром Н. Искусственный интеллект: этапы, угрозы, стратегии / пер. с англ. С. Филина. М.: Манн, Иванов и Фербер, 2016. 490 с.
159
Epley N., Waytz A., Cacioppo J. T. On seeing human: a three-factor theory of anthropomorphism // Psychological review. 2007. Vol. 114(4). P. 864–886. DOI: 10.1037/0033–295X.114.4.864.
160
Кей Д., Кинг М. Радикальная неопределённость: принятие решений за пределами цифр / пер. с англ. К. Орловская. Ереван: Fortis Press, 2025. 620 с.
161
Кант И. Критика чистого разума / пер. с нем. Н. Лосского. — М.: Мысль, 1994. — 591 с.
162
Brown T. B. et al. Language models are few-shot learners // Advances in neural information processing systems. 2020. Vol. 33. P. 1877–1901.
163
Brohan




