Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

Mrs Wallbreaker or: How I Learned to Stop Worrying and Love the AGI. About AI Risk, AI Alignment, AI Safety, AI Ethics ********************* задать вопросы в личку: @mrs_wallbreaker

Russia463 328Russian467 376Technologies & Applications50 791

Advertising posts

289

Subscribers

No data24 hours

+107 days

+7530 days

157

Post views

No data24 hours

~ 6148 hours

54.33%

Engagement rate

No data24 hours

21.1%48 hours

Mentions

No data7 days

No data30 days

~ 1

Posts per day

~ 6

Reactions

~ 2

Comments

~ 1

Reposts

Subscribers
Post coverage
ER - engagement ratio

Data loading in progress...

Второй повод хвастаться - это найм в стезю AI Alignment. Последний месяц я проходила 100500 этапов в FAR AI и в METR. Я тут сильно ссусь каких-либо разглашений (к тому же на каждом из этапов компании так мило просили не делиться конкретикой далее, я буду соблюдать)))), поэтому в деталях рассказывать не буду, но раскажу базово и то, что мне показалось интересным. Сначала про неудачи: FAR AI. Этапы такие: 1. Техническое задание на 1.5 часа (с таймером) 2. Тест на 30 минут 3. Скрининг-интервью с HR 4. Техническое интервью. 5. Код-ревью 6. Work trial (до 2 недель) + NDA. В FAR AI мне пришел отказ после технического собеседования. Что пошло не так - сказать сложно, мне казалось, я справилась хорошо, и отказ был неожиданным и, как обычно, без всяких там уточнений, что и куда. Про удачи: METR. Этапы такие: 1. Техническое задание на 30 минут (с таймером) 2. Скрининг-интервью с хедом RnD 3. Тест на 1.5-2 часа. 4. Техническое задание на 8 часов на их инфраструктуре (поэтому букать время нужно по Pasific часовому поясу, чтобы на той стороне был человек, который поможет с доступами и прочим). 5. Опрос референсов, где бывшие коллеги должны вас нахвалить или наругать. 6. Финалка с фаундерами + NDA. 7. Work trial (до 2 недель, у меня был 3 дня) После проверки моего PR и лога работы, ребята вернулись с офером! Так что я принимаю и офер и поздравления, начинайте)))) Мечта идиота сбылась - пойду искать красные кнопки и сроки их нажатия для этого вашего ИИ. Из непривычного для меня, как для человека, который до это устраивался и работал только на рускоязычные компании: 1. На вопросы о том, что за работа, как работать, как не работать - не отвечают до подписанного NDA, который, как вы заметили, доступен только на последних этапах. В FAR я до этого этапа даже не дошла, в METR на вопросы ответили только во время согласования выхода в триал. Очень не хватает возможности обсудить все вопросы и детали до серьезного погружения в процесс найма. 2. Work trial - это что за покемон? Это прям полноценная рабочая работа, без всяких онбордингов и прочего облизывания кандидата. Пришел на стендап, познакомился с командой, сходил на one2one с лидом, где выдали задачку на ближайшие три для. Все, фигачишь задачу, пишешь лог работы, коммитишь как не в себя, посещаешь митинги. Одновременно со мной были еще 2 кандидата в триал работе: один ажно из OpenAI, ему офер не сделали((( 3. Дают очень мало фидбека, который не позволяет оценить себя по какой нибудь шкале и сравнить себя с другими кандидатами на позицию. По техническим заданиям - тут могу только похвалить, все задачки крайне интересные. Из основных ограничений - списывать нельзя, гуглить почти нельзя, пиши, что помнишь))) Отлично то, что компании заранее предупреждают, сколько времени нужно выделить на тестовое задание, и что они ожидают по результатам тестового, DoD четко определен. Такая прозрачность и однозначность снижает тревожность. Никаких ~~всратых~~ алгоритмов!!! Только реализация методов ML/DL. Задачки очень интересные, не жалко потраченного на них времени совсем. Еще из похвалить - сесуриту выстроено на высоком уровне. Мне, как плебсу, доступов почти никуда не дают, зато то, что дают - проходит капец как смузно и почти без напряга с моей стороны. Очень радует, что все эти рекомендации от всяких там агенств по безопасному ИИ о построении безопасности внутри компаний, имеющих отношение к алайменту - реально соблюдаются!! Итого, у меня есть почта с @metr.org на конце))) - радостно)))

Show all...

🔥 26🏆 5👏 2

как вы заметили, я тут чутка пропала. Мои фанаты часто спрашивают меня: ~~мы не твои фанаты, кто ты такая, мы тебя не знаем, зачем ты за нами ходишь?~~ а что же случилось? А случилось много чего, поэтому хочу побряцать новыми регалиями)) Хвастаюсь про образование: Я на финальной прямой курса от BlueDot - AI Safety Fundamentals - AI Alignment+ Course: заканчиваю свой выпускной проект. Как это выглядело: - 3 месяца и 12 сессионных недель - за неделю перед сессией нужно прочитать материалы из куррикулума, выполнить домашки - раз в неделю вы собираетесь своей когортой на сессию на пару часов обсудить прочитанное, позадавать вопросы, поделиться доп. материаламы и результатами домашки, получить доп. чтения в нагрузку от куратора и друг от друга по теме. - когорта состоит из разношерстной публики - МЛщики, программисты, далекие от МЛ, менеджеры рисков, аналитики, управленцы разного уровня и прочие вкатывальщики и мастодонты алаймента. Например, в моей когорте были ребята из METR и MATS. Получается, что тему вы разбираете крайне мультидисциплинарно - и это капец как круто и порождает множество открытий и инсайтов. - последний месяц отведен на собственный проект - задачка на 20-25 часов работы. Что имею сказать личного по поводу: - не верьте тому, что занятость ограничится только 4-6 часами в неделю. Обязательного чтения крайне недостаточно. - дополнительное чтение увлекательно и тоже породит целые have2read собсвенные списки. Я до сих пор не разобрала свой список. Если у вас есть рецепты, как сокращать список чтения, а не расширять его, поделитесь, пожалуйста. Я эту магию до сих пор не познала((( - мне кажется, что у меня курс занимал около 20 часов в неделю, и мне казалось, что этого тоже недостаточно(( - удивительно, но не все участники выживают до финала курса. Из моей когорты в 10 человек на старте курса до проекта доехало трое. Куда смотреть дальше по теме: - STS 10SI: Intro to AI Alignment - CUEA Standard AI Safety Reading Group Syllabus - Columbia EA - Intro to ML Safety Course - CAIS - Redwood Research MLAB bootcamp - AISF Governance Course - ARENA Форумы и вечернее чтиво: - https://www.alignmentforum.org/ - best-of-the-best работы технического и стратегического характера о темах AI Safety, Risks, Alignment и т.д. от лучших умов области - https://www.lesswrong.com/ - сборная солянка из взякого околорационального. Только лучшее отсюда попадет на alignment forum.

Show all...

AI Safety Fundamentals – BlueDot Impact

👍 7🔥 5❤ 1👏 1

Escalation Risks from Language Models in Military and Diplomatic Decision-Making. Короткометражка (видео по ссылке) от Институт Будущего Жизни (The Future of Life Institute) по поводу склонностей ИИ к эскалациям конфликтов (пост) спойлер: Интересно, что по истории фильма - даже в случае, когда финальное решение принимается людьми, из-за ограничений по времени и экстремального стресса и неопределенности катастрофа все же происходит. Сначала я подумала - интересно, если бы один президент успел дозвониться второму, удалось ли все замять и исправить? А потом вспомнила, что сидя на унитазе никто звонки не принимает и кроме рилсов ничего не читает, и решила, что все таки сценарий реалистичный))) PS: Институт Будущего Жизни (The Future of Life Institute, сайт) — некоммерческая организация, которая стремится направлять трансформационные технологии во благо жизни и предотвращать масштабные риски. Основное внимание сосредотачено на экзистенциальных рисках от передовых технологий ИИ.

Show all...

Artificial Escalation

This work of fiction seeks to depict key drivers that could result in a global Al catastrophe: - Accidental conflict escalation at machine speeds; - Al integrated too deeply into high-stakes functions; - Humans giving away too much control to Al; - Humans unable to tell what is real and what is fake, and; - An arms race that ultimately has only losers. The good news is, all of these risks can be avoided. This story does not have to be our fate. Please share this video and learn more at

https://futureoflife.org/artificial-escalation.

This video has been informed by a 2020 paper from the Stockhold International Peace Research Institute (SIPRI): Boulanin, Vincent et al. ‘Artificial Intelligence, Strategic Stability and Nuclear Risk’.

https://www.sipri.org/publications/2020/other-publications/artificial-intelligence-strategic-stability-and-nuclear-risk

The sequel to this video:

https://www.youtube.com/watch?v=-xthzy1PxTA

👍 3

Escalation Risks from Language Models in Military and Diplomatic Decision-Making. ИИ склонны эскалировать конфликты в симуляциях военных игр. Мы уже видели пример CICERO от Meta, играющего в «Дипломатию» (пост). Там стремление выиграть в игру любой ценой классифицировалось как «обманчивое» поведение (Deception). Тут подъехала работа помасштабнее, в которой строятся симуляции военных игр и изучается поведение различных ИИ в многосторонних конфликтах. Основной вывод - этому вашему ИИ даже повода не надо, что ядерную войну начать, он сам его придумает - под катом

Show all...

Escalation Risks from Language Models in Military and Diplomatic Decision-Making

Rivera et al. 2024 -

https://arxiv.org/abs/2401.03408

Работа направлена на изучение поведения множества агентов ИИ в симулированных военных играх, с акцентом на изучение их склонность к эскалации многосторонних конфликтов. Опираясь на литературу по политологии и международным отношениям о динамике эскалации, авторы разработали симуляцию военной игры и систему оценок рисков эскалации действий, предпринимаемых агентами в различных сценариях. Оказывается, что все исследуемые в работе модели: GPT-4, GPT-3.5, Claude…

😱 3🔥 1

Photo unavailableShow in Telegram

Repost from N/a

Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram
Photo unavailableShow in Telegram

Сука

Show all...

🔥 5😁 5

Repost from N/a

рассказали, что есть расширение для браузера, которое везде заменяет "искусственный интеллект" на "перемножение матриц" аж захотелось

Show all...

🔥 5

Repost from N/a

Photo unavailableShow in Telegram

Это и есть искусственный интеллект? Это же просто матрицы перемножаются

Show all...

🔥 10😁 4

Discovering Language Model Behaviors. Model's Persona Evaluation - 2 Заканчиваем слона от Anthropic. В предыдущих сериях: 0) Обзор и спойлеры (пост) 1) Туториал: как создать датасет с помощью LLM (пост и пост) 2) Оцениваем персональность модели + 2.1) эффект обратной масштабируемости (пост) Сегодня: 3) Оцениваем модель на разное 3.1) Льстивость (sycophancy) и намеренное ухудшение качества ответа (sandbagging) и анализируем, почему они там? 3.2) Оцениваем модель на представленность симптомов экзистенциального риска: - инструментальные цели (пост), - короткие-длинные цели, - ситуационная осведомленность (situational awarness) - желание взаимодействовать с другими ИИ - приверженность определенной теории решений 3.3) Исследуем гендерные биасы в модели. - под катом

Show all...

Discovering Language Model Behaviors. Model's Persona Evaluation - 2

Часть - 1 В целом, в качестве основного результата, оценивается 52B LM модель, обученная на 1000 шагах RLHF. Для оценки влияния размера модели и количества шагов обучения RLHF на модели рассматриваются: Модель-генераторНабор параметров для оценки: 810M, 1.6B, 3.5B, 6.4B, 13B, 22B, 52BНабор числа шагов RL : 0, 50, 100, 250, 500, 1000 шагов (из одного и того же запуска RL обучения, разные чекпоинты). Модель - helpfull-only (Bai et al. 2022) GPT-2 (Radford et al., 2018), дообученная RL на наборе шагов. Модель…

🔥 4

02:06

Video unavailableShow in Telegram

На этих выходных мемов не было. А знаете почему? Потому что Император защищает! Вместо мемов - музыкальная пауза:

Show all...

videoplayback.mp48.70 MB

🔥 5🤝 3

Choose a Different Plan

Your current plan allows analytics for only 5 channels. To get more, please choose a different plan.

Don't get caught by a cheater! Telemetrio finds and tags such channels 👉 If you want to see the tag, subscribe 👈

Mrs Wallbreaker about AI Risk, AI Alignment, AI Safety, AI Ethics, AGI

Data loading in progress...

Data loading in progress...